【阿里飞天】飞天5K:开放比开源更有意义

简介: 从1500台升级到5000台规模,阿里集团的云梯2单集群,同时实现了跨集群扩展;云梯1实现了空间优化与跨机房集群扩展。如此大规模的计算能力开放出来,是亚马逊、Facebook、谷歌都没有做的事情。
1116a6256eb6aa7da4f6ce42b678022310ba80ec
飞天5K纪念碑,背后是已经部署了5K的机房

到目前为止,只有Google、Facebook这样的顶级技术型IT公司,其集群规模有能力按照5000来划分。今年8月,历时4个月,阿里集团涵括云梯1空间优化与跨机房集群扩展、以及云梯2单集群规模从1500台升级到5000台,同时实现跨集群扩展的5K项目顺利取得阶段性成果。据悉,云梯1和云梯2都是阿里集团处理海量数据储存与计算的系统,前者底层为Hadoop,后者底层为阿里云自主研发的飞天平台。今年上半年,云梯遭遇了机房容量的限制。业务规模增长迅速,预计离线计算集群将从现在的2个集群6000多台,增长到6个集群共21000台服务器,单集群规模要达到5000台。

d2a5b4145377510402aa2f1a0abf89d02977d769

飞天

飞天是由阿里云开发的大规模分布式计算系统。飞天负责管理数据中心Linux集群的物理资源,控制分布式程序进行,隐藏下层故障恢复和数据冗余等细节,有效的提供弹性计算和负载均衡的服务。

据悉,飞天5K单点集群拥有超过10万核计算的能力、100PB存储空间,可处理15万并发任务数,承载亿级别文件数目。同时,飞天5K单点集群的100TB排序能在30分钟完成,两倍于今年7月1日Yahoo在Sort Benchmark排序测试Daytona Gray Sort所创造的世界纪录——100TB排序完成时间约71分钟。

ODPS

ODPS作为离线数据处理平台,在整个5K的架构上起到了承上启下的作用。 许多新的技术也是第一次应用到5K项目,并且经受了准生产环境的检验,同时也为未来数据业务长期发展打下了坚实的基础。以跨集群数据复制为例:

  • 突破了单集群的数据存储上限。由于目前主流分布式系统master-slave的结构,单集群受限于master的内存和处理能力上限。而现在数据可以存储在多个集群上,不再受单集群的限制;
  • 可以实现多机房数据容灾。目前云梯1上大量非再生数据正在备份到其他集群上,将来可以动态的跨机房备份重要数据。
  • 实现跨数据中心动态负载均衡,将热点集群上的数据和作业动态迁移到空闲集群,缓解热点集群的压力,提高空闲集群的使用率;
  • 对于响应速度要求比较高的请求,可以在多个集群同时调度这个作业,将响应最快的请求返回给用户。

集团内部数据业务发展的需求

对于云梯这样的大规模分布式离线存储和计算集群来说,扩展性一直是其生命线,如果某一天云梯集群不能通过加机器来增加存储空间和计算能力时,那么云梯将无法继续支撑集团的离线计算业务。目前,阿里集团基本所有的重量级应用都会用到阿里云,据唐洪估计阿里内部采用云平台的部门比例已超过一半以上。淘宝每天的日交易量、双十一百万亿交易量的压力,以及新增的余额宝业务,都令云梯遭遇了机房容量的限制。为了突破集群存储的瓶颈,阿里云飞天团队、集团核心系统部、集团技术保障部、CDO数据平台等多个团队紧密协作,成功实现单集群超越5000台、多集群跨机房计算,并完成集群业务的大腾挪。

8cd4e47ec996e2e4cd367441989b4294304c11f3
阿里云资深总监飞天负责人 唐洪

开放比开源更有意义

飞天5K可以说是国内自主研发技术的一次飞跃,但是唐洪认为单单技术实现到一个东西是没有影响力的,唐洪认为这件事最大的意义是“任何一个开发者,当他有一个需求,想要用 5000台机器,跑一个小时,做一些事情的时候。今天我们把这个计算能力提供出去,这件事情是亚马逊、Facebook、谷歌都没有做的事情。在我们看来,我们希望的终极状态大家不要买机器,不要布机器,你就把应用跑云上来。这些工具对这些开发者来说是没有意义的,这点意义上来说,我们觉得开放比开源对他们的帮助更大。”

据唐洪介绍,阿里云现在已经部署了三个5K集群,某种意义上5K是个基础,不是根本的目标。5K作为整个云服务的基础,一方面能提供大规模计算的能力;另外,5K可以帮助开发者做成本的节省、资源调度。5K最关键的是要做共享,比如有些应用是 CPU,有些应用是内存,有些应用是 IO,只有池子大了才能在几个应用之间进行互补。

最大的挑战

在计算能力的开放上,首先要考虑的是安全的问题。其次企业用户和互联网的量级是不一样的,用户管理上有不一样的架构。很多美国的互联网公司也基于Hadoop做了很多的东西,为什么从来没有公司可以把Hadoop这种能力作为功能服务弄出去,这个本身需要做很大的工作才有可能变成一个公共服务的。

唐洪说:“当你把一个服务从企业内部一个应用的人群变成了一个互联网人群时,只有逐一解决了各个问题,才可以给外面的人去用。这也是我们之前为什么会走自主研发道路的原因。”

运维

运维的任务是维护5K平台稳定,为开发提供平稳的开发测试环境,为5K验收提供一个可靠的验收环境,由于集群版本的快速迭代给运维带来很多额外的挑战。而验收测试标准同样异常严格,阿里巴巴进行了10倍数据极限压力测试以及历史上规模最大的机房断电演习,一组数字或许可以更直观的看到这些测试结果:

  • 100T数据TearSort 30分钟完成,比世界纪录快了2倍;
  • ODPS作业10倍测试压力连续7天无人工干预跑过;
  • 高并发12,000 Job全部运行成功,单Job并发100,000 worker成功运行,并发5,000 Job时master在80秒完成故障恢复无作业失败。
唐洪介绍说:“在阿里巴巴,维护淘宝主站的团队和维护阿里云是一个团队,从硬件防断电这个角度来说,我们有设几级的保护措施,比如我们在每一个机房会有柴油机发电机,当市电断电之后柴油发电机可以切换进来,确保它有足够多的能量供给72小时的临时供电。”

“从软件方面说,我们的云服务器很多会提供异地架构的一些方案,但是需要客户去做一些配合。比如说你可以在两个不同的数据中心购买我们的云服务器,这样发生故障的话你可以切换到另一个那边去。”

国内外竞争

去年的阿里云开发者大会上,唐洪曾说过阿里云就是Google + Amazon模式的集成。提到与这俩家互联网巨头的竞争,唐洪表示:“其实,和亚马逊和与谷歌的竞争不完全在于技术,更在于产品与服务。构建云服务,我们有阿里巴巴集团多年的技术积累,我们有非常好的网络资源,而亚马逊在中国自己建骨干网走起来会比较艰难。以谷歌为例,它也有云服务,但或出于保持自己核心竞争力的原因,在云方面一直羞羞答答地没有大踏步向前走。”

而谈及对手亚马逊,唐洪自信地表示可以比亚马逊做的更好。“亚马逊没有类似飞天ODPS这样的大规模计算服务,并且我们对中国的云计算或者是移动互联网市场,可以有第一手精确的了解,这样有利于我们产品的本地化以及贴近用户的使用习惯。”

关于国内的竞争,唐洪认为阿里云作为一家提供通用服务的公司,最大的特点就是不挑客户。”我自己觉得,我们在搞一个长跑,今天的状态是领跑者,有两个人在后面,在这种情况下,你跑步的过程当中,看的是终点在哪里,这个市场还没有完全成熟起来,我们占有的在未来市场可能1%都不到,我们要瞄准更大的市场,不是看现有我们占了多少,但是时不时的要往后看一下,其它的产品有什么好的地方我们可以借鉴。我们部署瞄准市场去打的,而不是竞争对手。前景很光明,道路还是很艰苦的,马拉松才跑了5公里。还有很长的路,还有很多人要跑。”


本文转载自 CSDN  作者 周小璐
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
存储 云安全 大数据
【云计算和大数据平台】云计算平台和大数据平台(如阿里云、腾讯云、华为云等)的搭建和使用方法
【云计算和大数据平台】云计算平台和大数据平台(如阿里云、腾讯云、华为云等)的搭建和使用方法
242 0
|
存储 资源调度 监控
|
安全 数据安全/隐私保护
阿里云飞天计划在家实践
阿里云飞天计划在家实践
114 0
|
弹性计算 对象存储
阿里飞天计划助飞我的梦
兴趣是最好的老师,通过这次实践,我发现我对技术这个行业有极大的兴趣。虽然现在我欠缺的还有很多,但是我相信我一定会抓住接下来在校为数不多的时间,为自己的以后考虑多一些。在此感谢阿里云这个平台,这个飞天计划会让更多未来的技术从业人员参与进来,成长自己,互利共赢。作为新时代的农名工,我们必须要自足当下,一步一个脚印。就像我的座右铭:Code Change Wolrd!
阿里飞天计划助飞我的梦
|
弹性计算 NoSQL Java
阿里云飞天计划实践心得
首先介绍了自己的相关信息,其次阐述了对阿里云ESC的认识和自己的收获,最后展现了自己对未来的期望
|
Cloud Native Serverless 开发者
|
弹性计算 运维 Cloud Native
阿里云新品发布会周刊第122期 丨 构建云原生的开源大数据平台实践之路
新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多新品发布会!
230 0
阿里云新品发布会周刊第122期 丨  构建云原生的开源大数据平台实践之路
|
存储 Cloud Native 安全
云栖新闻|面向云原生时代阿里云推出自研“磐久”服务器系列
10月19日上午,在2021杭州云栖大会上,阿里云正式推出面向云原生时代 的“磐久”自研服务器系列,首款搭载自研芯片倚天710的磐久高性能计算系 列也同时亮相,该款服务器将在今年部署,为阿里云自用。
19030 0
云栖新闻|面向云原生时代阿里云推出自研“磐久”服务器系列
|
数据采集 弹性计算 分布式计算
飞天大数据平台2020-4月刊
【阿里云 飞天大数据平台和飞天AI平台4月新发布】
644 0
飞天大数据平台2020-4月刊
|
弹性计算 Oracle Cloud Native
云生态瞭望丨三向虎山行,All in 阿里云
“软件没落,SaaS雄起。”这其实不是人们的预测或判断,而是已然发生的事实。