惊!阿里双11数据中心来了一位顶级“刺客”?

简介: 早上好!阿里妹来考大家一道数学题:有10万件大小不同的商品,要平均放到1万个箱子里,应该如何分配? 对于聪明的你来说,这还是一个可解的问题。但是!如果问题更难一点:这10万件商品会随时变大变小,而且还有“矿泉水不能压在薯片上”等一大堆限制条件,如何在几秒钟内给出最均衡的装箱方案? 阿里巴巴的工程师每天都会面对这类问题。

早上好!阿里妹来考大家一道数学题:有10万件大小不同的商品,要平均放到1万个箱子里,应该如何分配?

对于聪明的你来说,这还是一个可解的问题。但是!如果问题更难一点:这10万件商品会随时变大变小,而且还有“矿泉水不能压在薯片上”等一大堆限制条件,如何在几秒钟内给出最均衡的装箱方案?

0507d8624678309877d2c3409386c4f2886e6668

阿里巴巴的工程师每天都会面对这类问题。无数个应用对服务器的需求每时每刻都在变化,还有新的应用不断加入,如何才能把这些应用均衡的分配到数万台不同规格的机器上。

为了解放人类工程师并能够更好的分配计算资源,11月6日,阿里巴巴计算资源AI分配官“达灵”正式上任,准备迎接天猫双11的挑战。

1d7324977c364daece8d01041d71666709eb8120

实习期间,达灵将数据中心资源分配率拉升到了90%以上,在部分业务中节省了一半服务器,并且可以2秒钟锁定异常机器,命中率94%。

9e8742631d0f9e57e53e22c8cdb1ca17588245e4 

减少机械重复工作 为阿里节省一半机器

打开手机淘宝,首页可以看到“有好货”、“猜你喜欢”等这样的常用功能模块。以前,要人工为每一个模块分配服务器数量以及监督运行情况。对于工程师来说,挑战巨大。

“伴随双11规模的逐年暴涨,这样的工作已经不适合人来做了。” 阿里巴巴资深搜索研发专家郑南说。为此,阿里巴巴搜索团队对“达灵”进行了大量训练和工程化,在实习期“达灵”就完全替代了人工,在推荐平台智能调度方面将资源分配率提高了一倍,这相当于节省了一半的机器。

59fccc75cc56d99248b460e167437933f03775b4

 “这套算法能够快速给出最优的部署方案,并且根据访问量不断搬运应用和数据,确保没有一台机器偷懒”。郑南说,我们要做的就是不断用数据喂养她,提供表格数据大小、访问量以及目前的部署方案等信息,省下的就是喝着茶看她的表演。“她甚至可以在线上克隆一个真实的服务,自己进行压力测试,以判断方案是否最优。”

只需2秒钟,隔离异常机器准确率94%

阿里巴巴遍布全球的数据中心如果有一台机器发生异常,未被及时处理,会带来什么损失?天猫双11期间,可能会是近百万用户下单失败。

为了避免这种情况,每年双11都会有大量的工程师紧盯着集群的健康情况。如果发现有不正常的机器,马上进行手工隔离,甚至直接下线,业内俗称“杀机器”。

9f30f0260b0cf8511d5e6ce7946123c962b08281

但从出现异常、被发现到处理完成,整个过程有时会长达数分钟。阿里巴巴调度系统资深专家丁宇说,“之前我们已经做到了人能够做的极限。去年,我们开始探索用人工智能技术寻求突破,把时间、负载、服务状态等不确定因素通过数据算法关联,最终找到了问题的解法”。

今年丁宇团队和“达灵”合作,对“达灵”进行深度改装,实现了对异常机器更精准、快速的探测。算法每天会采集29亿条机器运营状态,在之前的测试中,日均处理异常机器1000次左右,在大促期间调度准确率达到94%,时间只需要2秒钟。一发现异常机器,立刻精准出手,绝不含糊,可谓顶级“刺客”。

从仓库到数据中心  天猫双11 AI满地跑  

 “其实达灵的前身真的是仓库管理员,就是为了解决包裹装箱的难题”,阿里巴巴iDST机器学习算法负责人朱胜火博士透露。

一年前,iDST和菜鸟网络的算法工程师共同研发了一套算法,能够在顾客下单的瞬间,对商品的属性、数量、重量、体积,甚至摆放的位置都综合进行计算,可迅速地与箱子的长宽高和承重量进行匹配,并且计算出需要的几个箱子,商品在箱子里面如何摆放最节省包装。整个计算过程,不足1秒。

AI介入后,菜鸟网络的仓库较过去减少5%以上的包装材料。这是什么概念呢?以2015年天猫双11当天产生的约4.67亿包裹数来算,如果用上这个技术,一天能节省2300万个箱子。技术解读详情可看:世界级难题:把不同物品装进箱子,如何使箱子表面积最小?

朱胜火介绍,基于同样的理念,我们将这套算法带到了数据中心,研发出了达灵。达灵的工作首先是在集群监控数据之上,建立起很多个深度学习、在线学习的模型,由此对集群内每一台机器、每一个应用,当前和未来的状态都了然于胸。在此基础上,达灵通过应用强化学习、组合优化等技术,可以在复杂环境中自行学习判断,作出一系列比如错峰排布、碎片规整等聪明的决策,从而全局最优化集群的资源分配率以及稳定性。


原文发布时间为:2017-11-7

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”微信公众号

相关文章
|
11月前
|
机器学习/深度学习 jstorm 人工智能
带你读《2022龙蜥社区全景白皮书》——6.2.3 龙蜥社区助力阿里数据中心大幅降低成本
带你读《2022龙蜥社区全景白皮书》——6.2.3 龙蜥社区助力阿里数据中心大幅降低成本
119 1
|
人工智能 运维 新能源
阿里公布碳中和目标 阿里云数据中心助力2030绿色云
绿电交易+绿色科技+智能平台,阿里云数据中心助力2030绿色云~
阿里公布碳中和目标  阿里云数据中心助力2030绿色云
|
运维 机器人 双11
2021双11|央视财经走进阿里数据中心,探秘“买买买”背后的绿色科技
服务器能“泡澡”散热,机器人能值班接替近30%的重复性工作。 先进技术不仅做到高效运维,还能助力节能减排。
2021双11|央视财经走进阿里数据中心,探秘“买买买”背后的绿色科技
阿里数据中心数字孪生可视化
IDC 数字孪生产品的系统性解决方案。
阿里数据中心数字孪生可视化
|
达摩院 数据中心
阿里云集齐五大超级数据中心
位于南通、杭州和乌兰察布的三座超级数据中心正式落成,将新增超百万台服务器,辐射京津冀、长三角、粤港澳三大经济带。
1318 1
阿里云集齐五大超级数据中心
|
新零售 Java 测试技术
独家揭秘!阿里大规模数据中心的性能分析
数据中心已成为支撑大规模互联网服务的标准基础设施。随着数据中心的规模越来越大,数据中心里每一次软件(如 JVM)或硬件(如 CPU)的升级改造都会带来高昂的成本。合理的性能分析有助于数据中心的优化升级和成本节约,而错误的分析可能误导决策、甚至造成巨大的成本损耗。
6151 0
|
新零售 Java 测试技术
独家解密:阿里大规模数据中心性能分析
数据中心已成为支撑大规模互联网服务的标准基础设施。随着数据中心的规模越来越大,数据中心里每一次软件(如 JVM)或硬件(如 CPU)的升级改造都会带来高昂的成本。合理的性能分析有助于数据中心的优化升级和成本节约,而错误的分析可能误导决策、甚至造成巨大的成本损耗。
3655 0
|
算法 大数据 程序员
1月14日云栖精选夜读 | 如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!
阿里妹导读:如何保障数据中心的稳定运行,是多年来一直困扰业界的难题。机房环境如果发生未预期变化,可能造成难以估计的损失。所以我们希望能构建一个“变更沙盘”,在真实变更之前,操作人员可以先在沙盘中进行试变更,若变更效果在预期内,再对真实环境进行变更,从而尽可能减少变更导致的机房故障。
2969 0