阿里实时计算平台运维架构演进

  1. 云栖社区>
  2. AliDataOps>
  3. 博客>
  4. 正文

阿里实时计算平台运维架构演进

KB小秘书 2019-07-25 22:52:08 浏览1129
展开阅读全文

引言

大家知道最近两年随着AlphaGo的兴起,人工智能和机器学习成为各个互联网公司,如阿里巴巴、腾讯等重金投入的场景。实时计算作为机器学习的重要基础设施,开始大规模应用起来,它在搜索、推荐、广告、监控等场景下,对数据、模型等产生实时的反馈,对算法效果的提升有非常大的帮助。

在去年双十一时,阿里的实时计算平台服务了20多个BU、有1K多的 Job、近万台机器,其计算峰值达到了4.72亿QPS,大家在双十一当天看到的阿里巴巴对外提供不断滚动的大屏,其计算峰值达到1.8亿QPS。

随着实时计算的大规模上线,在平台运维方面也面临着很多与在线服务和离线计算都不太一样的挑战。

01实时计算平台的运维挑战

关于实时计算、离线计算和

在线服务的差异

  • 离线计算对 SLA 的要求不高,分钟甚至小时的延时都是可以接受的;
  • 实时计算就要求必须达到秒级,不得出现一分钟卡

网友评论

登录后评论
0/500
评论
KB小秘书
+ 关注
所属团队号: AliDataOps