阿里巴巴搜索混部解密

  1. 云栖社区>
  2. AI·OS推荐与搜索技术>
  3. 博客>
  4. 正文

阿里巴巴搜索混部解密

叶良 2018-01-29 21:55:11 浏览3958
展开阅读全文

现实与梦想

  阿里集团搜索在线集群非大促部署下CPU利用率日均值不高,除了少部分国际业务流量全天相对比较稳定外,国内在线业务流量全天有明显的波峰波谷现象,集团内以及蚂蚁等的业务大多如此。虽然搜索2015年就基于T4(阿里开源容器技术Pouch前身)实现了如索引构建这种离线任务和在线混部,但是因为当时资源隔离上还不够完善,部分延时特别敏感的业务不敢与之混部,没能充分利用闲置的CPU处理能力。反观离线集群有大量排队的数据预处理、特征抽取、选品、模型训练等任务以很高的负载运行,一些新兴业务因为预算有限申请不到资源而不能快速启动迭代起来,这将严重制约我们探索新业务新方向步伐。
  根据业务特点采购合适的几种机型,保证在线业务SLA的前提下,进行合理的任务编排和调度,将闲置资源交给离线使用来提高集群利用率,解决大促前后大规模扩缩容和新兴业务

网友评论

登录后评论
0/500
评论
叶良
+ 关注
所属云栖号: AI·OS推荐与搜索技术