技术如何秒懂你?阿里百万级QPS资源调度系统揭秘

  1. 云栖社区>
  2. 阿里技术>
  3. 博客>
  4. 正文

技术如何秒懂你?阿里百万级QPS资源调度系统揭秘

技术小能手 2017-12-19 10:59:14 浏览5213
展开阅读全文

f8b4970897643b395aae0ab57b121b38efdd785f

理想情况下,TPP平台上的场景owner不需要关注底层的资源分配情况,平台尽可能的提高CPU利用率,同时保证平台上场景的稳定。QPS(每秒查询率)增加的时候扩容,QPS减少的时候缩容,未来这些在夜间被拿掉的机器可以用来混部离线任务等;另外,在2016年双11的时候,总的机器数目不足以维持所有的场景以最高性能运行,需要有经验的算法同学判断场景的优先级,从低优先级的场景上拿出来机器,补充到高优先级的场景中保证成交额。这些平台稳定性工作都是需要繁琐的人工调度,会有如下的缺点:

  • 人力成本巨大:人肉无法监控和处理所有的场景;
  • 反应时间较长:从发现场景出问题,找出可以匀出机器的不重要场景,到加到重要场景所需要的时间相对过长,而程序天然的有反应时间短的优势;
  • 人力无法全局高效的调度资源, 而程序可以更敏感的发现场景的问题,更全面的搜索可以拿出来机器的







网友评论

登录后评论
0/500
评论
技术小能手
+ 关注
所属云栖号: 阿里技术