利用GPU性能指标进行弹性伸缩

  1. 云栖社区>
  2. 容器服务Docker&Kubernetes>
  3. 博客>
  4. 正文

利用GPU性能指标进行弹性伸缩

必嘫 2017-09-28 22:35:32 浏览3051
展开阅读全文

随着人工智能大潮的风起云涌, 视频识别,语音识别,图像识别,自然语言翻译,AI画匠等基于GPU的在线预测也在遍地开花。而弹性伸缩对于人工智能服务来说尤为重要,一方面是业务压力峰值时巨大的计算力需求;另一方面当业务空闲时,GPU的空耗成本也是大家很难承受的。同时在与客户的交流中,我们也发现客户对于GPU资源的弹性伸缩也有很强的定制化需求,希望能自主控制触发条件,并在此基础上和自身业务指标相结合等等。

基于这种现实,我们提供了一套容器服务所扩容触发器结合第三方监控框架influxDB+Grafana的报警伸缩方案。 具体来说,分为4个部分:

  1. 创建容器服务节点扩缩容触发器
  2. 部署基于Grafana和InfluxDB的GPU监控应用
  3. 在Grafana中设置通知渠道,通过Webhook调用缩扩容触发器
  4. 定义触发条件

创建触发器

参考 利用阿里云容器服务实现

网友评论

登录后评论
0/500
评论
必嘫
+ 关注
所属云栖号: 容器服务Docker&Kubernetes