用自定义监控实现 GPU 异常状况的检查与报警

  1. 云栖社区>
  2. 博客>
  3. 正文

用自定义监控实现 GPU 异常状况的检查与报警

liboat 2019-09-10 10:24:08 浏览531
展开阅读全文

应用场景

  • 阿里云的云监控已原生支持 GPU 实例,可参考:云监控实现GPU云服务器的GPU监控和报警
  • 小概率场景中,GPU 卡会处于异常状态( 例如因显存校验失败而暂时不可用),导致 GPU 云监控也不可用;但此时业务系统需要感知异常情况,以便快速隔离、迁移业务,重启服务器等等
  • 当业务高可用标准高、服务器数量大时,对这种小概率场景的自动监测、报警,就变得尤为重要
  • 本文将介绍通过云监控的自定义监控 & OpenApi - PutCustomEvent 来做到对这种小概率事件的自动监测、报警,第一时间精准处理。示例图:
  • 6187ccd18489987cd29d74f89bd746d3.png

实践步骤

在云监控控制台配置自定义监控

创建报警 联系人联系组

  • 2d32b23869313f58beba1c0022b2e321.pngf702f2e14371ff201682b5b4b4083743.png

创建应用分组

  • 应用分组创建后,请记录 GroupId,后续上报自定义事件时会用到。下例中 GroupId 为 10008057
  • 12697a3472d018d8a77fa5f2865e6c27.png60131ccccf3c5ca95be382f8dc7c4391.png

创建事件报警

  • 创建完成后,查看对应

网友评论

登录后评论
0/500
评论
liboat
+ 关注