基于阿里云容器服务监控 Kubernetes集群GPU指标

33
76
8
  1. 云栖社区>
  2. 容器服务Docker&Kubernetes>
  3. 博客>
  4. 正文

基于阿里云容器服务监控 Kubernetes集群GPU指标

萧元 2018-10-08 04:25:57 浏览13502
展开阅读全文

简介

当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。

Prometheus

Prometheus 是一个开源的服务监控系统和时间序列数据库。从 2012 年开始编写代码,再到 2015 年 github 上开源以来,已经吸引了 20k+ 关注,2016 年 Prometheus 成为继 k8s 后,第二名 CNCF(Cloud Native Computing Foundation) 成员。2018年8月 于CNCF毕业。
作为新一代开源解决方案,很多理念与 Google SRE 运维之道不谋而合。

image.png | left | 516x309

操作

附件下载: Grafana ...[萧元].1566218382.zip

网友评论

登录后评论
0/500
评论
萧元
+ 关注
所属云栖号: 容器服务Docker&Kubernetes