阿里云Kubernetes 1.9上利用Helm运行TensorFlow 分布式模型训练

  1. 云栖社区>
  2. 容器服务Docker&Kubernetes>
  3. 博客>
  4. 正文

阿里云Kubernetes 1.9上利用Helm运行TensorFlow 分布式模型训练

必嘫 2018-03-22 08:38:32 浏览2569
展开阅读全文

阿里云Kubernetes 1.9上利用Helm运行TensorFlow 分布式模型训练

TensorFlow是业界最流行的深度学习框架, 但是如何将TensorFlow真正运用于生产环境却并不简单,它面临着资源隔离,应用调度和部署,GPU资源分配,训练生命周期管理等挑战。特别是大规模的分布式训练场景, 单靠手动部署和人力运维已经无法有效处理。特别启动每个模块都需要指定好分布式集群的clusterSpec, 更是让人挠头。

在Kubernetes集群上运行分布式TensorFlow模型训练,可以依靠Kubernetes本身在应用调度,GPU资源分配,共享存储等方面的能力,实现训练任务和参数服务器的调度以及生命周期的管理。同时利用共享存储查看训练的收敛程度,调整超参。

但是手动写部署Yaml对于最终用户来说还是非常酸爽的,阿里云容器服务提

网友评论

登录后评论
0/500
评论
必嘫
+ 关注
所属云栖号: 容器服务Docker&Kubernetes