Kubeflow实战系列: 利用TFJob运行分布式TensorFlow

  1. 云栖社区>
  2. 容器服务Docker&Kubernetes>
  3. 博客>
  4. 正文

Kubeflow实战系列: 利用TFJob运行分布式TensorFlow

必嘫 2018-06-14 08:13:46 浏览8247
展开阅读全文

介绍

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用TfJob运行分布式模型训练。

TensorFlow分布式训练和Kubernetes

TensorFlow作为现在最为流行的深度学习代码库,在数据科学家中间非常流行,特别是可以明显加速训练效率的分布式训练更是杀手级的特性。但是如何真正部署和运行大规模的分布式模型训练,却成了新的挑战。 实际分布式TensorFLow的使用者需要关心3件事情。

  1. 寻找足够运行训练的资源,通常一个分布式训练需要若干数量的worker(运算服务器)和p

网友评论

登录后评论
0/500
评论
必嘫
+ 关注
所属云栖号: 容器服务Docker&Kubernetes