Kubeflow实战系列:阿里云上小试TFJob

  1. 云栖社区>
  2. 容器服务Docker&Kubernetes>
  3. 博客>
  4. 正文

Kubeflow实战系列:阿里云上小试TFJob

必嘫 2018-06-13 07:38:12 浏览6421
展开阅读全文

介绍

本系列将介绍如何在阿里云容器服务上运行Kubeflow方案, 本文介绍如何使用TfJob运行模型训练。

TFJob简介

模型训练是机器学习最主要的实践场景,尤其以使用机器学习框架TensorFlow进行模型训练最为流行,但是随着机器学习的平台由单机变成集群,这个问题变得复杂了。GPU的调度和绑定,涉及到分布式训练的编排和集群规约属性的配置(cluster spec)也成了数据科学家们巨大的负担。

为了解决这一问题,一个新的资源类型TFJob,即TensorFlow Job被定义出来了。通过这个资源类

网友评论

登录后评论
0/500
评论
必嘫
+ 关注
所属云栖号: 容器服务Docker&Kubernetes