像Google一样构建机器学习系统3 - 利用MPIJob运行ResNet101

  1. 云栖社区>
  2. 容器服务Docker&Kubernetes>
  3. 博客>
  4. 正文

像Google一样构建机器学习系统3 - 利用MPIJob运行ResNet101

必嘫 2019-05-17 11:35:32 浏览7637
展开阅读全文

本系列将利用阿里云容器服务,帮助您上手Kubeflow Pipelines.

上篇文章中,我们可以看到如何通过Kubeflow Pipeline运行单节点任务机器学习工作流,在本文中,我们会介绍如何使用Pipeline运行分布式MPI任务,该MPI任务运行模型ResNet101的测试。

开发MPIRun Pipeline

由于Kubeflow Pipelines提供的例子多数都是单机任务,那么如何利用Pipelines运行分布式训练?阿里云容器服务团队提供了利用MPIJob训练ResNet101模型的例子,方便您在阿里云上使用和学习Kubeflow Pipelines,并且训练支持分布式的allredu

网友评论

登录后评论
0/500
评论
必嘫
+ 关注
所属云栖号: 容器服务Docker&Kubernetes