PAI深度学习Tensorflow框架多机多卡多PS Server使用说明

  1. 云栖社区>
  2. 阿里云机器学习>
  3. 博客>
  4. 正文

PAI深度学习Tensorflow框架多机多卡多PS Server使用说明

傲海 2017-12-21 14:09:10 浏览3602
展开阅读全文

简介

PAI目前已经上线了支持多机、多卡、多PS Server的TensorFlow服务,目前只支持华北2 Region。华北2 Region因为支持多机多卡功能,适用于大规模数据的训练,相关服务需要收费,有需要的相关机构可以联系我们。

原理说明

  • Parameter Server节点:用来存储TensorFlow计算过程中的参数。配置多个PS节点,计算参数将会被自动切片并存储在不同的PS节点中,从而减小Worker和PS节点通信过程中的带宽限制的影响。
  • Worker节点:“多机多卡”中的“机”,GPU卡的载体。
  • Task节点:“多机多卡”中的“卡”,在PAI中指的是GPU卡,在TensorFlow训练过程中,通过数据切片将数据分布在不同的Task节点进行模型参数的训练。

使用说明

多机、多卡、多PS功能会以服务化的方式提供,用户无需关心底层计算

网友评论

登录后评论
0/500
评论
傲海
+ 关注
所属云栖号: 阿里云机器学习