构建Tensorflow RDMA的Docker镜像

  1. 云栖社区>
  2. 博客>
  3. 正文

构建Tensorflow RDMA的Docker镜像

萧元 2019-01-29 12:05:57 浏览1460
展开阅读全文

RDMA是一个远程通讯技术,它通过Kernel bypass等方式降低数据传输中的延迟和CPU消耗。
在分布式训练中,由于多个Worker之间或者Worker和Paramater Server 之间需要大量传输模型变量。当GPU到达一定数量后,受制于网络带宽以及TCP协议的延迟,通讯往往会成为计算性能的瓶颈,而在分布式训练中使用RDMA技术能够非常明显地提高训练速度。

Tensorflow

Tensorflow是谷歌开源的深度学习框架,它有丰富的平台支持和API,也可以非常轻松地构建分布式模型训练。
Tensorflow 在实现里支持RDMA作为其分布式场景的通讯协议,但是官方镜像默认没有支持RDMA。需要重新构建tensorflow,并开启RDMA相关的构建参数。 Tensorflow 对 RDMA的支持和实现协议参见文档: htt

网友评论

登录后评论
0/500
评论
萧元
+ 关注