ElasticDL: Kubernetes-native 弹性分布式深度学习系统

  1. 云栖社区>
  2. 蚂蚁金服科技>
  3. 博客>
  4. 正文

ElasticDL: Kubernetes-native 弹性分布式深度学习系统

缪克卢汉 2019-09-12 15:50:22 浏览5764
展开阅读全文

9月11日,蚂蚁金服在 Google Developer Day Shanghai 2019 上宣布开源了基于 TensorFlow 2.0 eager execution 的分布式深度学习系统 ElasticDL。基于 TensorFlow 的支持弹性调度的深度学习系统,据我们所知,ElasticDL 是第一 个。项目负责人王益和我们分享了 ElasticDL 项目的设计意图和现状,尤其是 ElasticDL 与 TensorFlow 2.0 以及 Kubernetes 的技术关联。

分布式深度学习的技术思路

基于 TensorFlow 的分布式训练系统大致可以分为以下四类:

image.png

其中,ElasticDL 位于田字格的右上角。之所以选择这条技术思路,是为了利用 Kubernetes 实现容错和弹性调度。

高性能计算和云计算

在深度学习技术研发

网友评论

登录后评论
0/500
评论
缪克卢汉
+ 关注
所属云栖号: 蚂蚁金服科技