助力深度学习!阿里开源可插拔 GPU 共享调度工具

  1. 云栖社区>
  2. 阿里巴巴云原生>
  3. 博客>
  4. 正文

助力深度学习!阿里开源可插拔 GPU 共享调度工具

jessie筱姜 2019-03-02 11:56:21 浏览2979
展开阅读全文

根据 Gartner 对全球 CIO 的调查结果显示,人工智能将成为 2019 年组织革命的颠覆性力量。对于人工智能来说,算力即正义,成本即能力,利用 Docker 和 Kubernetes 代表云原生技术为 AI 提供了一种新的工作模式,将 GPU 机器放到统一的资源池进行调度和管理,这避免了GPU 资源利用率低下和人工管理的成本。因此,全球主要的容器集群服务厂商 Kubernetes 都提供了 Nvidia GPU 容器集群调度能力,但是通常都是将一个 GPU 卡分配给一个容器。这虽然可以实现比较好的隔离性,确保使用 GPU 的应用不会被其他应用影响;对于深度学习模型训练的场景也非常适合,但是,针对模型开发和模型预测的场景还是会显得比较浪费。基于此,大家有了共享 GPU 的集群调度需求。

Kubernetes 共享 GPU 集群

网友评论

登录后评论
0/500
评论