【云周刊】第209期:Perseus(擎天):统一深度学习分布式通信框架 [弹性人工智能]

  1. 云栖社区>
  2. 博客>
  3. 正文

【云周刊】第209期:Perseus(擎天):统一深度学习分布式通信框架 [弹性人工智能]

场景研读 2019-03-08 16:19:43 浏览4232
展开阅读全文

本期头条

Perseus(擎天):统一深度学习分布式通信框架 弹性人工智能

500619594_meitu_1

近些年来,深度学习在图像识别,自然语言处理等领域快速发展。各种网络模型,需要越来越多的计算力来进行训练。以典型的中等规模的图像分类网络Resnet50为例,基准的训练精度为Top-1 76%, Top-5 为 93%,为达到此精度,一般需要将整个Imagenet数据集的128万张图片,训练90次(90 epoch). 这样的计算量,以单张P100的计算力需要6天才能训练完毕,而最近的NLP 领域取得突破的Bert 模型以及GPT-2的预训练,如果在单机上进行则需要数月甚至按年计。因此在实际的生产环境,引入分布式训练,大大降低模型训练所需的时间,提高模型迭代的速度成为紧迫的需求。基于这样的需求,各大深度学习框架,基本都实现了分布式训练的支持。点击查看

Rocket

网友评论

登录后评论
0/500
评论
场景研读
+ 关注

云周刊

每周汇集云栖社区内容精选,包括头条集锦、干货搜集、最热活动、技术直播、热门话题、论坛精选等

订阅