NERSC扩展深度学习计算能力达15千万亿次FLOPS

简介:

Intel、斯坦福大学和美国国家能源研究科学计算中心(NERSC,National Energy Research Scientific Computing Center)近期宣布实现了首个15千万亿次浮点运算(PetaFLOPS)计算能力的超级计算集群。该工作成果以论文发表,名为“以15千万亿次FLOPS运行深度学习:科学数据的监督和半监督分类”(Deep Learning at 15PF: Supervised and Semi-Supervised Classification for Scientific Data)。据论文介绍,该工作使用由9622个1.4GHz Intel至强融核(Phi)处理器所组成的集群,以物理和气象数据集为训练数据做深度学习运算,达到了11.41至13.47千万亿次FLOPS的平均持久性能,峰值性能在采用单精度时达15.07千万亿次FLOPS。实验使用的是NERSC的Cori Phase-II 超级计算集群,该集群有9668个节点,每个节点有68核,每个核支持4个硬件线程(相当于每个节点272核),整个集群支持2,629,696个线程。

论文给出的最突出贡献是达到了75%的扩展因子,在具有9600个节点的集群上取得了7205倍的加速。完全扩展(即100%扩展,或线性扩展)时可达9600倍的加速。

这一结果的取得要部分归功于斯坦福大学计算机科学系Christopher Ré教授研究小组的工作。该研究小组的工作提出了对人工神经网络(ANN,Artificial Neural Network)参数同步更新和异步更新的支持。

同步屏障(Synchronisation Barrier)通常是机器学习等算法在并行化时所面对的一个严重障碍。当多个节点同步地计算一个任务时,任一节点的短暂挂机将延缓并阻塞所有计算中的节点。这在分布式系统中被为“拖后者(Straggler)效应”。困扰同步系统的另一个问题是,如果批处理的计算规模下降,那么同步系统的性能也会随之下降。在大规模并发集群中,正如上面所介绍的集群,这将构成严重的问题。百度提供的DeepBench基准测试框架表明,当批处理的规模下降时,峰值FLOPS性能可下降25~30%。整体性能下降的时间复杂度符合O(log(M)),其中M是集群中节点个数。

另一方面,异步深度学习系统需要更多次的迭代(因此也需要更多的计算)才能收敛到一个解。这是由于不好的统计效率所导致的,该问题被称为“过时”(Staleness)问题。此外,异步系统还具有无法收敛到一个解的风险。针对该问题,Christopher Ré研究小组的Ioannis Mitliagkas指出,在目标函数是正确的情况下,如果参数调优存在错误,很可能无法收敛。

两种模型各具缺点和高效之处,这启发研究人员引入了一种混合方法解决问题。在该方法中,数个节点组成一个小规模的计算组,同一计算组中的各个节点是同步工作的,目标是对模型做一次更新。各个计算组与一个中心化的参数服务器做异步交互,很好地利用了同步方式和异步方式。

该混合方法抑制了“拖后者效应”。相比于同步方式,它提供了至少1.66倍到最高10倍的速度增加。此外,采用该方法的系统表现出强可扩展性(strong scaling)的特性,可扩展到1024个节点,其中同步方式在512个节点的规模停止扩展。强可扩展性是指在保持问题规模一定的情况下增加处理器的数量,Mitliagkas指出,强可扩展性是机器学习问题中的常见用例。

该算法已进一步用于解决实际的科学问题。一个应用就是学习如何从背景事件中分离出罕见的新粒子信号,该应用可用于理解宇宙的本质。其它的应用还包括气象数据中的特性识别,这使得研究人员可以标定气候改变中发生极端气候的频率和强度。
本文转自d1net(转载)

相关文章
|
5天前
|
机器学习/深度学习 算法 安全
深度学习在图像识别中的应用与挑战构建高效可扩展的RESTful API:后端开发的实战指南
【4月更文挑战第30天】 随着计算机视觉技术的飞速发展,深度学习在图像识别领域取得了显著的成果。本文将探讨深度学习技术在图像识别中的应用及其所面临的挑战。首先,我们将介绍深度学习的基本原理和关键技术,然后分析其在图像识别中的优势和应用案例。最后,我们将讨论当前深度学习在图像识别领域所面临的主要挑战和未来的发展趋势。
|
消息中间件 机器学习/深度学习 传感器
Kafka +深度学习+ MQTT搭建可扩展的物联网平台【附源码】
Kafka +深度学习+ MQTT搭建可扩展的物联网平台【附源码】
489 0
Kafka +深度学习+ MQTT搭建可扩展的物联网平台【附源码】
|
机器学习/深度学习 分布式计算 Hadoop
【Hadoop Summit Tokyo 2016】Spark上可扩展的深度学习
本讲义出自Matthias Langer、Dr. Zhen He与Dr. Zhen He在Hadoop Summit Tokyo 2016上的演讲,主要介绍了深度学习的基本概念和相关知识,分享了Spark与深度学习的关联,并介绍了La Trobe大学的深度学习系统。
1584 0
|
4天前
|
机器学习/深度学习 安全 数据处理
深度学习在图像识别中的应用与挑战
【5月更文挑战第1天】 随着科技的不断发展,深度学习技术在图像识别领域取得了显著的成果。本文将探讨深度学习在图像识别中的应用,分析其优势和挑战,并提出一些建议和未来发展方向。
|
1天前
|
机器学习/深度学习 算法 安全
深度学习在图像识别中的应用与挑战
【5月更文挑战第4天】 随着计算机视觉技术的飞速发展,深度学习已成为推动该领域进步的关键力量。本文聚焦于深度学习技术在图像识别任务中的运用及其面临的挑战,旨在为读者提供一个关于当前技术成就与未来发展方向的全景式视角。文中不仅探讨了卷积神经网络(CNN)等先进模型在提高图像识别准确率方面的应用,还分析了数据偏差、模型泛化能力不足及对抗性攻击等问题对现有系统稳定性的影响。通过深入剖析这些挑战,本文提出了若干应对策略,并展望了深度学习技术在未来图像识别领域的演进趋势。
|
1天前
|
机器学习/深度学习 监控 自动驾驶
深度学习在图像识别中的应用及挑战
【5月更文挑战第3天】 随着计算机视觉技术的飞速发展,深度学习已成为推动图像识别进步的关键力量。本文将探讨深度学习模型在图像识别领域的应用,并分析当前面临的主要挑战以及未来的发展趋势。我们将重点关注卷积神经网络(CNN)的创新结构、训练技巧和优化方法,以及如何克服过拟合、计算资源限制等问题。通过实例分析和最新研究成果的讨论,旨在为读者提供一个关于深度学习在图像识别领域应用的全面视角。
|
2天前
|
机器学习/深度学习 人工智能 计算机视觉
深度学习在图像识别中的应用与挑战
【5月更文挑战第3天】 随着人工智能技术的飞速发展,深度学习已成为推动计算机视觉领域进步的核心动力。本文将深入探讨深度学习技术在图像识别任务中的创新应用,并分析当前面临的主要挑战。我们将从基本的卷积神经网络(CNN)结构出发,逐步展开对高级模型如ResNet、GANs及其变体的研究,同时着重讨论数据增强、迁移学习等优化策略在提升模型性能方面的作用。此外,我们也将关注计算资源限制、过拟合问题以及对抗性攻击等实际问题,并提出可能的解决方案和未来的研究方向。
|
2天前
|
机器学习/深度学习 编解码 自然语言处理
如何评价深度学习在自然语言处理、计算机视觉等领域的应用成果?
【5月更文挑战第3天】如何评价深度学习在自然语言处理、计算机视觉等领域的应用成果?
18 6
|
2天前
|
机器学习/深度学习 算法 数据安全/隐私保护
探索深度学习在图像识别中的应用与挑战
【5月更文挑战第3天】 随着人工智能技术的迅猛发展,深度学习在图像处理与识别领域已经取得了显著的进步。本文旨在深入分析深度学习技术在图像识别任务中的应用,并探讨其面临的主要挑战及潜在的解决策略。通过回顾卷积神经网络(CNN)的基础理论,以及其在多个实际场景中的成功应用案例,本文揭示了深度学习模型在提高图像识别准确性方面的巨大潜力。同时,文中还讨论了数据不平衡、模型泛化能力、计算资源需求等关键问题,并提出了相应的优化方法,如数据增强、迁移学习及网络结构搜索等。
|
2天前
|
机器学习/深度学习 传感器 边缘计算
基于深度学习的图像识别技术在自动驾驶系统中的应用
【5月更文挑战第3天】 随着人工智能技术的飞速发展,深度学习已经成为推动技术创新的关键力量。特别是在图像识别领域,深度学习技术通过模仿人脑处理视觉信息的方式,显著提升了机器识别和理解图像的能力。本文主要探讨了深度学习在自动驾驶系统中图像识别的应用,包括车辆检测、行人识别、交通标志识别等关键功能,并分析了当前的挑战及未来的发展趋势。