美国重夺超算第一背后:英伟达GPU提供了95%计算力

简介:

时隔5年后,美国暂时夺回了世界超级计算机领域的头把交椅。美国当地时间6月8日,美国能源部下属橡树岭国家实验室宣布,他们研发出的超级计算机“顶点”(Summit),浮点运算速度峰值可达每秒20亿亿次,接近“神威·太湖之光”超级计算机的两倍。据悉,这台超级计算机由IBM公司负责制造,搭载了近28000块英伟达GPU,逾9000个IBM传统处理器的超级计算机。

GPU即图像处理器。理解 GPU 和 CPU 之间区别的一种简单方式是比较它们如何处理任务。CPU 由专为顺序串行处理而优化的几个核心组成,而 GPU 则拥有一个由数以千计的更小、更高效的核心(专为同时处理多重任务而设计)组成的大规模并行计算架构。这次英伟达提供的GPU为“顶点”提供了95%的计算力。

b7b8d475e7cd90d92513354caf62b1ab5b3f8e30

“顶点”超级计算机

自2013年6月中国超级计算机首次成为最强超算之后,美国就不再拥有世界上最强大的超算。全球超算TOP500组织的超级计算机官方排名将在本月底更新,“顶点”有望结束这一局面。

虽然超级计算机在云计算和大数据中心时代略微失色,但是很多棘手的计算问题还是需要大型机器。去年美国政府的一份报告中称,美国应该在超级计算上投入更多,以在核武器和高超音速飞机等国防项目,航空航天工业、石油开采和制药业的商业创新方面赶上中国。

68bf87952068ffc2da80b83053feeeacf5f90c24

美国能源部长里克·佩里推特截图

美国能源部长里克·佩里认为,“顶点”超算将给能源研究、科学发现、经济竞争力和国家安全带来深远影响。

橡树岭国家实验室(Oak Ridge National Laboratory)成立于1943年,最初是作为美国曼哈顿计划的一部分,以生产和分离铀和钚为主要目的建造的,原称克林顿实验室。他们的使命是攻克美国当下面临的最严峻的科学难题,并且开发新技术,为人类创造更加美好的生活,保护人类。

27648块英伟达GPU+9000个IBM传统处理器

根据橡树岭国家实验室公布的数据,“顶点”占地面积相当于两个网球场大小,其循环系统每分钟需要消耗4000加仑(约等于15142升)水来使37000个处理器降温。利用评估超级计算机的标准度量的结果显示,“顶点”的浮点运算速度可达20亿亿次每秒。这比美国此前制造的超级计算机“Titan”的速度快了100倍。

f14bc8a56e37728f3d9a00b408404cafff1ea8e4

IBM公司CEO、美国能源部长里克·佩里、英伟达CEO

而“顶点”超强的计算机力有95%来自英伟达为其提供的GPU,即搭载了27648块Tensor Core的英伟达Volta图形处理器,可以让“顶点”进行每秒超30亿亿次(3.3 exaops)的混合精密计算。

伊利诺伊大学香槟分校、美国国家超级计算应用中心的研究员Eliu Huerta将“顶点”巨大的 GPU 池形容为“就像梦境一样”。

GPU即图像处理器,它与一般计算机的中央处理器(CPU)不同之处在于:CPU由专为顺序串行处理而优化的几个核心组成,而GPU则拥有一个由数以千计的更小、更高效的核心(专为同时处理多重任务而设计)组成的大规模并行计算架构。

6878bb0fac5a3ad73d5582a9130c8d926a72b064

数年前,有研究人员发现图形处理器的并行运行能力,非常适合运行深度学习算法。英伟达也正是借着人工智能的浪潮,推出GPU,迅速占领了市场,甚至影响到了英特尔在计算机芯片市场里的地位。

橡树岭国家实验室负责人Thomas Zacharia表示,如此大规模的GPU使用对超级计算机来并不常见,它有助于机器学习在解决科学难题方面做出突破。

除了有英伟达的GPU的帮助外,IBM提供的超过9000个传统处理器也功不可没。

“顶点”成为尖端科学家的“游乐场”

“顶点”超强的计算威力,也让科学家们相信它能在未来创在奇迹。

b0a46e04c8724d50e5a038d5662e70c7ec94772c

“顶点”超级计算机外观

橡树岭国家实验室已经成为尖端科学家的“游乐场”,许多高校的科学家们迫切希望利用这台计算机完成此前不可能完成的任务。

Huerta就表示,他希望“顶点”能够帮助分析每晚从“大型综合巡天望远镜”得到的大约15TB 图像。

据橡树岭国家实验室的介绍,“顶点”接下去的“行程”安排十分密集,已经排上日程的项目有:

一是癌症研究。美国能源部和美国国家癌症研究正在做一个癌症分布式学习环境的项目。他们的目标是开发研究工具,可以自动提取、分析和分类健康数据,以揭示隐藏疾病因素之间的关系,如基因,生物标志物和环境。

二是聚变能研究。聚变能长期以来一直是清洁、能量丰富的能源代表。科学家们一直希望能够模拟聚变反应堆及其磁约束等离子体,加快商业发展。

三是疾病和成瘾性研究。这项研究中,研究者将使用人工智能来识别人类蛋白质和细胞系统的功能和进化模式。这些模式可以帮助我们更好地了解阿尔茨海默氏症、心脏病或成瘾,并告知药物发现过程。

除了上述的项目外,“顶点”还能在化学和生物学问题上给予更多的帮助。Zacharia认为,这台超级计算机可以使用来自2200万退伍军人的医疗记录为美国能源部项目做出贡献,其中包括约 25 万全基因组序列。

“顶点”能为人工智能(AI)和科学发现的整合提供了前所未有的机会,使研究人员能够将机器学习和深度学习等技术应用到人类健康、高能物理、材料探索等领域的问题研究上。

5个关于“顶点”超级计算机的事实

1.20亿亿次浮点运算:这意味着如果地球上每个人做一次一秒的计算,那么需要花费1年的时间,才能达到“顶点”一秒的计算量。

2.30亿亿次混合精密计算:这意味着如果地球上的每个人做一次一秒的计算,那么需要花费15年时间,才能达到“顶点”一秒的计算量。

3.在早期的测试中,一个基因研究组利用“顶点”超级计算机,花费了1个小时解决了问题,但如果将这个问题放在传统计算机上运行,可能需要30年时间。

4.“顶点”的占地面积相当于2个网球场大小。

5.“顶底”的重量相当于一架商业喷气机的重量。


原文发布时间为:2018-06-12

本文来自云栖社区合作伙伴“半导体行业观察”,了解相关信息可以关注“半导体行业观察”。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
1月前
|
人工智能 缓存 机器人
【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。
|
5月前
|
存储 人工智能 芯片
多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe
在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。
|
6月前
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
|
5月前
|
存储 人工智能 安全
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?
在当今时代,人工智能技术正以前所未有的速度发展,推动着各个领域的创新与变革。作为人工智能技术的核心引擎之一,高性能GPU扮演着至关重要的角色。在这个领域,英伟达的H100无疑是一款备受瞩目的高端产品。它针对高性能计算和人工智能应用而设计,具备强大的计算能力和高内存容量,以及先进的互连技术,可以有效提升集群中的计算效率,加速深度学习、计算机视觉、自然语言处理等领域的AI训练和推理任务。
|
10月前
|
机器学习/深度学习 存储 人工智能
【玩转 GPU】英伟达GPU架构演变
【玩转 GPU】英伟达GPU架构演变
468 0
【玩转 GPU】英伟达GPU架构演变
|
11月前
|
机器学习/深度学习 人工智能 缓存
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
英伟达用AI设计GPU算术电路,面积比最先进EDA减少25%,速度更快、更加高效
206 0
|
11月前
|
机器学习/深度学习 人工智能 定位技术
几个GPU工作数天≈10人团队工作大半年,英伟达用AI高效设计芯片
几个GPU工作数天≈10人团队工作大半年,英伟达用AI高效设计芯片
|
11月前
|
机器学习/深度学习 人工智能 分布式计算
全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍
全球首台百亿亿级超算用AMD的GPU:性能增7倍,能效提升3倍
|
人工智能 Ubuntu Linux
重磅!英伟达宣布开源 Linux GPU 内核驱动
重磅!英伟达宣布开源 Linux GPU 内核驱动
225 0
重磅!英伟达宣布开源 Linux GPU 内核驱动