【干掉英伟达?】DeepMind CEO哈萨比斯投资的AI芯片,性能超越GPU 100倍

简介:


1

被DeepMind联合创始人哈萨比斯投资的AI芯片公司 Graphcore,宣称自己的IPU芯片相比市场同类产品性能提升10~100倍,并且在训练和推理两方面都同样出色。现在他们发布初步的测试基准证实他们的宣言,对比GPU,在某些任务上IPU的性能提升甚至超过200倍。
Graphcore 的 IPU(Intelligence Processing Unit,智能处理单元)是一种新的AI加速器,为当前和未来的机器学习工作负载带来了前所未有的性能水平。它的独特的大规模并行多任务计算、单个IPU或跨多个IPU的同步执行、创新的数据交换结构和大量片上SRAM的组合,在各类的机器学习算法中同时为训练过程和推理过程提供了前所未闻的性能。
这家公司的投资人包括DeepMind联合创始人哈萨比斯、Uber首席科学家Zoubin Ghahramani,OpenAI的Greg Brockman等。企业投资则来自Atomico、戴尔、三星等。
Graphcore的目标是成为“机器智能处理器市场的领导者”,这家公司的产品叫做IPU(intelligence processing unit)智能处理单元。Graphcore首席执行官Nigel Toon曾经在2011年把当时的公司卖给英伟达,现在,他们正式走上舞台与英伟达展开竞争。
在昨天发表的官方博客中,Graphcore表示,当我们在2016年10月公布我们的A轮融资时,我们就IPU的性能作了3点声明:

  • 与其他AI加速器相比,它的性能提升了10倍至100倍
  • 它在训练和推理两方面都同样出色
  • 它让机器学习开发者得以在模型和算法方面进行创新,这些模型和算法即使在当前最好的替代架构上也不工作

自那时起,我们一直被要求提供更多关于这些声明的细节。今天,我们很高兴地分享3个证实这些早期目标的初步基准。
我们从一开始就明白,一个完整的解决方案需要的不仅仅是新的芯片设计。软件基础设施需要全面、易于使用,以便机器学习开发者能够快速使硬件适应他们的需要。因此,我们一直致力于提供一个完整的软件堆栈,以确保IPU从一开始就可以用于实际的应用程序。
我们的 Poplar® 图形编程框架和应用程序库提供了这些功能。我们已经开发一个 TensorFlow 的端口以使 Poplar 库支持其他机器学习框架。有了这些软件工具,我们可以通过周期精确的芯片模拟和真正的硬件来运行各种各样的实际应用。
有了这个实验平台,我们可以执行一系列不同的机器学习应用程序,并从IPU系统的初步性能结果的粗略估计得到改进,当我们有生产系统时,IPU 系统将能够进一步改善。

CNN 模型训练


卷积神经网络(CNN)在图像处理任务中有广泛的应用。一个典型的CNN模型包含执行多个卷积运算的几个层。卷积运算具有必须从训练算法学习的参数。训练通常通过随机梯度下降法进行,包括在图像数据上反复地运行模型,计算模型的梯度,然后更新模型的参数。
在训练机器学习模型时,batch size是需要与当前参数组并行处理的数据项数。batch size 限制了更新这些参数的频率,因为必须在更新之前处理整个批。过大的 batch size 可能不适合训练你的模型。IPU系统的一个特性是,即使对于较小的 batch size,它们的性能也很好。
下面的图表显示了在 ImageNet 数据集训练 ResNet-50 这个神经网络来学习图像分类时的估计性能,以每秒训练的图像数量计算:

2

即使在较小的 batch size 下,性能提升也很可观。当我们扩展到使用8个C2加速器卡时,只使用了 batch size=64。
在这个空间的任何一点上,使用IPU系统的性能相对于现有技术都是巨大的飞跃。例如,使用300W GPU加速器(与C2加速器相同的功率预算)的话,有记录的最佳性能是每秒约580张图像。

LSTM 推理

循环神经网络(Recurrent networks)用于处理序列数据,例如在语言翻译或文本转语音(text-to-speech)的应用中。LSTM(long short-term memory,长短期记忆)网络是循环神经网络的一种形式,它包含几个不同的元素,用于选择在产生输出时是否要记住或忘记正在处理的序列的历史数据。
所有循环神经网络都具有对当前芯片架构来说是一个挑战的数据依赖(data dependency)。数据依赖限制了可用的并行数量,并且从内存中获取的每个数据的操作数量也受到限制。IPU 和 Poplar 库可以更好地处理这些限制,因为它们可以获得大量片上内存,并且IPU中计算和数据移动具有灵活性。
对于执行推断的服务器,将会有时延约束,即从请求推断到获得结果所需的最小时间。下面的图表显示了IPU与GPU相比,对于不同的时延约束,单层LSTM网络的性能:

3

这个单层LSTM的参数来自百度DeepBench套件,该套件描述了在深度学习应用程序中使用的典型循环神经网络层。

生成网络

最后我们来看一下生成神经网络。这是每次产生新的数据的循环神经网络。具体来说,WaveNet网络每次会生成一个音频波形,以提供文本转语音的功能。以下我们会讨论 Deep Voice,这是 WaveNet 的一个变体。
我们的应用实验已经考虑了两类性能指标。首先,样本的生成速度怎么样?具体来说,样本需要足够快地生成,以形成实时音频流(例如16Khz)。如果可以生成实时音频流,我们就可以考虑一次可以产生多少个频道(生成不同的语音)。
下面的图表显示了IPU与原始论文的其他平台相比,Deep Voice 生成算法的性能:

4

这些应用都仅是初尝者。IPU和Poplar软件栈提供了一个完全灵活、可编程的平台。我们很期待用户在未来几年将会为这个平台带来什么样的应用。
随着产品发布的临近,我们开始与早期客户共享Poplar 框架,我们将在接下来的几个月里公开文档和代码。
原文发布时间为:2017-10-27
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号
原文链接:DeepMind CEO哈萨比斯投资的AI芯片,性能超越GPU 100倍

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
25天前
|
机器学习/深度学习 人工智能 并行计算
GPU如何成为AI的加速器
GPU如何成为AI的加速器
30 0
|
1月前
|
人工智能 自然语言处理 开发者
印度投资1037亿加速AI发展,重点布局大语言模型
【2月更文挑战第24天】印度投资1037亿加速AI发展,重点布局大语言模型
37 3
印度投资1037亿加速AI发展,重点布局大语言模型
|
2月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
178 0
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
1月前
|
人工智能 芯片 异构计算
英伟达要小心了!爆火的Groq芯片能翻盘吗?AI推理速度「吊打」英伟达?
随着科技的飞速发展,人工智能公司Groq挑战了英伟达的王者地位,其AI芯片不仅展现出卓越的实力,还拥有巨大的潜力。Groq设计了一种独特的推理代币经济学模式,该模式背后牵动着众多因素,却也引发了深度思考:新的技术突破来自何处?中国该如何应对并抓住变革中的机遇?Groq成本如何评估?这些都是值得研究和思考的问题。
|
29天前
|
人工智能 机器人 芯片
英伟达最强 AI 芯片、人形机器人模型炸场!黄仁勋放言英语将成最强大编程语言
在2024年的GTC大会上,英伟达创始人黄仁勋揭幕了新一代AI芯片Blackwell,号称是史上最强AI芯片,目标是推动AI领域的重大进步。
|
30天前
|
人工智能 分布式计算 算法
英特尔助力龙蜥加速 AI 应用及 LLM 性能
英特尔至强服务器平台加速大语言模型应用。
|
30天前
|
人工智能 程序员 测试技术
AI程序员Devin在软件开发中的性能评估
【2月更文挑战第29天】AI程序员Devin在软件开发中取得突破,成功解决SWE-bench基准测试13.86%的问题,超出未辅助基线1.96%。展示强大编程能力,但处理复杂任务成功率仅4.80%,表明局限性。Devin能执行多步计划和自我纠错,但在理解复杂逻辑和用户偏好上需改进。在测试驱动开发场景下,成功通过率提升至23%,显示出合作潜力。然而,AI在软件工程领域仍有很大改进空间。
42 1
AI程序员Devin在软件开发中的性能评估
|
1月前
|
人工智能 缓存 机器人
【2024】英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍
英伟达在加州圣荷西的GTC大会上发布了全新的Blackwell GPU,这款拥有2080亿个晶体管的芯片将AI性能推向新高度,是公司对通用计算时代的超越。Blackwell采用多芯片封装设计,通过两颗GPU集成,解决了内存局部性和缓存问题,提供20 petaflops的FP4算力,是上一代产品的5倍。此外,新平台降低了构建和运行大规模AI模型的成本和能耗,使得大型语言模型推理速度提升30倍。黄仁勋表示,Blackwell标志着AI算力在近八年内增长了一千倍,引领了技术边界拓宽的新趋势。
|
1月前
|
人工智能 分布式计算 算法
英特尔助力龙蜥加速 AI 应用及 LLM 性能
英特尔至强服务器平台加速大语言模型应用。
|
1月前
|
人工智能 算法 芯片
全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程
【2月更文挑战第24天】全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程
20 1
全球最强最大AI芯片WSE-3发布,4万亿晶体管5nm工艺制程

热门文章

最新文章