中国芯威武!搞定全球首款异构运算处理器

简介:

2016年初,在北京亦庄召开的“高性能异构计算及网络安全研讨会”上,华夏芯(北京)通用处理器技术有限公司即将推出全球首款完全支持异构系统架构(HSA)的处理器。

先来看看媒体是怎么说的(由于篇幅冗长,为方便阅读,笔者就摘录重点以供参考)

据《中国电子报》报道说,“处理器IP核与生态系统两方面问题的解决,将使中国自主处理器产业有望在下一代异构计算时代,取得更快速的发展,赶上国际先进水平。”摘录如下:

1、华夏芯的突破表明我国在新一代异构计算上取得重大进展,有望在原本相对空白的处理器IP(知识产权)核授权领域打破国外垄断,彻底改变中国处理器产业的核心知识产权基本依赖于国外许可的被动局面。

2、从软件角度看,应用开发将变得轻松,任何程序都不必费心考虑不同处理器内核之间的存储差异。这将给计算性能以革命性的提高。

3、是全球首次推出完全支持HSA标准的CPU+GPU+DSP的处理器IP核平台,它从指令集、微架构到工具链具有完全自主知识产权。同时,华夏芯还可进行SoC定制设计服务。这将有效改善国产IP核设计及许可上的短板。

那么,什么是异构系统架构?《中国电子报》的报道有多少真材实料,又有多少水分呢?

中国芯威武!搞定全球首款异构运算处理器

  什么是异构计算?

异构计算主要是指使用不同类型指令集(X86、ARM、MIPS、POWER......)和体系架构的计算单元(CPU、GPU、DSP、ASIC、FPGA......)组成系统的计算方式。

举例来说,AMD的APU其实就属于异构计算。

【编者注:AMD,即超微半导体公司。AMD公司专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、GPU、APU、主板芯片组、电视卡芯片等)、闪存和低功率处理器解决方案,是目前业内唯一一个可以提供CPU、GPU、主板芯片组三大组件的半导体公司。】

异构计算主要的优点有:

一是可以让各个计算单元执行自己最擅长的任务。术业有专攻,CPU、GPU、DSP、FPGA等计算单元各有所长,在引入特定计算单元,让计算系统变成混合结构,就能让CPU、GPU、DSP、FPGA执行自己最擅长的任务,并相对于同构计算可能有一定性能优势,或性能功耗比优势。

二是可以避免显式拷贝。最新的异构计算理论上要求实现CPU、GPU、DSP等计算单元实现内存统一寻址,使CPU、GPU等计算单元可以共享内存,不必将数据复制一份到对方的内存区域中。

异构计算并非新概念,AMD、ARM等公司早已成立异构系统架构基金会 (HSA Foundation)。另外,异构计算在超算领域已经有一定的应用,而且已经有取代同构计算的发展趋势。

举例来说,美国泰坦(每个计算节点由1个AMD Opteron 6274处理器和1个NVIDIA Tesla K20加速器组成),中国天河2号(每个计算节点由2个E5和3个Xeon Phi组成)。中国正在升级或建设的3台100P超算也都采用异构计算。

相对于上述提到泰坦和天河2号,由于CPU和加速器无法共享内存,会因为需要显式拷贝而导致性能损失,最新的异构系统架构的优势在于可以发展成统一的内存编制——在理论上,可以实现CPU、GPU、DSP等计算单元实现内存统一寻址,使各个计算单元交互数据时,不再需要将自身内存区域中现有的数据复制一份到对方的内存区域中,而是可以直接通过相同的地址访问到,在内存和显存的设计科学合理的前提下,实现性能提升。

另外,在编程方面,可以避免显式拷贝,使程序员们不用介入不同计算单元的内存管理,能有效降低编程的繁琐程度。

当然,理想很丰满,现实很骨感——不同核心直接cache级别的互通始终是HSA架构无法攻克的难关——虽然AMD的APU通过将CPU和GPU集成到一个芯片上实现了共享内存。但CPU和GPU的Cache却还没有做到统一,不同核心直接cache级别的互通,而这也是HSA架构最大的技术难点(CPU,GPU,DSP的缓存模型不同)。即便AMD等厂商给HSA画了非常美好的蓝图,但就现阶段而言,HSA的优势并不大。

华夏芯的技术究竟如何?

华夏芯未必能实现Cache级别的互通。

在HSA方面,AMD显然是最有发言权的厂商之一,但其APU也只实现了CPU+GPU,而且实现了内存共享,但CPU和GPU的Cache却还没有做到统一,而华夏芯言之凿凿,“该产品在架构层面成功整合了CPU、GPU、DSP,实现了异构多核的内存统一寻址,使不同内核真正无缝地紧密联系在一起,”一家初出茅庐公司的技术水平已经超越AMD这样的老牌IC设计公司了,这实在令人难以置信,不知道AMD看到这段文字做何感想。

华夏芯所谓“自主知识产权”存在水分

根据《中国电子报》的报道,“华夏芯正在开发并即将推出的‘统一处理器平台’是全球首次推出完全支持HSA标准的CPU+GPU+DSP的处理器IP核平台,它从指令集、微架构到工具链具有完全自主知识产权。”这段文字所蕴藏的消息实在让人难以置信。

虽然国内IC设计厂商推出了不少产品,但大多都是购买购买国外 IP核授权,或者就是国外芯片的马甲,能做自主设计CPU或GPU或DSP的单位如凤毛麟角,更遑论同时具备三者的设计能力。

因此,笔者是不太相信一家在此之前从未听闻,也没有什么技术积累的厂商,能横空出世,并突然间同时具备CPU、GPU、DSP的设计能力。

而自主指令集虽然实现难度并不大,比如深圳中微电就采用了自主指令集,但是由于不可能兼容现有的软件生态,在商业化方面基本不具备市场前景。在党政军市场早已被龙芯、申威、飞腾等自主芯片瓜分完毕,武器装备、人造卫星、航天设备等特殊领域的嵌入式芯片也已“名花有主”的情况下,采用自主指令集既不具备商业市场前景,也无法在党政军市场赢得一席之地。

加上领导非常喜欢“自主知识产权”的因素,所谓“从指令集、微架构到工具链具有完全自主知识产权”很有可能有相当大的水分。

宣传言过其实

就现阶段而言,HSA的优势并不明显,还远远达不到“给计算性能以革命性的提高”的地步。

而且就软件而言,虽然APU统一寻址能方便编程,能使程序员们不用介入繁琐的CPU-GPU内存管理,但《中国电子报》对华夏芯的报道中称“任何程序都不必费心考虑不同处理器内核之间的存储差异”——消除CPU、GPU、DSP、ASIC、FPGA等计算单元之间的存储差异,即便是AMD也只能表示:“臣妾做不到啊!”

国内在异构计算方面做得如何?

虽然异构计算是老概念了,但由于现阶段并不具备多少比较优势,因而只在超算等为数不多的领域取得了明显的成绩,有取同构计算而代之的趋势。

相对于华夏芯这样的处于纸面上的产品,上海高性能集成电路设计中心设计的国产众核芯片则是比较成功的例子,该芯片有数个主核心和两百余个从核心,主核心主要负责逻辑运算,两百余个从核心可以使芯片拥有非常高的理论双精浮点性能和良好的性能功耗比(小道消息称10-15G/W),其峰值双精度浮点运算速度超过每秒3万亿次(3TFlops),完全追平了Intel第二代Xeon Phi(也是Intel最好的众核芯片)。

结合《我国首个研究完全自主知识产权的异构计算处理器实验室破茧》的新闻看,华夏芯通用处理器技术有限公司目前还处于草创阶段,其官方网站也非常简陋,除“成为国内嵌入式处理器领域拥有自主知识产权的一流设计企业”表示华夏芯主攻嵌入式处理器外,基本没有任何有价值的信息,华夏芯现在有可能依旧处于草台班子阶段。加上“从指令集、微架构到工具链具有完全自主知识产权”需要非常深厚的技术积累,并非朝夕之间可以铸就。

笔者斗胆推测,所谓“是全球首次推出完全支持HSA标准的CPU+GPU+DSP的处理器IP核平台,它从指令集、微架构到工具链具有完全自主知识产权”有很大的水分,即将推出的产品很有可能就是一款集成了CPU+GPU+DSP的SOC,以目前华夏芯的公开资料和媒体的相关报道,华夏芯颇有套取政策之利的嫌疑。



本文转自d1net(转载)

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
安全 中间件 智能网卡
DPU芯片企业中科驭数加入龙蜥社区,构建异构算力生态
欢迎中科驭数加入,未来,将积极参与龙蜥社区生态建设,在产品兼容性适配、社区生态共创等方面展开合作。
DPU芯片企业中科驭数加入龙蜥社区,构建异构算力生态
|
机器学习/深度学习 区块链 芯片
后通用芯片时代: 专用芯片兴起背后的经济学
_周末抽空整理了一下关于从经济学视角看专用(e.g. AI/挖矿)芯片崛起的感想,首发于[StarryHeavensAbove](https://mp.weixin.qq.com/s/99AQC20w2_Ene4o1zYlTkg)公众号,然后被[新智元](https://mp.
787 0
三星新一代AI芯片Exynos 9820或将发布,内置独立双NPU
这是三星首款内置NPU的Exynos 9系旗舰处理器。
405 0
建设10余年,世界上首台超级“人脑”计算机问世,拥有百万处理器核心
SpiNNaker创造者的目标是让这款机器能够实时模拟10亿个神经元,达到人脑规模的1%。
380 0
|
人工智能 测试技术 量子技术

热门文章

最新文章