【工程师笔记】第七期:Xeon Phi要自我互连,CPU靠边站

简介:
做技术的朋友可能有过类似这样的感觉——每天都会遇到新的问题,或者学到新的知识。然而一个人的时间和精力毕竟有限,不是所有的岗位都能做到总是亲力亲为,每人最擅长的领域也各不相同。为了使工程师自己踩过的坑、那些实用的心得体会也能给大家带来帮助,把经验记录和分享出来就显得尤为可贵,这就是我们开设《工程师笔记》专栏的目的。
 
Xeon Phi要自我互连,CPU靠边站
 
在《从260核异构申威看HPC Top500缩影》一文中,我给大家介绍过在最新的超算榜单上为国争光的“神威太湖之光”。而在同一次大会上,Intel也正式发布了代号为Knights Landing的新一代Xeon Phi Processor x200(注意:不再是coprocessor/协处理器了)。
 
 
 
我们知道此前的Xeon Phi(至强融核)协处理器家族包括3100、5100和7100系列,都是像GPU那样通过PCIe x16插槽安装在x86服务器上。Xeon Phi x100有板载内存(类似于NVIDIA/AMD的显存),但访问系统主内存就要绕道CPU的内存控制器,从而影响到效率。
 
而在上图中间的服务器节点里,我们已经看不到传统的Xeon CPU,取而代之的就是“Bootable”(可独立运行)的Xeon Phi Processor。左右两边是两种不同的Xeon Phi x200,其中右边的多伸出一个金手指,整合了Intel Omni-Path Fabric(OPA,又称硅光互连)高速网络。
 
 
Xeon Phi 7200系列的核心数有64、68和72三种,主频1.3-1.5GHz,拥有16GB 高带宽MCDRAM片上高速内存(类似于HBM、HCM),并支持最大384GB DDR4内存。Xeon Phi 7200的基础功耗有215W和245W两种,如果是结尾带“F”支持Omni-Path的型号会增加15W Fabric功耗。
 
 
这个照片应该是Intel的参考平台,尺寸上大致符合2U 4节点的密度,在Xeon Phi Processor两侧有6个DDR4内存插槽。用红圈标出的部分应该就是将Omni-Path网络引出机箱的连接器件。
 
 
至本文截稿之时,官网上我还没找到关于Xeon Phi x200的详细资料,不过早在去年底翻译自国外的新闻中已经有过不错的介绍。
 
如上图,“Self Boot Socket”的Knights Landing除了DDR4内存控制器之外,还可以提供36个PCIe Gen3 lane,感觉是移植了Xeon CPU的uncore部分设计。不过,提供2个Omni-Path 100Gb/s网口的型号就少了2个PCIe x16,让我觉得这一代产品的片上OPA互连控制器走的还是PCIe?最右边的PCIe插卡形态,去掉了DDR内存通道,能不能不要那个PCH南桥呢?
 
 
 
Xeon-phi-processor-block-diagram——来自Intel网站
 
上下两张图可以结合起来看。我数了一下红色Processing Tile的数量是38个,如此则该架构设计应该支持最多76个核心,目前限制在72个可能是为了保证良品率,或者功耗考虑?
 

 
根据右边的解释,每个“tile”中有2个Core共享1MB L2 Cache,每个Core支持4线程并包含2个AVX-512矢量单元(浮点计算应该就是靠它来进行的)。Intel还提到了这些Core是基于Atom处理器内核,记得之前还有一种说法是P54C。P54C即当年Intel Pentium 75-166的核心代号,1997年我自己的第一台电脑用的就是奔腾133。
 

 
在2011年春季北京IDF上,我曾经看到这套由微服务器厂商SeaMicro打造的高密度系统,展板上介绍在10U机箱内容纳了256个双核Atom,当时负责展台的朋友也提到了P54C。不知大家有没有觉得神威太湖之光的节点布局有点像这个?
 
 
我猜测这个系统很早就开始用于预研今天的Xeon Phi Processor,当然此时它还谈不上芯片集成度和成本效益。从照片中看每颗Atom旁边应该都有一颗南桥(当时还不是SoC),内存等可能在PCB背面,4颗印着SeaMicro的芯片估计是用于互连。
 
不同的AVX Boost频率与整数/浮点单元配比
 
 
撰写上一篇《工程师笔记:一项Xeon E5-2600 v4测试数据的背后》的过程中,在Dell的Solutions Performance Analysis文档中我看到了以上规格表,其中有non-AVX和AVX单元不同的TurboBoost超频频率。让我们放大来看一下:
 
 
对于所有核心一起工作时的TurboBoost,non-AVX的频率比AVX要高,而最大(少数核心工作)TurboBoost频率有些型号的CPU也存在差别。
 
 
上图来自Intel资料,描述了Xeon E5v4(Broadwell)的一点改进。在此之前如果AVX和non-AVX负载在不同Core上混合运行,只能统一跑在两者中较低的TurboBoost频率上。而在Xeon E5v4上,则运行AVX的Core频率不会降低到其它Core的TurboBoost水平。
 
我有个理解不知是否准确:由于用途的原因,整数/浮点单元的设计偏重与配比是Xeon Phi Processor与Xeon CPU的重要区别。至于Intel为什么没有进一步像申威26010那样“将MPE(管理单元)减少到4个来搭配256个CPE(计算单元)”?我觉得是考虑到通用性,毕竟Xeon Phi仍属于x86指令集的一个扩展。
 
服务器平台——SuperMicro
 
目前正式发布支持Xeon Phi Processor x200服务器产品的公司还不多,其中包括SuperMicro的主板和准系统(就是加个塔式机箱),或许只是先出个通用平台还没有太多特点。
 
 
SuperMicro K1SPA/E (-T) 主板示意图,可以看到“巨大”的LGA-3647 CPU插座,据了解下一代Xeon E5可能也会用这个Socket。
 
 
 
上面是SuperMicro这款主板的结构图。涉及PCH 612的部分与传统Xeon服务器并没有明显的不同;除了内存通道之外,从处理器引出的PCIe x16 Gen3插槽也许不再支持拆分成x8或者x4,因为Xeon Phi的定位就是HPC,除了高速网络互连应该啥也不缺了。
 
Dell PowerEdge C6320p:可选IB和Omni-Path
 
戴尔的这款PowerEdge C6320p,可以理解为是在2U 4节点机箱基础上将C6320 Xeon E5计算节点换成了Xeon Phi Processor节点。它比较接近前面我们列出的Intel参考平台,具备计算密度并适合大规模部署。
 
 
可能是由于初版资料,规格表中Xeon Phi Processor 72XX不支持的QPI还没来得及修改彻底。C6320p有几种硬盘/闪存支持选项,提供戴尔统一的iDRAC8服务器管理,听说可以直接安装Red Hat企业版Linux,具体注意事项有待后续确认。不过为了发挥AVX-512计算单元的能力,还是需要运行相应的编译好的程序。
 
关于集成单端口Mellanox ConnectX-4 100GbE网卡这个可选项,为什么不是InfiniBand EDR呢?其实该公司近几年对以太网的支持也不错,可以在同样的硬件上实现两种网络支持,比如EoIB这样的方式。
 
上图来自戴尔网站,可见这个100Gb网口应该是支持IB的。据了解PowerEdge C6320p也做好了支持Omni-Path的准备,除了现在可以使用Intel Omni-Path Host Fabric Adapter 100 Series PCIe网卡之外,等今年四季度Xeon Phi Processor 72xxF推出之后,像Intel参考平台中那样将Omni-Path引出机箱的连接器件也可以使用。
 
InfiniBand和Omni-Path谁会胜出?
 
自从Intel收购了QLogic IB业务和Cray的部分HPC互连技术之后,就开始酝酿着后续的战略。他们认为IB网络的成本在HPC系统中占比过高,在用户投资不变的情况下会影响到Intel CPU等的出货量。不过问题是,Intel到底是想卖CPU送网络呢,还是将CPU卖得更贵?
 
来自Mellanox的反击大概是这样说的:“Omni-Path缺乏像IB那样的硬件卸载能力,使网络对CPU的占用率提高,变相导致需要买更高端的CPU,而从用户TCO的角度来看反而不划算。”下面是他们给出的一些对比数字。
 
 
 
以上图表仅供参考,因为在Intel的宣传资料中您很可能会看到另外一些不同的测试数字。
 
 
True Scale就是当初QLogic的40Gb/s InfiniBand产品线,可以看出100Gb/s的Intel Omni-Path在端口延时、发包速率上的优势。既然是在IB技术上发展而来,Omni-Path可能需要一个成熟的过程,但我不认为有太大的困难。
 
 
Intel还列出了交换机方面的一些优势。比如Edge(边缘)交换机48口比IB的36口多,服务器节点可以不通过边缘交换机直连Director(导向器)等。
 
关于HPC网络方面的最终战局,我觉得要看Intel Omni-Path怎么个卖法。如果未来某一代CPU/Xeon Phi Processor无论你用不用全都集成的话……








====================================分割线================================

本文转自d1net(转载)
目录
相关文章
|
弹性计算
阿里云CPU服务器Intel Xeon(Sapphire Rapids) Platinum 8475B
阿里云服务器CPU处理器Intel Xeon(Sapphire Rapids) Platinum 8475B,基频2.7 GHz,全核睿频3.2 GHz,Intel Xeon第四代处理器,目前[云服务器ECS通用型g8i、计算型c8i和内存型r8i](https://www.aliyun.com/product/ecs?source=5176.11533457&userCode=r3yteowb)均采用这款CPU处理器。
284 0
|
弹性计算
阿里云Intel Xeon(Sapphire Rapids) Platinum 8475B处理器CPU基频2.7 GHz,全核睿频3.2 GHz
阿里云Intel Xeon(Sapphire Rapids) Platinum 8475B处理器CPU基频2.7 GHz,全核睿频3.2 GHz
257 0
阿里云Intel Xeon(Sapphire Rapids) Platinum 8475B处理器CPU基频2.7 GHz,全核睿频3.2 GHz
|
弹性计算 缓存 网络协议
阿里云通用算力型u1服务器CPU采用Intel(R) Xeon(R) Platinum 8163或8269CY
阿里云通用算力型u1服务器CPU采用Intel(R) Xeon(R) Platinum 8163或8269CY,阿里云服务器u1通用算力型Universal实例高性价比,CPU采用Intel(R) Xeon(R) Platinum,主频是2.5 GHz,云服务器U1实例的基准vCPU算力与5代企业级实例持平,最高vCPU算力与6代企业级实例持平,提供2c-32c规格和1:1/2/4/8丰富配比,阿里云服务器u1适用于Web应用及网站,企业办公类应用,数据分析和计算等大多数通用的对vCPU算力和性能要求不高的应用场景
552 0
|
弹性计算 缓存 网络协议
阿里云u1服务器CPU采用Intel(R) Xeon(R) Platinum处理器
阿里云u1服务器CPU采用Intel(R) Xeon(R) Platinum处理器,云服务器U1实例的基准vCPU算力与5代企业级实例持平,最高vCPU算力与6代企业级实例持平,提供2c-32c规格和1:1/2/4/8丰富配比,阿里云服务器u1适用于Web应用及网站,企业办公类应用,数据分析和计算等大多数通用的对vCPU算力和性能要求不高的应用场景
223 0
|
存储 弹性计算 缓存
阿里云Intel Xeon(Sapphire Rapids) Platinum 8475B处理器CPU
阿里云Intel Xeon(Sapphire Rapids) Platinum 8475B处理器CPU,阿里云服务器ECS通用型实例规格族g8i采用2.7 GHz主频的Intel Xeon(Sapphire Rapids) Platinum 8475B处理器,3.2 GHz睿频,g8i实例采用阿里云全新CIPU架构,可提供稳定的算力输出、更强劲的I/O引擎以及芯片级的安全加固
704 0
|
弹性计算 调度
阿里云Intel Xeon Platinum 8269CY(Cascade Lake)处理器CPU性能评测
阿里云服务器分为ECS共享型S6、ECS计算型C6、ECS通用型G6和ECS内存型R6,均属于第六代云服务器,CPU处理器均采用2.5 GHz主频的Intel Xeon Platinum 8269CY(Cascade Lake),睿频3.2 GHz。
3133 0
阿里云Intel Xeon Platinum 8269CY(Cascade Lake)处理器CPU性能评测
|
弹性计算 虚拟化 KVM
Intel Xeon Gold 6149 3.1GHz CPU性能怎么样?阿里云ECS服务器
Intel Xeon Gold 6149 3.1GHz CPU性能怎么样?阿里云ECS服务器 阿里云 优 惠 地 址https://promotion.aliyun.com/ntms/yunparter/invite.html?userCode=q3dtcrrv 阿里云ECS服务器是一种弹性可伸缩的云服务器,通过虚拟化平台将服务器集群虚拟为多个性能可配的虚拟机(KVM),对整个集群系统中所有KVM进行监控和管理,并根据实际资源使用情况灵活 分配和调度资源池。
6560 0
|
弹性计算 虚拟化 KVM
Intel Xeon(Cascade Lake) Platinum 8269 2.5GHz 阿里云ECS服务器CPU性能
Intel Xeon(Cascade Lake) Platinum 8269 2.5GHz 阿里云ECS服务器CPU性能 阿里云 优 惠 地 址https://promotion.aliyun.com/ntms/yunparter/invite.html?userCode=q3dtcrrv 阿里云ECS服务器是一种弹性可伸缩的云服务器,通过虚拟化平台将服务器集群虚拟为多个性能可配的虚拟机(KVM),对整个集群系统中所有KVM进行监控和管理,并根据实际资源使用情况灵活 分配和调度资源池。
17004 0
|
弹性计算 虚拟化 KVM
Intel Skylake Xeon Platinum 8163 2.5GHz 阿里云ECS服务器CPU性能
Intel Skylake Xeon Platinum 8163 2.5GHz 阿里云ECS服务器CPU性能 http://www.bieryun.com/7248.html 阿里云ECS服务器是一种弹性可伸缩的云服务器,通过虚拟化平台将服务器集群虚拟为多个性能可配的虚拟机(KVM),对整个集群系统中所有KVM进行监控和管理,并根据实际资源使用情况灵活 分配和调度资源池。
4282 0
|
弹性计算
Intel Xeon E7-8880v4 性能评测 阿里云第四代ECS服务器CPU
Intel Xeon E7-8880v4 性能 CPU 评测 阿里云第四代ECS服务器http://www.bieryun.com/4563.html Intel Xeon E7-8880 v4 是一款二十二核心的CPU。
4416 0