当CPU成为计算单元之一-阿里云开发者社区

当CPU成为计算单元之一

2017-07-03 1102

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

曾经在21世纪前期大放异彩的CPU多核并行解决方案在今天已经成了提升系统性能的瓶颈，新型智能卸载互连技术会是新的救星？

高性能计算发展至今以CPU为核心的设计架构已成为瓶颈

过去15至20年，高性能计算的发展历经了一些重要的变革阶段。首先是从最初的SMP这样的小型机到集群系统的演变。2000年左右，计算机集群能够通过更多的通用服务器去扩展，满足性能的需求，而此时，集群式通讯像MPI这样的方式就起到了重要的连接作用。

第二个阶段是CPU由单核向多核的设计模式转变。大概在2008年到2010年，单核心CPU的主频已经上升到了一个瓶颈，而采用并行的多核心CPU，让处理器能够同时执行多个进程，有效的提升了系统性能。

但这种增加CPU核心数量的模式却同时增加了互联系统的负担，也让网络互连成为系统性能的瓶颈。但其实，与通信模式相比，互连延迟的改进所能带来的影响也是杯水车薪。目前，InfiniBand交换机的普遍延迟为90纳秒，InfiniBand适配器的延迟是100纳秒，而CPU处理的通信框架，比如MPI，它的延迟在几十微秒范围内（1微秒=1000纳秒）。这种不同数量级的通信延迟差距，让我们意识到，在互连系统延迟方面所做的工作已经价值不大。

面临并没有实际提升的单应用性能，多核模式也无法向上扩展，以CPU为核心的设计模式遭遇瓶颈。当前阶段，HPC市场正在历经新一轮的技术转型。

接下来由多核转向协处理？

在当前数据爆炸的时代，数据处理也要求更快更实时，按照传统的方式，CPU需要等待数据传输，也就是数据传输和数据处理无法并行的“终极问题”，两年前，有人提出让数据更加靠近CPU，从而加快计算速度。然而这在当前大规模分布式数据存储的今天看来，仍然不可行。那么由此就产生了分散设计的概念，让网络成为协同处理单元，承担一部分计算任务，数据不需要移动到CPU才能计算，在移动到协处理器，分散的网络节点就能够执行计算。从简单的以CPU为核心的计算到CPU只作为计算单元之一，这种协同设计的思路的确让人重燃希望。但也存在一些质疑，网络节点作为协处理器，它能承载的计算负荷将实现何种比例的性能转化？而同时作为计算处理单元，势必会影响到网络节点本身的交换传输速率？软件的设计真的能够解决硬件无法突破的性能瓶颈吗？作为一种革新的设计理念，是否能够在当前的市场上获得认可并得以推广……

作为co-design的倡导者，Mellanox在最近发布的智能交换机Switch-IB 2当中展示了实践成果。除了具备最快的90ns的延迟和丰富交换机特性之外，Switch-IB 2智能交换机的意义还在于它将原来在高性能计算里用得最多的MPI的操作，由CPU转移到交换机来完成。Mellanox公司全球市场部副总裁Gilad Shainer表示：“这是在协同设计里面非常重要的一步，也是第一步，把集群的通讯移到交换机里去完成，通过这一步我们可以提高10倍的应用程序的性能。”据了解，这种智能卸载技术未来将扩展到更多的AI、DeepLearning场景，除了在高性能计算领域，在更多的这种密集传输的场景下，智能的连接解决方案将大有可为。
本文转自d1net（转载）

当CPU成为计算单元之一

热门文章

最新文章

相关电子书