NUMA与英特尔下一代Xeon处理器学习心得(4)

简介:
在传统SMP系统上,所有CPU都以同样的方式通过一个共享内存控制器来访问内存,各CPU之间也是通过它来进行交流,所以很容易造成拥堵。而一个内存控制器所能够管理的内存数量也是非常有限的。此外,通过唯一的hub访问内存造成的延迟也是非常高的。
 
NUMA结构下,每个计算机不再只有唯一的内存控制器,而是把整个系统分成多个节点。每个节点分别有自己的处理器和内存。系统中所有的节点都通过全互联的方式连接。所以,每当在系统中增加新的节点,系统所能够支持的内存和带宽都会增加,具有非常好的扩展性。
 
下面就讲讲NUMA的内存组织
 
NUMA系统中,每个CPU可以访问两种内存:本地内存(Local Memory)和远端内存(Remote Memory)。和CPU在同一个节点的内存称为本地内存,访问延迟非常低。和CPU在不同节点上的内存叫做远端内存,CPU需要通过节点互联方式访问,所以访问延迟要比访问本地内存长。
 
从软件的角度来看,远端内存和本地内存是以同样的方式访问的。理论上讲,NUMA系统可以被软件视为与SMP同样的系统,不区分本地和远端内存。但是如果追求更好的性能,这个区别还是需要被考虑的。
 
经实验,对于常规的内存操作,如清空(Memset),块复制(Memcpy),流读写(Stream),指针追溯(Pointer Chase)等操作来说,本地内存的访问速度要远远优于远端内存。
 
由于 NUMA 同时使用本地内存和远端内存,因此,访问某些内存区域的时间会比访问其他内存区域的要长。本地内存和远端内存通常用于引用当前正在运行的线程。本地内存是指与当前正在运行线程的 CPU 位于同一节点上的内存。任何不属于当前正在运行的线程所在的节点的内存均为远端内存。访问远端内存的开销与访问本地内存的开销比率称为 NUMA 比率。如果 NUMA 比率为 1,则它是对称多处理 (SMP)。比率越高,访问其他节点内存的开销就越大。不支持 NUMA  应用程序有时在 NUMA 硬件上的执行效果非常差。
 
由于访问本地内存和远端内存的开销是有区别的,所以在NUMA模式下,如果每个线程更多的是访问本地内存,那么性能相比而言会有一定提升。

本文转自Intel_ISN 51CTO博客,原文链接:http://blog.51cto.com/intelisn/130482,如需转载请自行联系原作者
相关文章
|
11月前
|
存储 边缘计算 固态存储
玄铁RISC-V处理器入门与实战-平头哥玄铁CPU IP-面向高性能领域CPU
玄铁RISC-V处理器入门与实战-平头哥玄铁CPU IP-
837 0
|
11月前
|
开发者
玄铁RISC-V处理器入门与实战-RISC-V 处理器架构-RISC-V架构发展
玄铁RISC-V处理器入门与实战-RISC-V 处理器架构
480 0
|
11月前
|
存储 安全 物联网
玄铁RISC-V处理器入门与实战-平头哥玄铁CPU IP-面向低功耗领域CPU
玄铁RISC-V处理器入门与实战-平头哥玄铁CPU IP-
1898 0
|
11月前
|
存储 人工智能 Linux
|
11月前
|
存储 人工智能 边缘计算
|
11月前
|
安全 Ubuntu Unix
玄铁RISC-V处理器入门与实战-RISC-V 处理器架构-RISC-V架构现状和未来
玄铁RISC-V处理器入门与实战-RISC-V 处理器架构
439 0
|
11月前
玄铁RISC-V处理器入门与实战-RISC-V 处理器架构-RISC-V架构起源
玄铁RISC-V处理器入门与实战-RISC-V 处理器架构
736 0
|
11月前
|
芯片 开发者
玄铁RISC-V处理器入门与实战-RISC-V 处理器架构-RISC-V处理器课程学习
玄铁RISC-V处理器入门与实战-RISC-V 处理器架构-RISC-V处理器课程学习
423 0
|
人工智能 安全 大数据
第三代英特尔®至强®可扩展处理器:“X”王者归来
X是什么?每个人心中或许有不同的答案。 在数学方面,X代表着未知数;在坐标系统中常用来标识横坐标变量;在罗马数字里,Ⅹ代表十。当然还有一些时候,X表示无限,还有“目标”和“希望”的含义。 如果在计算领域,X也代表了x86架构,如今所有主流的计算机平台都基于x86架构而存在,这个X也不得不让我们想起x86架构的缔造者:英特尔。 提到英特尔,就无法不想到数据中心和服务器芯片市场,X是Xeon的首字母,英特尔®至强®可扩展处理器,为一大批互联网及企业级用户的数据中心带来了强劲的算力,也成就了英特尔在数据中心市场的霸主地位。
228 0
第三代英特尔®至强®可扩展处理器:“X”王者归来