Intel 45nm制程处理器上的SSE4指令集简介

简介:
Intel 45nm 制程处理器上的 SSE4 指令集简介  
IntelSSEStreaming SIMD Extensions, 流式单指令多数据扩展)技术有效增强了 CPU的向量运算能力。支持该指令集的处理器有 8128xmm寄存器,每一个寄存器可以同时存放 432位整数 (int), 432单精度浮点数 (float) 264位双精度浮点数 (double)。比如我们在 3D开发中常见的 4元组 32位浮点数结构 <x, y, z, w>, <r, g, b, a>都可以封装在一个 xmm寄存器中。
SIMDsingle-instruction, multiple-data)使用单条指令同时完成处理多个数据的操作。假定
我们要计算一个 32位浮点数数组中每一个元素的平方根,可以将数组中的每 4个元素加载到一个 128xmm寄存器中,然后使用一条 SSE指令同时计算这 4个数的平方根,然后把所得的 4个结果写回内存。
Intel SIMD技术从 Pentium MMX时代引入,后来发展成 SSE/SSE2/SSE3/SSSE3等。在 Intel 45nm制程处理器引入了 54条新的指令,在 Core微架构的下一代 Penryn微架构中引入了 47条,称为 SSE4.1,在 Penryn的下一代 Nehalem中再引入了另外 7条,称为 SSE4.2. 新的指令集主要是为了增强多媒体,图象和 3D应用程序的性能,这些应用都需要充分发挥 CPU提供的能力来进行运算。强烈建议进行这些应用开发的朋友关注一下 SSE指令集,不需要很大的工作量就可以给你们的程序带来很大的性能提升。
开发 SSE最好的方法是使用编译器+ intrinsics,可以使用类 C的函数调用来利用 SSE,同时能充分利用到编译器的编译优化。不需要手动编写复杂的汇编代码。最新的 Intel Compiler 10可以支持生成 SSE4指令。另外 最新消息显示 VS2008中已经加上了 SSE4支持。 SSE4的详细内容可以参见 这里
使用 SSE最常见的就是进行矩阵和向量,这里有一篇很好的 whitepaper显示如何使用 SSE指令集进行 4x4矩阵和 4元组向量运算的优化,可以以此为基础打造自己的函数库,并加上最新的 SSE4指令集支持。
Optimized Matrix Library for use with the Intel® Pentium® 4 Processor's SSE2 Instructions
附带的源代码中包含单精度 (SP)和双精度 (DP)浮点数的向量和矩阵运算类,需要用 Intel Compiler进行编译。


本文转自Intel_ISN 51CTO博客,原文链接:http://blog.51cto.com/intelisn/131487,如需转载请自行联系原作者
相关文章
|
11月前
|
存储 弹性计算 编解码
阿里云CPU服务器c7、g7和r7处理器Intel Xeon(Ice Lake) Platinum 8369B
阿里云第七代云服务器ECS计算型c7、通用型g7和内存型r7实例,CPU处理器采用2.7 GHz主频的Intel Xeon(Ice Lake) Platinum 8369B,全核睿频3.5 GHz,计算性能稳定。c7、g7和r7区别CPU内存比,阿里云服务器网来详细说下阿里云第七代云服务器c7、g7和r7实例CPU性能评测:
220 0
|
11月前
|
存储 弹性计算 编解码
阿里云ECS服务器g7、c7和r7处理器CPU采用Intel Xeon(Ice Lake) Platinum 8369B
阿里云第七代云服务器ECS计算型c7、通用型g7和内存型r7实例,CPU处理器采用2.7 GHz主频的Intel Xeon(Ice Lake) Platinum 8369B,全核睿频3.5 GHz,计算性能稳定。c7、g7和r7区别CPU内存比,阿里云服务器网来详细说下阿里云第七代云服务器c7、g7和r7实例CPU性能评测:
202 0
|
11月前
|
安全 数据安全/隐私保护 iOS开发
Intel 处理器 macOS降级到Big Sur
将移动硬盘作安装 Mac 操作系统的启动磁盘。
3919 0
|
11月前
|
存储 弹性计算 安全
阿里云CPU处理器Intel Xeon(Ice Lake) Platinum 8369B
阿里云服务器CPU处理器Intel Xeon(Ice Lake) Platinum 8369B,基频2.7 GHz,全核睿频3.5 GHz,计算性能稳定。目前阿里云第七代云服务器ECS计算型c7、ECS通用型g7、内存型r7等规格均采用该款CPU
238 0
|
12月前
|
存储 弹性计算 安全
阿里云服务器CPU处理器Intel Xeon(Ice Lake) Platinum 8369B
阿里云服务器CPU处理器Intel Xeon(Ice Lake) Platinum 8369B,基频2.7 GHz,全核睿频3.5 GHz,计算性能稳定。目前阿里云第七代云服务器ECS计算型c7、ECS通用型g7、内存型r7等规格均采用该款CPU
|
12月前
|
弹性计算 缓存 网络协议
阿里云u1服务器CPU采用Intel(R) Xeon(R) Platinum处理器
阿里云u1服务器CPU采用Intel(R) Xeon(R) Platinum处理器,云服务器U1实例的基准vCPU算力与5代企业级实例持平,最高vCPU算力与6代企业级实例持平,提供2c-32c规格和1:1/2/4/8丰富配比,阿里云服务器u1适用于Web应用及网站,企业办公类应用,数据分析和计算等大多数通用的对vCPU算力和性能要求不高的应用场景
222 0
|
12月前
|
存储 弹性计算 缓存
阿里云g8i服务器ECS处理器Intel Xeon(Sapphire Rapids) Platinum 8475B
阿里云g8i服务器ECS处理器Intel Xeon(Sapphire Rapids) Platinum 8475B,阿里云服务器ECS通用型实例规格族g8i采用2.7 GHz主频的Intel Xeon(Sapphire Rapids) Platinum 8475B处理器,3.2 GHz睿频,g8i实例采用阿里云全新CIPU架构,可提供稳定的算力输出、更强劲的I/O引擎以及芯片级的安全加固
303 0
|
机器学习/深度学习 人工智能 安全
龙蜥白皮书精选:龙蜥全面支持 Intel 第四代可扩展处理器 SPR 平台
EROFSEROFS是为高性能只读场景量身打造的内核文件系统,提供了多层镜像、透明压缩等特性,于Linux 5.4正式合入Linux主线。
龙蜥白皮书精选:龙蜥全面支持 Intel 第四代可扩展处理器 SPR 平台
|
弹性计算 固态存储 大数据
阿里云服务器CPU处理器Intel Xeon(Cascade Lake) Platinum 8269CY
阿里云服务器ECS实例CPU处理器Intel Xeon(Cascade Lake) Platinum 8269CY
706 0
 阿里云服务器CPU处理器Intel Xeon(Cascade Lake) Platinum 8269CY

热门文章

最新文章