高清从这里开始英特尔最新SSE4指令集详解 / 木子杰软件教程

近几年来，AMD和Intel这两大处理器界里面的巨头有着无数次的针锋相对。而每次对碰都会擦出激情的光芒，无论是AMD A64处理器灵光闪现，还是Intel 酷睿的光芒四射，都为原本平淡无奇的CPU市场注入了新鲜血液和活力。不得不承认若没有两家针锋相对的竞争，CPU的发展也不会如此神速，时代的更迭也不会如此日新月异。
而目前Intel无论是在技术还是在工艺上面，都无可争议的领先于对手。尤其Intel在进入45nm时代之后，更是将酷睿2的优势发挥得淋漓尽致。45nm工艺的Intel酷睿2 处理器家族是基于Intel 45 nm晶体管技术的下一代英特尔酷睿2系列处理器。该技术可谓晶体管领域的新突破，不仅将晶体管密度提升了近两倍，同时还大幅降低了漏电率。而更重要的是Intel最新的45nm系列产品还添加了强大的Intel SSE4指令集，而且还对微体系结构进行了改进，将为您提供出色的性能和能效表现，此外还能兼容现有软件。对于开发人员而言，这就意味着现有软件能够拥有更高的性能和能效表现，以及进一步优化的可能，以充分利用Intel SSE4 和微体系结构增强技术。

Intel开创处理器高清新时代
Intel Intel SSE4 指令包括矢量化编译器和媒体加速器指令。未来的英特尔处理器将支持其余指令，而软件也将能从程序的角度检测出处理器支持哪些Intel® SSE4 指令。那么我们曾多次提到SSE4指令集，相信很多消费者对其还非常陌生，究竟是何方神圣能够为Intel处理器带来如此大的改进呢？下面就让我们来了解一下这款什么的指令集吧！

Intel Intel SSE4 指令包括矢量化编译器和媒体加速器指令
SSE4的英文全称是：Streaming SIMD Extensions 4，是英特尔自从SSE2之后对ISA扩展指令集最大的一次的升级扩展。新指令集增强了从多媒体应用到高性能计算应用领域的性能，同时还利用一些专用电路实现对于特定应用加速。
从指令数目上看，SSE4指令增加了的指令改进了整数和浮点操作，支持DWORD和QWORD操作，新的单精度FP操作、快速寄存器操作、面向性能优化的内存操作等等，包括了图形、图像、数据装载各方面的革新，因此称其为SSE2以来最大的指令集变动也是不为过的。利用支持SSE4指令集的编译器编译之后，包括图形/图像处理、视频处理、2D/3D创作、多媒体、游戏、内存敏感负载、高性能计算等应用都会受益。
SSE4指令集将分为两个版本：4.1和4.2，SSE4.1版本随着45nm Penryn发布，而SSE4.2版本将会随着下一代架构Nehalem发布，4.1将包括47条指令，4.2将包括7条指令。
技术领先强大的SSE4指令集解析
据Intel指出，在应用SSE4指令集后，Penryn增加了2个不同的32Bit向量整数乘法运算支持，引入了8位无符号 (Unsigned)最小值及最大值运算，以及16Bit 及32Bit 有符号 (Signed) 及无符号运算，并有效地改善编译器效率及提高向量化整数及单精度代码的运算能力。同时，SSE4 改良插入、提取、寻找、离散、跨步负载及存储等动作，令向量运算进一步专门化。

不仅如此，Intel SSE4指令集还进一步增强讯编码效果，例如可同时处理8个4-byte宽度的SAD(Sums of Absolute Differences)运算，常用于新一代高清影像编码如VC.1及H.264等规格中，令视频编码速度进一步提升。因此在播放高清视频的时候，即使在软解的情况下也同样游刃有余。

有效地改善编译器效率及提高向量化整数及单精度代码的运算能力
SSE4 构建于英特尔64 指令集架构 (Intel® 64 Instruction Set Architecture) (ISA)，该架构是开发 32 位和 64 位应用最为广泛应用的电脑架构。Intel&regSSE4 包含 54 条指令，主要分为两类：矢量化编译器和媒体加速器，以及高效加速字符串和文本处理。矢量化编译器和媒体加速器可提供高性能的编译器函数库，如封包（同时使用多个操作数）整数运算和浮点运算，可生成性能优化型代码。此外，它还包括高度优化的媒体相关运算，如绝对差值求和、浮点点积和内存负载等。矢量化编译器和媒体加速器指令可改进音频、视频和图像编辑应用、视频编码器、3D 应用和游戏的性能。高效加速字符串和文本处理包含多个压缩字符串比较指令，允许同时运行多项比较和搜索操作。由此受益的应用包括数据库和数据采掘应用，以及那些利用病毒扫描和编译器等分析、搜索和模式匹配算法的应用。

SSE4加入了6条浮点型点积运算指令

SSE4加入了6条浮点型点积运算指令，支持单精度、双精度浮点运算及浮点产生操作，且IEEE 754指令 (Nearest, -Inf, Inf, and Truncate) 可立即转换其路径模式，大大减少延误，这些改变将对游戏及 3D 内容制作应用有重要意义。此外，SSE4加入串流式负载指令，可提高以图形帧缓冲区的读取数据频宽，理论上可获取完整的快取缓存行，即每次读取64Bit而非8Bit，并可保持在临时缓冲区内，让指令最多可带来8倍的读取频宽效能提升，对于视讯处理、成像以及图形处理器与中央处理器之间的共享数据应用，有着明显的效能提升。

高清从这里开始 英特尔最新SSE4指令集详解

相关推荐

高清从这里开始英特尔最新SSE4指令集详解