对整数向量使用 _mm_shuffle_ps 的影响

2024-04-13

SSE内在函数包括_mm_shuffle_ps xmm1 xmm2 immx它允许人们从中选择 2 个元素xmm1与 2 个元素连接xmm2。然而，这是针对浮点数的，（由_ps，单个包装）。但是，如果你转换你的压缩整数__m128i，那么你可以使用_mm_shuffle_ps还有：

#include <iostream>
#include <immintrin.h>
#include <sstream>

using namespace std;

template <typename T>
std::string __m128i_toString(const __m128i var) {
    std::stringstream sstr;
    const T* values = (const T*) &var;
    if (sizeof(T) == 1) {
        for (unsigned int i = 0; i < sizeof(__m128i); i++) {
            sstr << (int) values[i] << " ";
        }
    } else {
        for (unsigned int i = 0; i < sizeof(__m128i) / sizeof(T); i++) {
            sstr << values[i] << " ";
        }
    }
    return sstr.str();
}



int main(){

  cout << "Starting SSE test" << endl;
  cout << "integer shuffle" << endl;

 int A[] = {1,  -2147483648, 3, 5};
 int B[] = {4, 6, 7, 8};

  __m128i pC;

  __m128i* pA = (__m128i*) A;
  __m128i* pB = (__m128i*) B;

  *pA = (__m128i)_mm_shuffle_ps((__m128)*pA, (__m128)*pB, _MM_SHUFFLE(3, 2, 1 ,0));
  pC = _mm_add_epi32(*pA,*pB);

  cout << "A[0] = " << A[0] << endl;
  cout << "A[1] = " << A[1] << endl;
  cout << "A[2] = " << A[2] << endl;
  cout << "A[3] = " << A[3] << endl;

  cout << "B[0] = " << B[0] << endl;
  cout << "B[1] = " << B[1] << endl;
  cout << "B[2] = " << B[2] << endl;
  cout << "B[3] = " << B[3] << endl;

  cout << "pA = " << __m128i_toString<int>(*pA) << endl;
  cout << "pC = " << __m128i_toString<int>(pC) << endl;
}

相关相应程序集的片段（mac osx、macports gcc 4.8、ivybridge CPU 上的 -march=native）：

vshufps $228, 16(%rsp), %xmm1, %xmm0
vpaddd  16(%rsp), %xmm0, %xmm2
vmovdqa %xmm0, 32(%rsp)
vmovaps %xmm0, (%rsp)
vmovdqa %xmm2, 16(%rsp)
call    __ZStlsISt11char_traitsIcEERSt13basic_ostreamIcT_ES5_PKc
....

因此，它似乎在整数上工作得很好，这是我所期望的，因为寄存器与类型无关，但是文档说该指令仅适用于浮点数一定是有原因的。有人知道我错过的任何缺点或影响吗？

没有等同于_mm_shuffle_ps对于整数。为了在这种情况下达到相同的效果，你可以这样做

SSE2

*pA = _mm_shuffle_epi32(_mm_unpacklo_epi32(*pA, _mm_shuffle_epi32(*pB, 0xe)),0xd8);

SSE4.1

*pA = _mm_blend_epi16(*pA, *pB, 0xf0);

or 更改为浮点域 https://stackoverflow.com/questions/13153584/mm-shuffle-ps-equivalent-for-integer-vectors-m128i像这样

*pA = _mm_castps_si128( 
        _mm_shuffle_ps(_mm_castsi128_ps(*pA), 
                       _mm_castsi128_ps(*pB), _MM_SHUFFLE(3, 2, 1 ,0)));

但更改域可能会导致绕过延迟延迟 https://stackoverflow.com/questions/19543590/bypass-delays-when-switching-execution-unit-domains在某些 CPU 上。请记住，根据阿格纳的说法

旁路延迟在延迟是瓶颈的长依赖链中很重要，但是不是吞吐量而不是延迟重要的地方。

您必须测试您的代码并查看上面哪种方法更有效。

幸运的是，在大多数 Intel/AMD CPU 上，使用通常不会受到任何惩罚shufps大多数整数向量指令之间。阿格纳说：

例如，我发现混合时没有延迟PADDD and SHUFPS[在桑迪布里奇]。

Nehalem 确实有 2 个往返延迟SHUFPS，但即便如此，单个SHUFPS通常仍然比多个其他指令更快。额外的指令也会带来延迟，并且会降低吞吐量。

相反（FP 数学指令之间的整数洗牌）则不那么安全：

In Agner Fog 的微架构 http://www.agner.org/optimize/microarchitecture.pdf在第 112 页的例 8.3a 中，他表明使用PSHUFD (_mm_shuffle_epi32）代替SHUFPS (_mm_shuffle_ps）在浮点域中时会导致四个时钟周期的旁路延迟。在示例 8.3b 中，他使用 SHUFPS 来消除延迟（这在他的示例中有效）。

尼黑勒姆上实际上有五个域。纳哈勒姆 (Nahalem) 似乎受到的影响最大（纳哈勒姆 (Nahalem) 之前不存在旁路延误）。在桑迪桥，延误不太严重。在 Haswell 上更是如此。事实上，哈斯韦尔·阿格纳（Haswell Agner）表示，他发现之间没有任何延误SHUFPS or PSHUFD（参见第 140 页）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

SSE

avx

对整数向量使用 _mm_shuffle_ps 的影响的相关文章

最新的处理器不支持 SSSE3 指令？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案是否有任何不支持 SSSE3 指令的仍然相关的 CPU Intel AMD Atom 没有 SSSE3 的最新 CPU 是什么没有 SS
将8个16位SSE寄存器转换为8位数据

假设我有一个包含 16 位数据的 SSE 数组 1 2 3 4 5 6 7 8 现在我需要通过在前 8 个字节中仅存储 16 位数据的低字节来将此 SSE 数组转换为 8 位数据如下所示 1 2 3 4 5 6 7 8 0 0 0 0 0
当内存带宽受限时 SSE 和 AVX 的性能

在下面的代码中我更改了 dataLen 并获得了不同的效率 dataLen 400 SSE 时间 758000 us AVX 时间 483000 us SSE gt AVX dataLen 2400 SSE 时间 4212000 us A
使用 sse 内在函数时如何打破循环？

m128 pSrc1 m128 string m128 m0 mm set ps1 0 null character while 1 m128 result m128 mm cmpeq ss pSrc1 m0 if character is
LLVM 的 amd64 输出中向量的对齐

我正在尝试通过 LLVM 在结构内部使用向量我的结构有以下 C 定义 struct Foo uint32 t len uint32 t data 32 attribute aligned 16 下面是一些 LLVM 代码用于将 42 添
我在理解 AVX shuffle 内在函数如何为 8 位工作时遇到一些问题

我正在尝试使用 mm256 shuffle epi8 将 16 位数据打包为 8 位但我得到的结果不是我所期望的 auto srcData mm256 setr epi8 1 2 3 4 5 6 7 8 9 10 11 12 13 14
使用 SSE 内在函数时如何确保 NaN 传播？

我最近读到了这篇关于NaNSSE 算术运算中的值对两个非数字 NAN 参数进行算术运算的结果是未定义的因此使用 NAN 参数的浮点运算将与相应汇编指令的预期行为不匹配 Source http msdn microsoft com en
如何写入LLDB中的XMM寄存器

我正在尝试使用 LLDB API 从 python 中的寄存器读取和写入值对于通用寄存器我一直在使用frame register register name value读取和写入寄存器值这对我来说很成功然而当我接近浮点寄存器时我
有没有比加0.5f并截断转换更直接的方法将float转换为int并进行舍入？

在处理浮点数据的 C 代码中从 float 到 int 的舍入转换相当频繁例如一种用途是生成转换表考虑一下这段代码 Convert a positive float value and round to the nearest in
进行水平 SSE 向量和（或其他简化）的最快方法

给定一个由三个或四个浮点数组成的向量对它们求和的最快方法是什么 SSE movaps shuffle add movd 总是比 x87 快吗 SSE3 中的水平相加指令值得吗转移到 FPU 然后是 faddp faddp 的成本是多
使用 x64 SIMD 进行半字节改组

我知道字节改组 https www felixcloutier com x86 pshufb指令但我想对半字节 4 位值做同样的事情具体来说我想在 64 位字中混洗 16 个半字节我的洗牌索引也存储为 16 个半字节最有效的实施
使用 clang/g++ 时 __m256i 数组出现分段错误

我正在尝试生成数组 m256i在另一个计算中重用当我尝试这样做时即使使用最小的测试用例我也会遇到分段错误但前提是代码是使用 g 或 clang 编译的如果我使用 Intel 编译器版本 16 0 编译代码则不会发生分段错误这
Ubuntu - 如何判断CPU应用程序当前是否正在使用AVX或SSE？

我目前在许多具有 GPU 的服务器上运行 BOINC 服务器运行 GPU 和 CPU BOINC 应用程序由于 AVX 和 SSE 在 CPU 应用程序中使用时会降低 CPU 频率因此我必须选择一起运行哪个 CPU GPU 因为某些 G
有没有好的 x86 双精度小矩阵 SIMD 库？

我正在寻找一个专注于图形小型 4x4 矩阵运算的 SIMD 库那里有很多单精度但我需要支持单精度和双精度我看过 Intel 的 IPP MX 库但我更喜欢带有源代码的库我对这些特定操作的 SSE3 实现非常感兴趣垫4 垫4 Ma
对于Intel Haswell上的XMM/YMM FP操作，可以使用FMA代替ADD吗？

这个问题适用于 Haswell 上带有 XMM YMM 寄存器的打包单精度浮点运算所以根据awesome awesome table http www agner org optimize instruction tables pdf由
调用always_inline‘_mm_mullo_epi32’时内联失败：目标特定选项不匹配

我正在尝试使用 cmake 编译 C 程序该程序使用 SIMD 内在函数当我尝试编译它时出现两个错误 usr lib gcc x86 64 linux gnu 5 include smmintrin h 326 1 错误调用alwa
C++ 错误：“_mm_sin_ps”未在此范围内声明

我正在尝试对将函数应用于数组的不同方法进行基准测试 why is mm sin ps在我的范围内不知道但是 mm sqrt ps is 我怎样才能让它知道并且编译没有错误 include
用于读/写 XMM 和 YMM 寄存器的内联汇编代码？

我有 2 个变量来模拟 X86 XMM 和 YMM 如下所示 uint64 t xmm value 2 uint64 t ymm value 4 现在我想使用内联汇编来读取和写入 XMM YMM 寄存器如何编写GCC内联汇编来复制xmm
gcc 编译器开关 (-mavx -mavx2 -mavx512f) 到底有什么作用？

我在 C C 代码中明确使用了英特尔 SIMD 内在扩展为了编译代码我需要在命令行上指定 mavx mavx512 或类似的内容我对这一切都很满意然而从阅读 gcc 手册页来看并不清楚这些命令行标志是否也告诉 gcc 编译器尝试
orpd等SSE2指令有什么意义？

The orpd指令是压缩双精度浮点值的按位逻辑或这不是做完全相同的事情吗por 按位逻辑或如果是这样拥有它还有什么意义呢请记住 SSE1orps https www felixcloutier com x86 orps首先实

随机推荐

等待（长超时）和加入（长毫秒）之间的区别？

当线程 1 在线程 2 上调用 wait 和 join 方法时线程 1 会等待线程 2 一段时间或直到线程 2 完成如果我们使用这些方法的重载版本即 wait long timeout 和 join long millis 那么在
如何在 Sublime Text 2 中插入一列递增的数字？

text text text text 编辑后这些文本变成 1 text 2 text 3 text 4 text 在 Notepad 中使用列编辑器很容易但我不知道如何在 Sublime Text 2 中做同样的事情 The 文字糕点
使用 C# 访问 Sharepoint - 在哪里可以找到参考库？

我目前正在用 C 编写一个 Windows 应用程序它将向文档库列表添加文档我试图引用 Microsoft Sharepoint 但是我没有看到 Visual Studio 2005 添加引用列表中的 COM 或 NET 库我需要引用
Mac OS 上的 Ada 编译器 GNAT

我正在尝试使用 mac 上的终端编译 ada 但总是收到此错误错误 x ada 中的 ada 值无效有人知道如何解决这个问题吗你可能没有安装Ada编译器 OSX自带的gcc不支持Ada 目前有两种适用于 OSX 且支持 Ada 的免
css-显示页脚下方有大量空间

请参阅此链接中的图像 https docs google com document d 1r9L9eLBddMOdHAP3KfAx8ND SF8b8zBl53o88aUbHT4 edit pli 1 https docs google co
核心蓝牙发送数据包时速度变慢

我遇到一个问题即使用 peripheral writeValue dataPacket forCharacteristic writeChar type CBCharacteristicWithResponse 并且 iOS 设备实际物理
如何使用 Swift 函数返回的值

我正在尝试使用 Swift 函数将一个圆放置在视图的中心这样无论屏幕大小如何它始终位于中心我可以在由一组任意 x 和 y 值定义的点处绘制圆但我需要函数来提供这些值我创建了一个名为的函数screenCentre 读取并返回两个参数
未捕获（承诺）：错误：StaticInjectorError(AppModule)[选项]

我有一个奇怪的错误通常我用谷歌搜索过在这种错误情况下 Angular 在方括号中指定到底是哪个模块服务提供者等导致了问题然而这里只说options 我尝试添加HttpClientModule HttpModule Option
关联来自不同数据库的表 - 实体框架

我想知道如何如果可能使用实体框架关联来自不同数据库的表我有一个 edmx 用于我的 xyz 数据库另一个用于我的 abc 数据库我需要使用 EF 将它们关联起来我知道如何使用 FK 修复此问题但这不是我想要的我希望能够使用可
检测服务器/站点对跨域 XMLHttpRequest 的支持吗？

我有兴趣看看最小的跨浏览器 Javascript 代码 jQuery 也很好可以用来验证我希望发送跨域 AJAX 请求的网站是否支持CORS http en wikipedia org wiki Cross origin resource
如何创建包含字符串字符的列表？ [复制]

这个问题在这里已经有答案了是否可以将字符串转换为列表如下所示 5 6 into 5 6 list 5 6 returns 5 6
Julia：显示函数体（以查找丢失的代码）

在 R 语言中我可以声明一个函数并查看函数体如下所示 gt megafoobar function x return x 10000 gt body megafoobar return x 10000 类似的事情在 Julia 中也可能
Scala 中的通配符导入对于增量编译是否不好？

在 Scala 中从增量编译器 sbt Eclipse 中的 sbt IntelliJ 的功效和速度的角度来看使用通配符导入是否不好它是否会对这些增量编译器在发生更改时决定重新编译内容的方式产生不利影响例如如果对于一个新班级X 我
在 Julia 中有效求解特定线性系统

我广泛使用朱莉娅的线性方程求解器res X b 由于参数变化我必须在程序中使用它数百万次这工作正常因为我使用的是小尺寸最多30 现在我想分析更大的系统最多1000 线性求解器不再有效我认为可以有一个解决办法然而我必须说有时我
在 Netsuite 中按自定义字段搜索客户

我能够使 api 在 php 中工作并通过内部 ID 搜索客户不过我有一个场景我将通过自定义字段搜索客户在客户下它有一个自定义选项卡其中包含多个域名和域详细信息例如主要搜索条件域名这在 netsuite php ap
Visual Studio 2012（RTM，在 Windows 8 RTM 上）中没有带断点的 XAML 绑定调试？

将我的 Silverlight 5 解决方案升级到 Visual Studio 2012 RTM 然后更新到 Windows 8 RTM 后我注意到当您在 XAML 中设置断点时您会在调试模式下看到以下工具提示当前不会命中断点找不到
是否可以定义带有可变参数的宏，并获取每个参数的类型？

下面是一个明显的可变参数函数 def fun xs Any 我们可以用类似的方式定义一个宏 def funImpl c Context xs c Expr Any fun 1 1 1 0 但在本例中所有参数都键入为Any 事实上编译器在
PGP TarBall 文件签名密钥验证失败，未找到有效的 OpenPGP 数据

这是我第一次认为我最好检查我要安装的绑定软件的密钥所以我下载了我认为是 OpenPGP 密钥的东西 wget ftp ftp isc org isc bind9 9 9 4 bind 9 9 4 tar gz sha1 asc 然后我尝试
Typeof/instanceof 类型别名

我想知道是否可以确定打字稿中对象的类型请考虑下面的例子 type T number boolean class B foo T 3 true bar boolean return this foo instanceof T typeof
对整数向量使用 _mm_shuffle_ps 的影响

SSE内在函数包括 mm shuffle ps xmm1 xmm2 immx它允许人们从中选择 2 个元素xmm1与 2 个元素连接xmm2 然而这是针对浮点数的由 ps 单个包装但是如果你转换你的压缩整数 m128i 那么你可以使

对整数向量使用 _mm_shuffle_ps 的影响

对整数向量使用 _mm_shuffle_ps 的影响 的相关文章

随机推荐

热门标签

对整数向量使用 _mm_shuffle_ps 的影响的相关文章