如何将两个打包的 64 位四字加载到 128 位 xmm 寄存器中

2023-11-29

我有两个 UInt64（即 64 位四字）整数。

它们与 8 字节对齐（sizeof(UInt64)) 边界（如果这对任何事情有用的话，我也可以将它们对齐到 16 字节）
它们被挤在一起，所以它们在内存中是并排的

我如何将它们加载到 xmm 寄存器中，例如xmm0:

我发现：

movq xmm0, v[0]

但这只会移动v[0]，并将高 64 位设置为xmm0到零：

xmm0 0000000000000000 24FC18D93B2C9D8F

奖励问题

我怎样才能让他们回来？
如果它们在内存中不是并排的怎么办？
如果它们是 4 字节对齐怎么办？

Edit

正如 W. Chang 指出的，字节序化很小，我同意它是相反的：

我的难题是如何让他们进来，以及如何让他们出去。

对于未对齐的 128 位加载，请使用：

movups xmm0, [v0]: 移动未对齐的单精度浮点 for float or double数据。 (movupd多了 1 个字节，但不会造成性能差异。）
movdqu xmm0, [v0]: 移动未对齐的双四字

即使两个四字跨缓存行边界分开，这通常也是吞吐量的最佳选择。（在 AMD CPU 上，当负载不适合缓存行的对齐 32 字节块（而不仅仅是 64 字节缓存行边界）时，可能会受到惩罚。但在 Intel 上，64 字节内的任何未对齐缓存线是免费的。）

如果您的负载正在提供整数 SIMD 指令，您可能需要movdqu，虽然movups机器码少了 1 个字节。有些CPU可能关心不同类型负载的“域交叉”。对于商店来说没关系，许多编译器总是使用movups即使对于整数数据。

也可以看看如何准确地对 x86_64 上的未对齐访问速度进行基准测试有关未对齐负载成本的更多信息。（SIMD 和其他）。

如果没有连续的，你最好的选择是

movq xmm0, [v0]: 移动四字
movhps xmm0, [v1]: 移动高压缩单精度浮点。（没有等价的整数，无论如何使用这个。永远不要使用movhpd，时间更长没有任何好处，因为没有 CPU 关心 double 与 float shuffle。）

或者在旧的 x86 上，例如 Core2 和其他旧的 CPU，其中movups即使 16 个字节都来自同一缓存行，速度也很慢，您可以使用

movq xmm0, [v0]: 移动四字
movhps xmm0, [v0+8]: 移动高压缩单精度浮点

movhps比稍微有效SSE4.1 pinsrq xmm0, [v1], 1（2 uop，无法在 Intel Sandybridge 系列上进行微熔丝：1 uop 用于负载端口，1 个用于端口 5）。movhps是 1 个微融合 uop，但仍然需要相同的后端端口：加载 + 洗牌。

请参阅 Agner Fog 的 x86 优化指南；他有一章是关于 SIMD 的，其中很大一部分是关于数据移动的。https://agner.org/optimize/并查看其他链接https://stackoverflow.com/tags/x86/info.

为了取回数据，movups可以作为商店，也可以movlps/movhps分散 qword 的两半。（但不要使用movlps作为负载 - 它合并创建了错误的依赖关系与错误的依赖关系。movq or movsd.)

movlps比短 1 个字节movq，但两者都可以将 xmm 寄存器的低 64 位存储到内存中。编译器通常会忽略存储的域交叉（vec-int 与 vec-fp），因此您也应该：通常使用 SSE1...ps当它们与商店完全相同时的说明。（不适用于 reg-reg 移动；Nehalem 可以放慢速度movaps整数 SIMD 之间，如paddd，或相反亦然。）

在所有情况下，据我所知，没有 CPU 关心float vs. double对于除实际加法/乘法指令以外的任何指令，没有具有单独的CPUfloat and double绕过转发域。 ISA 设计保留了该选项，但实际上，通过使用来节省字节永远不会受到惩罚movups or movaps围绕向量进行复制double。或者使用movlps代替movlpd. double随机播放有时很有用，因为unpcklpd就好像punpcklqdq（交错 64 位元素）与unpcklps就像punpckldq（交织 32 位元素）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)