在 AVX 寄存器内循环字节的有效方法

2024-01-20

摘要/tl；博士：除了进行 2 倍移位并将结果混合在一起之外，还有什么方法可以按位旋转 YMM 寄存器中的字节（使用 AVX）？

对于 YMM 寄存器中的每 8 个字节，我需要向左旋转 7 个字节。每个字节都需要比前一个字节向左旋转一位。因此，第 1 个字节应旋转 0 位，第七个字节应旋转 6 位。

目前，我已经实现了一个实现，通过[我在这里使用 1 位循环作为示例]将寄存器分别向左移动 1 位，向右移动 7 位。然后，我使用混合操作（固有操作 _mm256_blend_epi16）从第一个和第二个临时结果中选择正确的位，以获得最终的旋转字节。
每个字节总共需要 2 次移位操作和 1 次混合操作，并且需要旋转 6 个字节，因此每个字节需要 18 次操作（移位和混合的性能几乎相同）。

一定有比使用 18 次操作来旋转单个字节更快的方法来做到这一点！

此外，我需要随后在新寄存器中组装所有字节。我通过将带有“set”指令的 7 个掩码加载到寄存器中来实现此目的，这样我就可以从每个寄存器中提取正确的字节。我将这些掩码与寄存器进行“与”运算，以从中提取正确的字节。然后，我将单字节寄存器异或在一起，以获得包含所有字节的新寄存器。这总共需要 7+7+6 次操作，因此另外 20 次操作（每个寄存器）。

我可以使用提取内在函数 (_mm256_extract_epi8) 来获取单个字节，然后使用 _mm256_set_epi8 来组装新寄存器，但我还不知道这是否会更快。（英特尔内在函数指南中没有列出这些函数的性能，所以也许我在这里误解了一些东西。）

这使得每个寄存器总共有 38 次操作，对于在寄存器内以不同方式旋转 6 个字节来说，这似乎不是最佳选择。

我希望更精通 AVX/SIMD 的人可以在这里指导我 - 无论我是否以错误的方式进行此操作 - 因为我觉得我现在可能正在这样做。

The XOP指令集 https://en.wikipedia.org/wiki/XOP_instruction_set确实提供_mm_rot_epi8() https://msdn.microsoft.com/en-us/library/gg445129%28v=vs.100%29.aspx（这不是 Microsoft 特有的；从 4.4 或更早版本开始，它也可以在 GCC 中使用，并且在最近的 clang 中也应该可以使用）。它可用于以 128 位为单位执行所需的任务。不幸的是，我没有支持 XOP 的 CPU，所以我无法测试它。

在 AVX2 上，将 256 位寄存器分成两半，一半包含偶数字节，另一半包含奇数字节右移 8 位，从而允许 16 位向量乘法来实现这一目的。给定常量（使用 GCC 64 位组件数组格式）

static const __m256i epi16_highbyte = { 0xFF00FF00FF00FF00ULL,
                                        0xFF00FF00FF00FF00ULL,
                                        0xFF00FF00FF00FF00ULL,
                                        0xFF00FF00FF00FF00ULL };
static const __m256i epi16_lowbyte  = { 0x00FF00FF00FF00FFULL,
                                        0x00FF00FF00FF00FFULL,
                                        0x00FF00FF00FF00FFULL,
                                        0x00FF00FF00FF00FFULL };
static const __m256i epi16_oddmuls  = { 0x4040101004040101ULL,
                                        0x4040101004040101ULL,
                                        0x4040101004040101ULL,
                                        0x4040101004040101ULL };
static const __m256i epi16_evenmuls = { 0x8080202008080202ULL,
                                        0x8080202008080202ULL,
                                        0x8080202008080202ULL,
                                        0x8080202008080202ULL };

旋转操作可以写成

__m256i byteshift(__m256i value)
{
    return _mm256_or_si256(_mm256_srli_epi16(_mm256_mullo_epi16(_mm256_and_si256(value, epi16_lowbyte), epi16_oddmuls), 8),
                           _mm256_and_si256(_mm256_mullo_epi16(_mm256_and_si256(_mm256_srai_epi16(value, 8), epi16_lowbyte), epi16_evenmuls), epi16_highbyte));
}

经验证，使用 GCC-4.8.4 在 Intel Core i5-4200U 上可以产生正确的结果。例如，输入向量（作为单个 256 位十六进制数）

88 87 86 85 84 83 82 81 38 37 36 35 34 33 32 31 28 27 26 25 24 23 22 21 FF FE FD FC FB FA F9 F8

被旋转为

44 E1 D0 58 24 0E 05 81 1C CD C6 53 A1 CC 64 31 14 C9 C4 52 21 8C 44 21 FF BF BF CF DF EB F3 F8

其中最左边的八位字节左移 7 位，接下来的 6 位，依此类推；对于所有 32 个八位位组，第七个八位位组不变，第八个八位位组旋转 7 位，依此类推。

我不确定上述函数定义是否编译为最佳机器代码（这取决于编译器），但我当然对其性能感到满意。

由于您可能不喜欢上述函数的简洁格式，因此这里采用过程式扩展形式：

static __m256i byteshift(__m256i value)
{
    __m256i low, high;
    high = _mm256_srai_epi16(value, 8);
    low = _mm256_and_si256(value, epi16_lowbyte);
    high = _mm256_and_si256(high, epi16_lowbyte);
    low = _mm256_mullo_epi16(low, epi16_lowmuls);
    high = _mm256_mullo_epi16(high, epi16_highmuls);
    low = _mm256_srli_epi16(low, 8);
    high = _mm256_and_si256(high, epi16_highbyte);
    return _mm256_or_si256(low, high);
}

在评论中，彼得·科德斯 https://stackoverflow.com/users/224132/peter-cordes建议更换srai+and与srli，并且可能是最后的and+or with a blendv。前者很有意义，因为它纯粹是一种优化，但后者可能（但在当前的英特尔 CPU 上！）实际上更快。

我尝试了一些微基准测试，但无法获得可靠的结果。我通常在 x86-64 上使用 TSC，并使用存储到数组的输入和输出进行数十万次测试的中值。

我认为如果我在这里列出变体是最有用的，因此任何需要此类功能的用户都可以对其实际工作负载进行一些基准测试，并测试是否存在任何可测量的差异。

我也同意他的建议使用odd and even代替high and low，但请注意，由于向量中的第一个元素编号为 0，因此第一个元素是even，第二odd，等等。

#include <immintrin.h>

static const __m256i epi16_oddmask  = { 0xFF00FF00FF00FF00ULL,
                                        0xFF00FF00FF00FF00ULL,
                                        0xFF00FF00FF00FF00ULL,
                                        0xFF00FF00FF00FF00ULL };
static const __m256i epi16_evenmask = { 0x00FF00FF00FF00FFULL,
                                        0x00FF00FF00FF00FFULL,
                                        0x00FF00FF00FF00FFULL,
                                        0x00FF00FF00FF00FFULL };
static const __m256i epi16_evenmuls = { 0x4040101004040101ULL,
                                        0x4040101004040101ULL,
                                        0x4040101004040101ULL,
                                        0x4040101004040101ULL };
static const __m256i epi16_oddmuls  = { 0x8080202008080202ULL,
                                        0x8080202008080202ULL,
                                        0x8080202008080202ULL,
                                        0x8080202008080202ULL };

/* Original version suggested by Nominal Animal. */
__m256i original(__m256i value)
{
    return _mm256_or_si256(_mm256_srli_epi16(_mm256_mullo_epi16(_mm256_and_si256(value, epi16_evenmask), epi16_evenmuls), 8),
                           _mm256_and_si256(_mm256_mullo_epi16(_mm256_and_si256(_mm256_srai_epi16(value, 8), epi16_evenmask), epi16_oddmuls), epi16_oddmask));
}

/* Optimized as suggested by Peter Cordes, without blendv */
__m256i no_blendv(__m256i value)
{
    return _mm256_or_si256(_mm256_srli_epi16(_mm256_mullo_epi16(_mm256_and_si256(value, epi16_evenmask), epi16_evenmuls), 8),
                           _mm256_and_si256(_mm256_mullo_epi16(_mm256_srli_epi16(value, 8), epi16_oddmuls), epi16_oddmask));
}

/* Optimized as suggested by Peter Cordes, with blendv.
 * This is the recommended version. */
__m256i optimized(__m256i value)
{
    return _mm256_blendv_epi8(_mm256_srli_epi16(_mm256_mullo_epi16(_mm256_and_si256(value, epi16_evenmask), epi16_evenmuls), 8),
                              _mm256_mullo_epi16(_mm256_srli_epi16(value, 8), epi16_oddmuls), epi16_oddmask);
}

以下是以显示各个操作的方式编写的相同函数。虽然它根本不影响理智的编译器，但我已经标记了函数参数和每个临时值const，因此很明显如何将每个插入到后续表达式中，以将函数简化为上述简洁形式。

__m256i original_verbose(const __m256i value)
{
    const __m256i odd1  = _mm256_srai_epi16(value, 8);
    const __m256i even1 = _mm256_and_si256(value, epi16_evenmask);
    const __m256i odd2  = _mm256_and_si256(odd1, epi16_evenmask);
    const __m256i even2 = _mm256_mullo_epi16(even1, epi16_evenmuls);
    const __m256i odd3  = _mm256_mullo_epi16(odd3, epi16_oddmuls);
    const __m256i even3 = _mm256_srli_epi16(even3, 8);
    const __m256i odd4  = _mm256_and_si256(odd3, epi16_oddmask);
    return _mm256_or_si256(even3, odd4);
}

__m256i no_blendv_verbose(const __m256i value)
{
    const __m256i even1 = _mm256_and_si256(value, epi16_evenmask);
    const __m256i odd1  = _mm256_srli_epi16(value, 8);
    const __m256i even2 = _mm256_mullo_epi16(even1, epi16_evenmuls);
    const __m256i odd2  = _mm256_mullo_epi16(odd1, epi16_oddmuls);
    const __m256i even3 = _mm256_srli_epi16(even2, 8);
    const __m256i odd3  = _mm256_and_si256(odd2, epi16_oddmask);
    return _mm256_or_si256(even3, odd3);
}

__m256i optimized_verbose(const __m256i value)
{
    const __m256i even1 = _mm256_and_si256(value, epi16_evenmask);
    const __m256i odd1  = _mm256_srli_epi16(value, 8);
    const __m256i even2 = _mm256_mullo_epi16(even1, epi16_evenmuls);
    const __m256i odd2  = _mm256_mullo_epi16(odd1, epi16_oddmuls);
    const __m256i even3 = _mm256_srli_epi16(even2, 8);
    return _mm256_blendv_epi8(even3, odd2, epi16_oddmask);
}

我个人确实最初以上述详细形式编写我的测试函数，因为形成简洁版本是一组简单的复制粘贴。然而，我确实测试了这两个版本，以验证是否引入任何错误，并保持详细版本可访问（作为注释等），因为简洁版本基本上是只写的。编辑详细版本，然后将其简化为简洁形式，比尝试编辑简洁版本要容易得多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 AVX 寄存器内循环字节的有效方法的相关文章

具有不同大小结构的结构数组的 malloc()

如果每个结构都包含一个大小不同的字符串数组那么如何正确地 malloc 一个结构数组因此每个结构可能有不同的大小并且不可能 realloc 结构体数量 sizeof 结构体名称 after malloc 初始大小 sizeof 结构名
通过增加索引之和来生成排序组合的有效方法

对于启发式算法我需要一个接一个地评估特定集合的组合直到达到停止标准由于它们很多目前我正在使用以下内存高效迭代器块生成它们受到 python 的启发 itertools combinations http docs python o
分段错误（核心转储）错误

我的程序编译罚款但在输入文件时出现分段错误核心转储错误我没有正确处理 ostream 吗 include
C# 正则表达式用于查找中具有特定结尾的链接

我需要一个正则表达式模式来查找字符串带有 HTML 代码中的链接以获取文件结尾如 gif 或 png 的链接示例字符串 a href site com folder picture png target blank picture
C++中delete和delete[]的区别[重复]

这个问题在这里已经有答案了可能的重复 C 中的删除与删除运算符 https stackoverflow com questions 2425728 delete vs delete operators in c 我写了一个包含两个指针的
带 If 的嵌套 For 循环的时间复杂度

void f int n for int i 1 i lt n i if i int sqrt n 0 for int k 0 k lt pow i 3 k do something 我的思考过程执行if语句的次数 sum i 1 to
劫持系统调用

我正在编写一个内核模块我需要劫持包装一些系统调用我正在暴力破解 sys call table 地址并使用 cr0 来禁用启用页面保护到目前为止一切顺利一旦完成我将公开整个代码因此如果有人愿意我可以更新这个问题无论如何
对 boost 库的依赖项没有完整路径

我已经成功构建了动态库依赖于使用自定义前缀构建和安装的 boost 库 b2 install prefix PREFIX 然而当我跑步时otool L在我的库中我得到如下输出 libboost regex dylib compatib
TcpClient 在异步读取期间断开连接

我有几个关于完成 tcp 连接的问题客户端使用 Tcp 连接到我的服务器在接受客户端后listener BeginAcceptTcpClient ConnectionEstabilishedCallback null 我开始阅读netw
将带有 glut 的点击坐标添加到向量链接列表中

我想创建一个向量链接列表并在 GLUT 库的帮助下获取点击的位置并将它们附加到链接列表中这些是我写的结构 typedef struct vector int x int y Vector typedef struct VectorLis
如何在 C++ 中将 CString 转换为 double？

我如何转换CString to a double在 C 中 Unicode 支持也很好 Thanks A CString可以转换为LPCTSTR 这基本上是一个const char const wchar t 在 Unicode 版本中知
C# 委托责任链

为了我的理解目的我实现了责任链模式 Abstract Base Type public abstract class CustomerServiceDesk protected CustomerServiceDesk nextHandle
2D morton 码编码/解码 64 位

如何将给定 x y 的莫顿代码 z 顺序编码解码为 32 位无符号整数生成 64 位莫顿代码反之亦然我确实有 xy2d 和 d2xy 但仅适用于 16 位宽的坐标产生 32 位莫顿数在网上查了很多但没有找到请帮忙如果您可
C++ 错误 - “成员初始值设定项表达式列表被视为复合表达式”

我收到一个我不熟悉的 C 编译器错误可能是一个非常愚蠢的错误但我不能完全指出它 Error test cpp 27 error member initializer expression list treated as compound
为什么具有相同名称但不同签名的多个继承函数不会被视为重载函数？

以下代码片段在编译期间产生对 foo 的调用不明确错误我想知道是否有任何方法可以解决此问题而不完全限定对 foo 的调用 include
从 Delphi 调用 C# dll

我用单一方法编写了 Net 3 5 dll 由Delphi exe调用不幸的是它不起作用步骤 1 使用以下代码创建 C 3 5 dll public class MyDllClass public static int MyDllMet
使用 HTMLAgilityPack 从节点的子节点中选择所有

我有以下代码用于获取 html 页面将网址设置为绝对然后将链接设置为 rel nofollow 并在新窗口选项卡中打开我的问题是关于将属性添加到 a s string url http www mysite com string s
如何引用解决方案之外的项目？

我有一个 Visual Studio C 解决方案其中包含一些项目其中一个项目需要引用另一个不属于解决方案的项目一开始我引用了dll
在 C++17 中使用成员的链接错误

我在 Ubuntu 16 04 上使用 gcc 7 2 并且需要使用 C 17 中的新文件系统库尽管确实有一个名为experimental filesystem的库但我无法使用它的任何成员例如当我尝试编译此文件时 include
服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同

System Net WebException 服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同在 System Net FtpWebRequest CheckError 在 System Net FtpWebReque

随机推荐

错误：无法加载文件或程序集“Oracle.ManagedDataAccessDTC”或其依赖项之一

背景我有一个包含控制台项目和 MVC4 Web 应用程序的解决方案两者都引用 Oracle ManagedDataAccess 托管 ODP NET 数据访问提供程序引用是同一文件两者均未引用 Oracle ManagedDataA
尝试在 psql 中使用“\i [文件名]”，得到“无效参数”

使用 Windows 10 Postgres 11 我有一个文件C Users myname some path query sql包含一个典型的 SELECT 查询 select a id m toagentid m maxstart f
Docker for Windows - 访问本地网络中的容器

我已经安装了适用于 Windows 的 Docker 并在其上运行 Nexus Repository Manager 容器现在我想让我的 Nexus 容器可以从内部网络中的其他电脑访问怎么做您必须将端口映射到容器端口 443 的示例
Meteor：ReferenceError：帐户未定义

我刚刚完成了 Meteor 包的开发现在我想通过将其添加到新的 Meteor 应用程序来测试它 my cool package name package js Package on use function api api use ema
服务器已经在运行。检查…/tmp/pids/server.pid。退出 - 轨道

rails s gt Booting WEBrick gt Rails 4 0 4 application starting in development on http 0 0 0 0 3000 gt Run rails server h
带参数的 RelayCommand 抛出 MethodAccessException

我正在使用 Net 和 MVVM Light 创建应用程序但 RelayCommands 遇到一些问题我正在尝试创建一个 RelayCommand 它接受一个参数并将其传递给同一 ViewModel 中的函数然而每次我尝试这样做时
grails 3 中的外部属性文件

我需要从 grails 3 中的外部文件属性读取配置在 grails 2 x 中我将文件链接到 grails config locations classpath config properties 在config groovy中但是
如何以这种特定方式拆分 git commit

情况我有一个git提交在 HEAD 处其中混合了额外的日志记录代码然后是一些真实代码现在我想做以下事情编辑掉所有日志代码基本上清理了代码库 Commit this 我现在在最后两次提交中拥有所需的状态但它们的顺序错误首先
用于按分隔符分割字符串的 mySQL 存储过程

我正在编写一个存储过程它将传递的字符串分解为传递分隔符并返回结果的第 n 个元素 n 已通过也所以这就是我想出的 CREATE PROCEDURE SPLIT IN strToSplit text IN strDelimiter v
调整具有宽度限制的框架大小

我有简单的形式TForm1有 2 个面板首先与Align alLeft第二个是Align alClient和空框TFrame1 当我将以下过程添加到表单中时一切正常 procedure TForm1 FormCreate Sender
禁用链接以停止 JQuery 中的双击

我如何禁用所有链接button点击一次后上课我希望能够在一个地方完成此操作而不必单独更改所有这些有什么想法吗到目前为止我得到了这个 a button click function this attr disabled disable
使用指向非静态成员函数的指针实现回调

假设我正在开发一个杂货清单管理器我有一扇窗户上面有GroceryListDisplay 这是一个显示购物清单上的商品的控件杂货数据由程序的模型组件存储在GroceryStorage class 要将保存的文件加载到我的程序中必须使用
Flutter SharedPreferences如何加载所有保存的？

如何加载 SharedPreferences 中保存的所有内容我保存了很多布尔值需要将所有布尔值加载到列表中这就是我保存的方式 SharedPreferences sharedPreferences bool isfavorit ov
T-SQL 分割字符串

我有一个 SQL Server 2008 R2 列其中包含一个需要用逗号分隔的字符串我在 StackOverflow 上看到了很多答案但没有一个在 R2 中有效我已确保我对任何拆分函数示例具有选择权限非常感谢任何帮助我之前用过这
R中Box Cox变换故障排除（需要使用for循环或apply）

请在下面找到我的数据行是疾病组 0 对照 1 溃疡性结肠炎和 2 克罗恩病列是基因表达值 structure c 5 54312e 05 5 6112e 06 9 74312e 05 1 3612e 06 1 29312e 05 7 2
R 中 nlme 线性混合模型中相互作用显着性的检验

I use lme函数在nlme用于测试因子水平的 R 包items与因子水平有显着的交互作用condition 因素condition有两个级别 Control and Treatment 以及因子items有 3 个级别 E1 E3 我
如何在ubuntu-18.04上安装nexus

我需要帮助在 ubuntu 18 04 上安装 nexus oss 我在互联网上找不到任何 apt get 命令我尝试在 sudo apt get search nexus 中搜索nexus包但无法获得正确的nexus版本包我在网上浏
Bootstrap Affix 插件内存泄漏

这些行 https github com twbs bootstrap blob master js affix js L19 L21在引导程序词缀插件中似乎会导致内存泄漏因为窗口获取对从未释放的词缀实例的引用作为解决方法我使用此代码
OpenAPI 生成器的 Gradle 配置

当将 OpenAPI 生成器与 Gradle 一起使用时我希望将性别源发送到其他源生成器插件使用的标准目录类似 Maven 生成源的东西到目前为止我还无法做到这一点特别是限制生成 Java 源类而不是整个原型项目看来 Open
在 AVX 寄存器内循环字节的有效方法

摘要 tl 博士除了进行 2 倍移位并将结果混合在一起之外还有什么方法可以按位旋转 YMM 寄存器中的字节使用 AVX 对于 YMM 寄存器中的每 8 个字节我需要向左旋转 7 个字节每个字节都需要比前一个字节向左旋转一位因此

在 AVX 寄存器内循环字节的有效方法

在 AVX 寄存器内循环字节的有效方法 的相关文章

随机推荐

热门标签

在 AVX 寄存器内循环字节的有效方法的相关文章