使用 SIMD 解决循环数据依赖性 - 在 sgn 值的 int8_t 数组中查找 -1 和 +1 之间的转换

2023-12-12

我尝试实现性能提升，并在 SIMD 方面取得了一些良好的经验。到目前为止，我正在使用 OMP，并希望使用内在函数进一步提高我的技能。

在下面的场景中，由于元素 n+1 测试所需的 last_value 的数据依赖性，我未能改进（甚至矢量化）。

环境是具有 AVX2 的 x64，因此想要找到一种方法来矢量化和 SIMDfy 这样的函数。

inline static size_t get_indices_branched(size_t* _vResultIndices, size_t _size, const int8_t* _data) {
    size_t index = 0;
    int8_t last_value = 0;
    for (size_t i = 0; i < _size; ++i) {
        if ((_data[i] != 0) && (_data[i] != last_value)) {
            // add to _vResultIndices
            _vResultIndices[index] = i;
            last_value = _data[i];
            ++index;
        }
    }
    return index;
}

输入是有符号 1 字节值的数组。每个元素都是之一。输出是输入值（或指针）的索引数组，表示更改为 1 或 -1。

输入/输出示例

in: { 0,0,1,0,1,1,-1,1, 0,-1,-1,1,0,0,1,1, 1,0,-1,0,0,0,0,0, 0,1,1,1,-1,-1,0,0, ... }
out { 2,6,7,9,11,18,25,28, ... }

我的第一次尝试是尝试各种无分支版本，并通过比较汇编输出来查看自动矢量化或 OMP 是否能够将其转换为 SIMDish 代码。

尝试示例

int8_t* rgLast = (int8_t*)alloca((_size + 1) * sizeof(int8_t));
rgLast[0] = 0;

#pragma omp simd safelen(1)
for (size_t i = 0; i < _size; ++i) {
    bool b = (_data[i] != 0) & (_data[i] != rgLast[i]);
    _vResultIndices[index] = i;
    rgLast[i + 1] = (b * _data[i]) + (!b * rgLast[i]);
    index += b;
}

由于没有实验产生 SIMD 输出，因此我开始尝试内在函数，目标是将条件部分转换为掩码。

对于 != 0 部分来说非常简单：

__m256i* vData = (__m256i*)(_data);
__m256i vHasSignal = _mm256_cmpeq_epi8(vData[i], _mm256_set1_epi8(0)); // elmiminate 0's

我还没有找到一种方法来测试“最后一次翻转”的条件方面。

为了解决以下输出打包问题，我假设AVX2基于面具打包剩下的最有效的方法是什么？可以工作。

Update 1

深入研究这个主题就会发现，分离 1/-1 并去掉 0 是有益的。幸运的是，就我而言，我可以直接从预处理中获取它并使用以下命令跳过处理到 _mm256_xor_si256例如，有 2 个输入向量分隔为 gt0（全 1）和 lt0（全 -1）。这还允许将数据打包得更紧 4 倍。

I might want to end up with a process like this The challenge now is how to create the transition mask based on gt0 and lt0 masks.

Update 2

显然，一种将 1 和 -1 分成 2 个流的方法（参见答案如何），在访问元素以进行交替扫描时引入了依赖：如何有效地扫描每次迭代交替的 2 位掩码

创建一个过渡掩码，如 @aqrit 使用
transition mask = ((~lt + gt) & lt) | ((~gt + lt) & gt)是可能的。尽管这增加了相当多的指令，但它似乎是消除数据依赖性的有益权衡。我假设寄存器越大增益就会增加（可能取决于芯片）。

Update 3

通过矢量化transition mask = ((~lt + gt) & lt) | ((~gt + lt) & gt)我可以编译这个输出

vmovdqu     ymm5,ymmword ptr transition_mask[rax]  
vmovdqu     ymm4,ymm5  
vpandn      ymm0,ymm5,ymm6  
vpaddb      ymm1,ymm0,ymm5  
vpand       ymm3,ymm1,ymm5  
vpandn      ymm2,ymm5,ymm6  
vpaddb      ymm0,ymm2,ymm5  
vpand       ymm1,ymm0,ymm5  
vpor        ymm3,ymm1,ymm3  
vmovdqu     ymmword ptr transition_mask[rax],ymm3

乍一看，与潜在条件相关的后处理陷阱（垂直扫描 + 附加到输出）相比，它显得高效，尽管处理 2 个流而不是 1 个流似乎是正确且符合逻辑的。

这缺乏在每个周期生成初始状态的能力（从 0 转换到 1 或 -1）。不确定是否有办法增强transition_mask生成“位旋转”，或者使用auto initial _tzcnt_u32(mask0) > _tzcnt_u32(mask1)正如 Sons 在这里使用的那样：https://stackoverflow.com/a/70890642/18030502其中似乎包括一个分支。

结论

@aqrit 分享的方法使用了改进的bit-twiddling针对每个块加载来查找转换的解决方案被证明是运行时性能最高的。这热内循环仅 9 个 asm 指令长（每 2 个找到的项目与其他方法进行比较）使用tzcnt and blsr像这样

tzcnt       rax,rcx  
mov         qword ptr [rbx+rdx*8],rax  
blsr        rcx,rcx  
tzcnt       rax,rcx  
mov         qword ptr [rbx+rdx*8+8],rax  
blsr        rcx,rcx  
add         rdx,2  
cmp         rdx,r8  
jl          main+2580h (...)

在 64 位 SIMD 通道之间串行传送状态比在 64 位通用寄存器 (gpr) 之间串行传送状态更昂贵。

实际上，查找表（或 SIMD 左填充）仅限于一次处理 8 个元素。如果数据平均每 64 个元素大约有 6 个保留元素，那么左打包会浪费大量处理（特别是如果我们正在收集偏移量而不执行收集操作）。如果位集很密集，则考虑转向查找表。

正如 @Snoots 建议的那样，使用 SIMD 创建 64 位位集并使用 bitscan 内在函数查找所需集位的索引。

分支错误预测：

压扁大于 (gt) 和小于 (lt) 位集使用以下方法转换为单个位集transition_mask = ((~lt + gt) & lt) | ((~gt + lt) & gt)或者来自 @FalkHüffner 的简化transition_mask = (lt ^ (lt - gt)) & (gt ^ (gt – lt)).

状态是算术操作之一的进位/进位。我会小心使用_subborrow_u64因为它是相当不常见的内在函数（并且在旧编译器上有错误）。

这使得仅剩下的分支在位扫描操作上循环。必须提取所有设置的位..但我们可以展开操作并进行超调以使分支更可预测。超调量需要调整到预期的数据集。

未测试。未检查汇编。

#include <immintrin.h>
#include <stdint.h>

static inline
uint64_t get_mask (int8_t* src, unsigned char* state) {
    __m256i src0 = _mm256_loadu_si256((__m256i*)(void*)src);
    __m256i src1 = _mm256_loadu_si256((__m256i*)(void*)&src[32]);

    uint64_t lt = (uint32_t)_mm256_movemask_epi8(src0) |
                    (((uint64_t)(uint32_t)_mm256_movemask_epi8(src1)) << 32);

    src0 = _mm256_cmpgt_epi8(src0, _mm256_setzero_si256());
    src1 = _mm256_cmpgt_epi8(src1, _mm256_setzero_si256());

    uint64_t gt = (uint32_t)_mm256_movemask_epi8(src0) |
                    (((uint64_t)(uint32_t)_mm256_movemask_epi8(src1)) << 32);

    // if borrow then greater-than span extends past the msb
    uint64_t m;
    unsigned char s = *state;
    *state = _subborrow_u64(s, lt, gt, (unsigned long long*)&m); // sbb
    return (m ^ lt) & ((gt - (lt + !s)) ^ gt);
}

static inline
size_t bitset_to_index (uint64_t* dst, uint64_t base, uint64_t mask) {
    int64_t cnt = _mm_popcnt_u64(mask);
    int64_t i = 0;
    do { // unroll to taste...
        dst[i + 0] = base + _tzcnt_u64(mask); mask = _blsr_u64(mask);
        dst[i + 1] = base + _tzcnt_u64(mask); mask = _blsr_u64(mask);
        dst[i + 2] = base + _tzcnt_u64(mask); mask = _blsr_u64(mask);
        dst[i + 3] = base + _tzcnt_u64(mask); mask = _blsr_u64(mask);
        i += 4;
    } while (i < cnt);
    return (size_t)cnt;
}

static
uint64_t* get_transition_indices (uint64_t* dst, int8_t* src, size_t len) {
    unsigned char state = 0; // in less-than span
    uint64_t base = 0; // offset into src array
    size_t end = len / 64;
    for (size_t i = 0; i < end; i++) {
        uint64_t mask = get_mask(src, &state);
        src += 64;
        dst += bitset_to_index(dst, base, mask);
        base += 64;
    }
    if (len % 64) {
        ; // todo: tail loop
    }
    return dst;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 SIMD 解决循环数据依赖性 - 在 sgn 值的 int8_t 数组中查找 -1 和 +1 之间的转换的相关文章

以编程方式读取 SQL Server 查询计划建议的 SQL 特定执行的索引？

如果我在 SSMS 中运行此命令 set showplan xml on GO exec some procedure arg1 arg2 arg3 GO set showplan xml off GO 我获得查询执行中涉及的完整调用堆栈的
在c#中执行Redis控制台命令

我需要从 Redis 控制台获取客户端列表输出以在我的 C 应用程序中使用有没有办法使用 ConnectionMultiplexer 执行该命令或者是否有内置方法可以查找该信息 CLIENT LIST是服务器命令而不是数据库
IdentityServer 4 对它的工作原理感到困惑

我阅读和观看了很多有关 Identity Server 4 的内容但我仍然对它有点困惑因为似乎有很多移动部件我现在明白这是一个单独的项目它处理用户身份验证我仍然不明白的是用户如何注册它谁存储用户名密码我打算进行此设置 Rea
当一组凭据下的计划任务启动的进程在另一组凭据下运行另一个程序时，Windows 是否有限制

所以我有一个简单的例子其中我有应用程序 A 它对用户 X 本地管理员有一些硬编码的凭据然后它使用硬编码的绝对路径启动带有这些凭据的应用程序 B A 和 B 以及 dotnet 控制台应用程序但是它们不与控制台交互只是将信息写入文件
使用可变参数包类型扩展的 C++ 函数调用者包装器

我绑定了一些 API 并且绑定了一些函数签名如下所示 static bool WrapperFunction JSContext cx unsigned argc JS Value vp 我尝试将对象和函数包装在 SpiderMonkey
使用 GCP 的数据存储区时如何区分代码是在模拟器中运行还是在 GKE 中运行

按照中给出的说明进行操作后我不确定是否遗漏了任何内容https cloud google com datastore docs tools datastore emulator https cloud google com datasto
启动时的 Excel 加载项

我正在使用 Visual C 创建 Microsoft Excel 的加载项当我第一次创建解决方案时它包含一个名为 ThisAddIn Startup 的函数我在这个函数中添加了以下代码 private void ThisAddIn
为什么从字典中获取时会得到 Action<> 的克隆？

我有以下字典 private Dictionary
为什么这个二维指针表示法有效，而另一个则无效[重复]

这个问题在这里已经有答案了这里我编写了一段代码来打印 3x3 矩阵的对角线值之和这里我必须将矩阵传递给函数矩阵被传递给指针数组代码可以工作但问题是我必须编写参数的方式如下 int mat 3 以下导致程序崩溃 int mat 3
针对约 225 万行的单表选择查询的优化技术？

我有一个在 InnoDB 引擎上运行的 MySQL 表名为squares大约有 2 250 000 行表结构如下 squares square id int 7 unsigned NOT NULL ref coord lat doubl
等待 IAsyncResult 函数直至完成

我需要创建等待 IAsyncResult 方法完成的机制我怎样才能做到这一点 IAsyncResult result contactGroupServices BeginDeleteContact contactToRemove Uri
检测到严重错误 c0000374 - C++ dll 将已分配内存的指针返回到 C#

我有一个 c dll 它为我的主 c 应用程序提供一些功能在这里我尝试读取一个文件将其加载到内存然后返回一些信息例如加载数据的指针和内存块的计数到 c Dll 成功将文件读取到内存但在返回主应用程序时程序由于堆损坏而崩溃检测
使 Guid 属性成为线程安全的

我的一个类有一个 Guid 类型的属性该属性可以由多个线程同时读写我的印象是对 Guid 的读取和写入不是原子的因此我应该锁定它们我选择这样做 public Guid TestKey get lock testKeyLock ret
Unity：通过拦截将两个接口注册为一个单例

我有一个实现两个接口的类我想对该类的方法应用拦截我正在遵循中的建议Unity 将两个接口注册为一个单例 https stackoverflow com questions 1394650 unity register two inter
String.Empty 与 "" [重复]

这个问题在这里已经有答案了可能的重复 String Empty 和有什么区别 https stackoverflow com questions 151472 what is the difference between string
OpenGL：仅获取模板缓冲区而没有深度缓冲区？

我想获取一个模板缓冲区但如果可能的话不要承受附加深度缓冲区的开销因为我不会使用它我发现的大多数资源表明虽然模板缓冲区是可选的例如排除它以利于获得更高的深度缓冲区精度但我还没有看到任何请求并成功获取仅 8 位模板缓冲区的代码
实体框架中的“it”是什么

如果以前有人问过这个问题请原谅我但我的任何搜索中都没有出现它我有两个数据库表 Person 和 Employee 对每个类型的表进行建模例如 Employee is a Person 在我的 edmx 设计器中我定义了一个实体
可访问性不一致：参数类型的可访问性低于方法

我试图在两个表单之间传递一个对象基本上是对当前登录用户的引用目前我在登录表单中有一些类似的内容 private ACTInterface oActInterface public void button1 Click object s
使用 omp_set_num_threads() 将线程数设置为 2，但 omp_get_num_threads() 返回 1

我有以下使用 OpenMP 的 C C 代码 int nProcessors omp get max threads if argv 4 NULL printf argv 4 s n argv 4 nProcessors atoi argv
OpenCV SIFT 描述符关键点半径

我正在深入研究OpenCV的SIFT描述符提取的实现 https github com Itseez opencv blob master modules nonfree src sift cpp 我发现了一些令人费解的代码来获取兴趣点邻域

随机推荐

单元格值更改事件，c#

我有一个 DataGridView 其中有 3 列数量费率和金额 DataGridView 是可编辑的当我在费率列中输入一个值时应立即更改金额中的值 Amount Qty rate 它正在发生但是当我单击任何其他单元格时
C# 中如何在不同线程上运行新表单？

我只是尝试在每次单击按钮时运行一个新线程这应该创建一个新表单我在 MainForm 的按钮单击事件中尝试了此操作 private void button1 Click object sender EventArgs e worker1
为什么 IOS7 中 NSAttributedString 的字距调整失败

我的应用程序有一个格式化为 NSAttributedString 的 UILabel 属性 NSKernAttributeName 1 9 当下面的代码在运行 IOS6 的 iPad 上编译时 kern 按预期工作在运行 IOS7 的 i
如何找到整数数组中的最大不重复数？

假设我有一个未排序的整数数组 3 1 4 5 3 2 5 我想找到最大的非重复数在本例中为 4 5 是无效的因为它是重复的我怎样才能实现这个目标使用无序映射来计算每个元素的频率作为一种优化跟踪遇到的最大元素并跳过低于该元素的元素
Struts2：如何存储从操作到操作的安全用户名和密码

在我的登录页面中我通过用户名和密码从 jsp 页面获取登录然后检查 LDAP 如果凭据正确则继续浏览其他页面我想在某个地方存储用户名和密码因为在接下来的一些页面中我可能需要它们来制作其他东西我想将它们存储在会话中但我担心
在 TextInput 中写入一个字符后键盘隐藏问题（Flatlist 标题内的文本输入）

我花了两天时间解决这个问题问题是当我将 TextInput 放入 Flatlist 中时 TextInput 的行为已更改键盘在写入每个字符后失去焦点版本反应本机 0 63 2 反应 16 13 1 反应 dom 16 13 1
为什么我不能向下转换指向模板参数中成员的指针？

如果我创建一个指向基成员的指针通常可以将其转换为指向派生成员的指针但在像下面的 Buzz 这样的模板中使用时则不行其中第一个模板参数影响第二个模板参数我是否正在与编译器错误作斗争或者标准是否真的强制要求这不起作用 struct F
Java Date 对象显示未来的时间

我正在当前时间之前的某个时间创建一个新的日期对象如果我在今天前 1 天展示它效果很好但如果我想显示 30 天前它会转到未来 Date date new Date long sometime 24 60 60 1000 a day S
Python-将部分子列表的元素转换为int

假设您有一个类似的列表 a 1 2 3 b 4 5 6 c 7 8 9 我想将每个子列表的索引 1 到 2 的元素转换为整数因为您可以看到它们本身就是字符串是否可以如果是那么最短的方法是什么到目前为止我所做的是 lists a 1
当我在模拟器中启动应用程序时，Xcode 被阻止在“附加到（应用程序名称）”

我知道有很多帖子都有同样的问题我花了至少 2 个小时阅读它们并尝试了我在回复中看到的所有内容但仍然不起作用我不知道该怎么办了有人能帮我吗我使用 Xcode 4 2 1 这个问题对我来说经常发生解决方案总是杀死名为的进程Simu
如何从一组输入的数字中获取最大值和最小值？

以下是我到目前为止所拥有的我不知道如何排除 0 作为最小数字分配要求 0 作为退出编号因此我需要在最小字符串中出现除 0 之外的最小数字有任何想法吗 int min max Scanner s new Scanner System
如何在 iPhone 应用程序中实现 activesync 协议？

如何在 iPhone 应用程序中实现 activesync 协议任何建议任何文档和教程都很好我已阅读Exchange ActiveSync 和 iOS 4 设备来自苹果有这方面的真正文档吗尽管在评论中提出了问题但您可能正在寻找E
android asynctask 与线程

我创建了一个 asynctask 并在其 doInBackground 方法中启动了一个如下线程 private class myAsyntask extends Asynctask doInBackground Thread t new
在 SQL Server 中实施审计跟踪的最佳方法？

我不知道这些要求是否标准但我想知道是否有一个解决方案可以执行以下操作对于指定的一组表在相关表的审核版本中更改记录之前保留记录的副本我宁愿不必为每个表都编写此代码我想知道是否有一个可以在 SQL Server 上安装的解决方案来为您
调用没有名称的 Java 方法

我正在查看下面的代码发现有些奇怪的东西 public class Sequence Sequence System out print c System out print y public static void main String
java - 忽略过期的ssl证书

URL myUrl new URL https www 网站的 SSL 证书已过期如何避免它并使 URL 起作用你应该建立一个TrustManager包装默认的信任管理器捕获CertificiateExpiredException并忽
TensorFlow 无法为张量“Placeholder:0”提供形状 (100, 784) 的值

我正在学习 TensorFLow 因此为了了解如何制作某些东西我尝试从源代码复制一些代码并执行它但我遇到了错误消息所以我尝试了这个网站上的一些解决方案但它不起作用我将测试保留在评论中 programme 1 import ten
在 Web 应用程序中引用 jpa persistence.xml 中的 jar 文件的正确路径是什么？

persistence xml 如下所示
有没有更好的方法来进行字符串排列？

void permute string elems int mid int end static int count if mid end cout lt lt count lt lt lt lt elems lt lt endl retu
使用 SIMD 解决循环数据依赖性 - 在 sgn 值的 int8_t 数组中查找 -1 和 +1 之间的转换

我尝试实现性能提升并在 SIMD 方面取得了一些良好的经验到目前为止我正在使用 OMP 并希望使用内在函数进一步提高我的技能在下面的场景中由于元素 n 1 测试所需的 last value 的数据依赖性我未能改进甚至矢量化环

使用 SIMD 解决循环数据依赖性 - 在 sgn 值的 int8_t 数组中查找 -1 和 +1 之间的转换

使用 SIMD 解决循环数据依赖性 - 在 sgn 值的 int8_t 数组中查找 -1 和 +1 之间的转换 的相关文章

随机推荐

热门标签

使用 SIMD 解决循环数据依赖性 - 在 sgn 值的 int8_t 数组中查找 -1 和 +1 之间的转换的相关文章