如何使用 SIMD 检查偶数/奇数通道是否在给定范围内？

2024-03-25

Given a __m128i其中存储 16char是，偶数索引车道指的是even车道（即 0、2、4、...、14 处的车道），奇数索引车道指的是odd车道（即 1、3、5、...15 处的车道）。

在我的应用程序中，偶数/奇数车道必须在给定范围内。例如，假设even_min is 1, even_max is 7, odd_min是 5，并且odd_max is 10:

# valid
vec1: [1, 5, 6, 10, 2, 6, 4, 6, 2, 7, 4, 9, 2, 7, 4, 8] 

# invalid because 0-th (even) is greater than even_max
vec2: [8, 5, 6, 10, 2, 6, 4, 6, 2, 7, 4, 9, 2, 7, 4, 8]

如何更高效地检查是否有效？

我目前的解决方案很简单，分别查看两个比较结果：

  __m128i even_min = _mm_set1_epi8(xxx);
  __m128i even_max = _mm_set1_epi8(xxx);
  __m128i even_mask =
      _mm_set_epi8(0, -1, 0, -1, 0, -1, 0, -1, 0, -1, 0, -1, 0, -1, 0, -1);

  __m128i evenRange = _mm_and_si128(_mm_cmpge_epi8(vec, even_min),
                                    _mm_cmple_epi8(vec, even_max));
  bool isEvenOk = _mm_testc_si128(evenRange, even_mask);

// the code for checking odd bytes is similar

请注意，要比较无符号字符，请使用包括的条件，两个宏定义如下：

#define _mm_cmpge_epi8(a, b) _mm_cmpeq_epi8(_mm_max_epu8(a, b), a)

#define _mm_cmple_epi8(a, b) _mm_cmpge_epi8(b, a)

为每车道创建一个向量min值，以及每车道的另一个maxes.例如，_mm_set1_epi16((odd_min<<8) | (uint8_t)even_min)。（注意强制转换以避免符号扩展）。

那么你只需要进行一次范围检查。您应该更有效地做到这一点，而不是通过模拟 cmpge 和 cmple 各有 2 条指令。正如安德烈在评论中建议的，一个简单的方法是v == min(max(v, a), b)，这与你的想法相同v == min(v, a).

由于您在许多输入中使用相同的最小值/最大值，因此一些额外的设置工作是值得的，以使每个范围检查更便宜。这正常范围检查技巧 https://stackoverflow.com/questions/5196527/double-condition-checking-in-assembly of c - min < max-min使用无符号比较，但我们可以通过翻转两侧的 MSB（即添加或减去 0x80）来使用 SSE 有符号比较来实现。这就像将无符号范围转换为有符号范围。这可以是同一个减法的一部分，c - min - 0x80 < max - min - 0x80（签名比较）。（谢谢@amonakov提醒这是可能的。）

// unsigned compare-trick, range-shifted for use with  pcmpgtb

// loop-invariant constants, set these up once
  __m128i mins = _mm_set1_epi16( ((odd_min<<8) | (uint8_t)even_min) ^ 0x8080);
  // if (odd_max == 0x7F && even_max == 0x7F){ ... }  // TODO: just check vec > mins
  __m128i maxes = _mm_set1_epi16( ((odd_max<<8) | (uint8_t)even_max) );
  __m128i rangelen = _mm_sub_epi8(maxes, mins);   // includes the 0x80 top bit from mins
   // compilers will constant-propagate through this, except maybe MSVC.  If that's a problem, write it a different way.

// Work inside the loop
  __m128i vsub = _mm_sub_epi8(vec, mins);
  __m128i vout_of_range = _mm_cmpgt_epi8(vsub, rangelen);
  // TODO: check for off-by-one errors in case I got this wrong, or inclusive vs. exclusive.
   // consider mins = 0^0x80, maxes = 1, rangelen=1^0x80 = -127.  
   // vec = 2: vsub = 2^0x80 = -126.  -126 > -127 so it's out-of-range (by 2; this range is exclusive at the top).

  bool isOk = !_mm_movemask_epi8(vout_of_range);  // ok if no bits set

@chtz 建议一个paddb + paddusb + pmovmskb如果范围的大小小于 128，则可能是这样。因此，范围内的值不会在每个字节中设置 MSB，但超出范围的值最终将大于 128。（并且无法环绕因为饱和。）pmovmskb获取每个字节的 MSB，因此无需比较结果即可工作。psubb / pcmpgtb在大多数 CPU 上应该同样好。（检查!= 0便宜如== 0位图结果。）

其他方式：比 sub/cmpgt 差，比`min`/`max`/`cmpeq`

其他可能性包括(v < mins) | (v > maxes)并检查是否没有元素为真。_mm_movemask_epi8(or_result) == 0。这比 min/max/cmpeq 具有更好的关键路径延迟，因为我们有两个独立的比较，而不是 3 个操作的链。两种方式都需要原始向量的副本（除非您使用 AVX 进行编译以允许单独的目标）。

Or (v > min-1) & (v < max+1)，这对于编译时间常数最小/最大是可行的。如果 min 已经是 INT8_MIN，则它始终为 true，因此它会优化为只需要其他条件。除了当 Even_min 为 -128 时这是一个问题，但 odd_min 是其他东西：没有值可以使pcmpgtb对于偶数通道中的所有输入始终为 true，同时仍检查奇数通道。我一直在想 AND 可以作为ptest (_mm_test_*），但实际上没有_mm_test_all_ones。如果 128 位 AND 结果中有任何非零位，则 ZF 被清除。（CF 也是如此，基于 ANDN 结果。）

Or use cmpgt两次并反转其中一个结果作为组合它们的一部分，例如和_mm_andnot_si128 (pandn)

ptest比较结果的效率不是很高，因为它在大多数 CPU 上解码为 2 uop；pmovmskb+ 标量cmp or test也是 2 uop（https://uops.info https://uops.info），如果您在分支上进行分支，则 cmp 或 test 可以与分支进行宏融合。ptest确实避免了需要临时寄存器并可能节省movdqa如果您正在测试稍后也想使用的向量（不是比较结果），则使用寄存器复制，但通常只有当您实际上使用其仅检查某些元素的功能（例如奇数/偶数掩码）时才有效。

在你的情况下，即使你的策略是两个单独的比较，可能更好的策略是 2x_mm_movemask_epi8 and (evens & (odds>>1) & 0x5555 == 0x5555。（0x5555 是 0b0101...0101，只是测试偶数元素）。

Or _mm_srli_epi16(odds, 8) / _mm_and_si128(evens, shifted_odds)得到一个向量，其中偶数元素具有您关心的结果。（奇数元素为零，因为逻辑移位在那里产生了零，所以_mm_movemask_epi8(and_result) == 0x5555无需掩盖我们不关心的元素。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 SIMD 检查偶数/奇数通道是否在给定范围内？的相关文章

当执行 uop 计数不是处理器宽度倍数的循环时，性能是否会降低？

我想知道不同大小的循环在最新的 x86 处理器上如何执行作为 uop 数量的函数这里引用 Peter Cordes 的一段话他在中中提出了非 4 倍数的问题另一个问题 https stackoverflow com a 31027
进行水平 SSE 向量和（或其他简化）的最快方法

给定一个由三个或四个浮点数组成的向量对它们求和的最快方法是什么 SSE movaps shuffle add movd 总是比 x87 快吗 SSE3 中的水平相加指令值得吗转移到 FPU 然后是 faddp faddp 的成本是多
混洗两个 __m128i 的 64 位部分的最佳方法

我有两个 m128is a and b 我想进行洗牌以便高 64 位a落在低 64 位dst和低 64 位b落在上64dst i e dst 0 63 a 64 127 dst 64 127 b 0 63 相当于 m128i dst mm
arm64 汇编：LDP 与 LD4 执行时间

假设我想用连续内存位置的值加载四个连续的 aarch64 向量寄存器一种方法是 ldp q0 q1 x0 ldp q2 q3 x0 32 根据ARM优化指南 https static docs arm com uan0016 a cort
不使用相关性直接在ASM中调用/跳转(x86)

我正在将一个 C DLL 注入到游戏中并且想将一个函数挂接到我自己的一些代码上由于DLL每次都会映射到不同的位置因此直接跳转和调用会更容易另外因为这是一个钩子所以当我返回该函数时我不想更改堆栈或寄存器我声明一个 char 来
现代 x86 成本模型

我正在编写一个带有 x86 后端的 JIT 编译器并一边学习 x86 汇编程序和机器代码我大约 20 年前使用过 ARM 汇编器对这些架构之间成本模型的差异感到惊讶具体来说内存访问和分支在 ARM 上的成本很高但等效的堆栈操作和
使用标志寄存器作为布尔返回值是否被认为是不好的做法？

我正在 x86 汇编程序中编写一些程序这些程序修改 ZF 作为返回布尔值的方法因此我可以执行以下操作 call is value correct jz not correct 我想知道这是否被认为是不好的做法因为一些编码标准规定简单的
Little Endian 并推入 nasm

我不明白为什么代码的输出是Ole 小字节序不应该影响push命令 global start section data x dd 3 section text start mov eax 4 mov ebx 1 mov dword x 0x0
我无法在我的 Visual C Express Edition 2008 中汇编电影 (MMX) 指令

当我尝试编译时movd指令显示错误为 error A2085 instruction or register not accepted in current CPU mode 我的代码如下 386 model flat c code add
x86 32 位汇编代码是否有效 x86 64 位汇编代码？

所有 x86 32 位汇编代码都对 x86 64 位汇编代码有效吗我想知道32位汇编代码是否是64位汇编代码的子集即每个32位汇编代码都可以在64位环境中运行我想答案是肯定的因为64位Windows能够执行32位程序但是后来我看到
如果您的程序+库不包含 SSE 指令，那么使用 VZEROUPPER 有用吗？

我明白使用它很重要VZEROUPPER混合 SSE 和 AVX 代码时但如果我只使用 AVX 和普通 x86 64 代码而不使用任何旧版 SSE 指令怎么办如果我从未在代码中使用单个 SSE 指令是否有任何性能原因导致我需要使用VZ
对于Intel Haswell上的XMM/YMM FP操作，可以使用FMA代替ADD吗？

这个问题适用于 Haswell 上带有 XMM YMM 寄存器的打包单精度浮点运算所以根据awesome awesome table http www agner org optimize instruction tables pdf由
使用 gdb 在指定的可执行文件之外单步执行汇编代码会导致错误“无法找到当前函数的边界”

我在 gdb 的目标可执行文件之外甚至没有与该目标对应的堆栈无论如何我想单步执行以便我可以验证汇编代码中发生了什么因为我不是 x86 汇编方面的专家不幸的是 gdb 拒绝进行这种简单的汇编级调试它允许我设置并停止在适当的断点上
逆向工程的汇编语言[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何使用 Java 确定 Windows 是 32 位还是 64 位体系结构？

如何使用 Java 确定 Windows 是 32 位还是 64 位体系结构我不太相信读取 os arch 系统变量如果用户在 64 位系统上运行 64 位 JVM 则它可以工作如果用户在 64 位系统上运行 32 位 JVM 则它不
字大小及其指示

请参阅下面关于各种指令集架构中的字长以及它与汇编语言的关系的问题感谢您提供的所有帮助先说几个事实如有错误请指正处理器架构的字长表示编辑其中一些是错误的请参阅下面 Seva 的帖子每个寄存器的最大尺寸每个内存地址的最大尺寸
x86 分页如何工作？

这个问题旨在填补有关该主题的优质免费信息的真空我相信一个好的答案将适合一个大的 SO 答案或者至少适合几个答案主要目标是为初学者提供足够的信息以便他们可以自己阅读本手册并能够理解与分页相关的基本操作系统概念建议指南 answer
C++ 错误：“_mm_sin_ps”未在此范围内声明

我正在尝试对将函数应用于数组的不同方法进行基准测试 why is mm sin ps在我的范围内不知道但是 mm sqrt ps is 我怎样才能让它知道并且编译没有错误 include
使用指针作为函数参数时的段前缀

我有一个汇编 c 问题我刚刚读到了有关段前缀的内容例如 ds varX 等前缀对于逻辑地址的计算很重要我也读到默认值是 ds 一旦您使用 ebp 寄存器来计算地址就会使用 ss 对于代码 cs 是默认值这一切都是有道理的现在
用于读/写 XMM 和 YMM 寄存器的内联汇编代码？

我有 2 个变量来模拟 X86 XMM 和 YMM 如下所示 uint64 t xmm value 2 uint64 t ymm value 4 现在我想使用内联汇编来读取和写入 XMM YMM 寄存器如何编写GCC内联汇编来复制xmm

随机推荐

Javascript rowIndex 方法不起作用

我正在使用 TR 的 rowIndex 属性但它不起作用如果我在这里做错了什么请告诉我 function myMethod alert this parent rowIndex parentNode is also used Html
jQuery 验证未捕获类型错误：无法调用未定义的方法“getAttribute”

使用 jQuery 验证给定此 HTML
Swift 3（省略不必要的单词）导致两个函数具有相同的名称

在 Swift 3 0 中由于省略不必要的单词规则而自动更改函数名称导致 ObjC 类中的两个函数相同 void showLoader 和 void show deprecated msg User showLoader 问题是这些
Django Rest Framework 中仅限员工的权限

我正在尝试创建仅供员工使用的 Django Rest Framework ModelViewSets 当我尝试使用标准 Django 装饰器时 staff member required我收到的错误让我相信装饰器无法与 Django Res
暂时抑制PyQt事件？

我正在填充 QTreeWidget 的一个分支然后将分支父级上的扩展属性设置为 true itemExpanded 信号会触发响应这不是我想要的有没有临时的方法来抑制或吸收一段代码期间的信号您可以使用 QObject blockSi
Swift 中的静态函数变量

我试图弄清楚如何在 Swift 中声明一个仅在本地函数范围内的静态变量在 C 语言中这可能看起来像这样 int foo static int timesCalled 0 timesCalled return timesCalled 在
将 fzf 多选输出格式化为 mpv

以下作品 play file1 and then file 2 mpv file1 file 2 use fzf to select a file and play that file mpv fdfind path to Music fz
失败 [INSTALL_FAILED_OLDER_SDK] Android-L

我正在尝试使用 Android L 中的新 CardView 我更新了 SDK 管理器中的所有内容但我不断收到以下错误失败 INSTALL FAILED OLDER SDK 这是我的build gradle file apply plu
更新支持库 23.2.1 后，RecyclerView 项目底部有很大的空白空间 [重复]

这个问题在这里已经有答案了我已将支持库更新到 23 2 1 之后 recyclerview 项目会出现很大的空白空间虽然我使用的是 recyclerview 并且它的父视图高度为 WRAP CONTENT 我的应用程序一次从服务器获取
python 中子进程的替代方案

我正在尝试编写一个脚本该脚本必须对一些 bash 命令进行大量调用解析和处理输出最后给出一些输出我正在使用 subprocess Popen 和 subprocess call 如果我理解正确这些方法会生成一个 bah 进程运行
方法存根于 before(:all)

require spec spec helper require bank describe Bank do context transfer do before all do customer1 Customer new 500 cust
使用 C99 样式的指定初始值设定项列表按以下方式初始化联合内位字段的成员是否有效？

当我写一个关于 PC Lint 的问题 https stackoverflow com questions 22823277 how do i suppress pc lint errors for c99 style initializa
类外的运算符重载[重复]

这个问题在这里已经有答案了有两种方法可以重载 C 类的运算符课堂内 class Vector2 public float x y Vector2 operator const Vector2 other Vector2 ans ans
哪种模式更适合 SqlConnection 对象？

哪种模式更适合SqlConnection目的性能上哪个更好你们提供其他模式吗 class DataAccess1 IDisposable private SqlConnection connection public DataAcces
IBM.Data.DB2.Core 在 azure 函数应用程序中引发异常

我正在使用 nuget 包 IBM Data DB2 Core 版本 1 3 0 100 dll 通过 AzureFunctionsVersion V2 从 Azure 函数连接 DB2 数据库应用程序构建成功当我运行该应用程序并使用
FirebaseInstanceId：Google Play 服务缺失或没有正确的权限

我的应用程序不断崩溃但我不明白为什么有人可以告诉我吗我的摇篮 apply plugin com android application android compileSdkVersion 27 defaultConfig applic
TFS 工作项类型：任务与场景，还是两者同时使用？

在默认的 TFS 设置中存在三种工作项类型场景任务和错误最后一个非常简单也是任务这是团队成员需要完成的一项特定工作但我认为场景有点模糊我通常为更大更通用的工作单元创建一个场景例如创建向雇主添加员工行的功能更小更具体
R - 根据两列识别并删除重复行

我有一些数据看起来像这样 Course ID Text ID 33 17 33 17 58 17 5 22 8 22 42 25 42 25 17 26 17 26 35 39 51 39 由于没有编程背景我发现很难清楚地表达我的问题但
C# 如何根据对象引用计算哈希码

各位这里有一个棘手的问题摆在你们面前 TickZoom 系统的一部分必须将每种类型的对象的实例收集到 Dictionary 类型中它们的相等性和哈希码必须基于对象的实例这意味着引用相等而不是值相等挑战在于系统中的一些对象已经重写了
如何使用 SIMD 检查偶数/奇数通道是否在给定范围内？

Given a m128i其中存储 16char是偶数索引车道指的是even车道即 0 2 4 14 处的车道奇数索引车道指的是odd车道即 1 3 5 15 处的车道在我的应用程序中偶数奇数车道必须在给定范围内例如假设e

如何使用 SIMD 检查偶数/奇数通道是否在给定范围内？

其他方式：比 sub/cmpgt 差，比min/max/cmpeq

如何使用 SIMD 检查偶数/奇数通道是否在给定范围内？ 的相关文章

随机推荐

热门标签

其他方式：比 sub/cmpgt 差，比`min`/`max`/`cmpeq`

如何使用 SIMD 检查偶数/奇数通道是否在给定范围内？的相关文章