有没有一种方法可以根据编译时未知的掩码长度来掩码 __m128i 寄存器的一端？

2024-03-14

我有一个看似简单的问题。将字符串加载到 __m128i 寄存器中（使用 _mm_loadu_si128），然后查找字符串的长度（使用 _mm_cmpistri）。现在，假设长度低于 16，我希望在第一个字符串结尾零之后只有零。实现此目的的一种方法是将“len”字节复制到另一个寄存器，或者使用长度为 8 * len 的 1 掩码与原始寄存器进行 AND 运算。但找到创建这种仅依赖于计算长度的掩码的简单方法并不容易。

我会这样做。未经测试。

// Load 16 bytes and propagate the first zero towards the end of the register
inline __m128i loadNullTerminated( const char* pointer )
{
    // Load 16 bytes
    const __m128i chars = _mm_loadu_si128( ( const __m128i* )pointer );

    const __m128i zero = _mm_setzero_si128();
    // 0xFF for bytes that were '\0', 0 otherwise
    __m128i zeroBytes = _mm_cmpeq_epi8( chars, zero );

    // If you have long strings and expect most calls to not have any zeros, uncomment the line below.
    // You can return a flag to the caller, to know when to stop.
    // if( _mm_testz_si128( zeroBytes, zeroBytes ) ) return chars;

    // Propagate the first "0xFF" byte towards the end of the register.
    // Following 8 instructions are fast, 1 cycle latency/each.
    // Pretty sure _mm_movemask_epi8 / _BitScanForward / _mm_loadu_si128 is slightly slower even when the mask is in L1D
    zeroBytes = _mm_or_si128( zeroBytes, _mm_slli_si128( zeroBytes, 1 ) );
    zeroBytes = _mm_or_si128( zeroBytes, _mm_slli_si128( zeroBytes, 2 ) );
    zeroBytes = _mm_or_si128( zeroBytes, _mm_slli_si128( zeroBytes, 4 ) );
    zeroBytes = _mm_or_si128( zeroBytes, _mm_slli_si128( zeroBytes, 8 ) );
    // Now apply that mask
    return _mm_andnot_si128( zeroBytes, chars );
}

Update:这是另一个版本，使用了 Noah 关于 int64 的想法-1操作说明。可能会稍微快一些。拆卸。 https://godbolt.org/z/Pojs8d

__m128i loadNullTerminated_v2( const char* pointer )
{
    // Load 16 bytes
    const __m128i chars = _mm_loadu_si128( ( const __m128i* )pointer );

    const __m128i zero = _mm_setzero_si128();
    // 0xFF for bytes that were '\0', 0 otherwise
    const __m128i zeroBytes = _mm_cmpeq_epi8( chars, zero );

    // If you have long strings and expect most calls to not have any zeros, uncomment the line below.
    // You can return a flag to the caller, to know when to stop.
    // if( _mm_testz_si128( eq_zero, eq_zero ) ) return chars;

    // Using the fact that v-1 == v+(-1), and -1 has all bits set
    const __m128i ones = _mm_cmpeq_epi8( zero, zero );
    __m128i mask = _mm_add_epi64( zeroBytes, ones );
    // This instruction makes a mask filled with lowest valid bytes in each 64-bit lane
    mask = _mm_andnot_si128( zeroBytes, mask );

    // Now need to propagate across 64-bit lanes

    // ULLONG_MAX if there were no zeros in the corresponding 8-byte long pieces of the string
    __m128i crossLaneMask = _mm_cmpeq_epi64( zeroBytes, zero );
    // Move the lower 64-bit lanes of noZeroes64 into higher position
    crossLaneMask = _mm_unpacklo_epi64( mask, crossLaneMask );
    // Update the mask.
    // Lower 8 bytes will not change because _mm_unpacklo_epi64 copied that part from the mask.
    // However, upper lane may become zeroed out.
    // Happens when _mm_cmpeq_epi64 detected at least 1 '\0' in any of the first 8 characters.
    mask = _mm_and_si128( mask, crossLaneMask );

    // Apply that mask
    return _mm_and_si128( mask, chars );
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

有没有一种方法可以根据编译时未知的掩码长度来掩码 __m128i 寄存器的一端？的相关文章

使用 SSE 内在函数时如何确保 NaN 传播？

我最近读到了这篇关于NaNSSE 算术运算中的值对两个非数字 NAN 参数进行算术运算的结果是未定义的因此使用 NAN 参数的浮点运算将与相应汇编指令的预期行为不匹配 Source http msdn microsoft com en
如何写入LLDB中的XMM寄存器

我正在尝试使用 LLDB API 从 python 中的寄存器读取和写入值对于通用寄存器我一直在使用frame register register name value读取和写入寄存器值这对我来说很成功然而当我接近浮点寄存器时我
如何使用 SIMD 检查偶数/奇数通道是否在给定范围内？

Given a m128i其中存储 16char是偶数索引车道指的是even车道即 0 2 4 14 处的车道奇数索引车道指的是odd车道即 1 3 5 15 处的车道在我的应用程序中偶数奇数车道必须在给定范围内例如假设e
进行水平 SSE 向量和（或其他简化）的最快方法

给定一个由三个或四个浮点数组成的向量对它们求和的最快方法是什么 SSE movaps shuffle add movd 总是比 x87 快吗 SSE3 中的水平相加指令值得吗转移到 FPU 然后是 faddp faddp 的成本是多
AVX2浮点比较并得到0.0或1.0而不是全0或全1位

基本上在生成的向量中我想为所有输入浮点值 gt 1 保存 1 0 而为所有输入浮点值 float f 8 1 2 0 5 1 7 1 9 0 34 22 9 18 6 0 7 float r 8 Must be 1 0 1 1 0 1
我应该使用 SIMD 或向量扩展还是其他什么？

我目前正在开发一个开源 3D 应用程序框架c questions tagged c 2b 2b with c 11 questions tagged c 2b 2b11 我自己的数学库是这样设计的XNA数学库 http msdn micro
调用always_inline‘_mm_mullo_epi32’时内联失败：目标特定选项不匹配

我正在尝试使用 cmake 编译 C 程序该程序使用 SIMD 内在函数当我尝试编译它时出现两个错误 usr lib gcc x86 64 linux gnu 5 include smmintrin h 326 1 错误调用alwa
为什么矢量化通常比循环更快？

为什么在执行操作的硬件的最低级别和所涉及的一般底层操作即运行代码时所有编程语言的实际实现通用的事情矢量化通常比循环快得多计算机在循环时会做什么而在使用矢量化时不会做什么我指的是计算机执行的实际计算而不是程序员编写的计算或者它有
C++ 错误：“_mm_sin_ps”未在此范围内声明

我正在尝试对将函数应用于数组的不同方法进行基准测试 why is mm sin ps在我的范围内不知道但是 mm sqrt ps is 我怎样才能让它知道并且编译没有错误 include
SSE，行主要与列主要性能问题

出于个人和娱乐目的我正在使用 SSE 4 1 编写一个 geom 库我花了最后 12 个小时试图理解处理行主要与列主要存储矩阵时的性能问题我知道 Dirext OpenGL 矩阵是以行主顺序存储的因此对我来说将矩阵按行主顺序存储会
跨 AVX 通道的最佳方式是什么？

有些问题具有类似的标题但我的问题涉及其他地方未涵盖的一个非常具体的用例我有 4 个 128d 寄存器 x0 x1 x2 x3 我想将它们的内容重新组合在 5 个 256d 寄存器 y0 y1 y2 y3 y4 中以准备其他计算 on
如何使用 Neon SIMD 将无符号字符转换为有符号整数

如何转换变量的数据类型uint8 t to int32 t使用霓虹灯我找不到执行此操作的任何内在因素假设您想要将 16 x 8 位整数的向量转换为 4 个 4 x 32 位整数的向量您可以通过首先解压缩为 16 位然后再次解压缩为
排列 SSE __m128i 寄存器内的字节

我有以下问题 In m128i寄存器有 16 个 8bit 值顺序如下 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 我想要实现的是有效地洗牌字节以获得此排序 1 2 3 4 5 6 7 8 9 10 11
优化数组压缩

假设我有一个数组k 1 2 0 0 5 4 0 我可以按如下方式计算掩码m k gt 0 1 1 0 0 1 1 0 仅使用掩码 m 和以下操作左移右移 And Or 加减乘我可以将 k 压缩为以下形式 1 2 5 4 以下是我目
orpd等SSE2指令有什么意义？

The orpd指令是压缩双精度浮点值的按位逻辑或这不是做完全相同的事情吗por 按位逻辑或如果是这样拥有它还有什么意义呢请记住 SSE1orps https www felixcloutier com x86 orps首先实
利用 SSE 和其他 CPU 扩展

在我的代码库中有几个地方对于大型数据集相同的操作会重复很多次在某些情况下处理这些需要花费相当长的时间我相信使用SSE来实现这些循环应该可以显着提高它们的性能特别是在对同一组数据执行许多操作的情况下因此一旦数据最初被读入缓存就
使用 (float&)int 进行类型双关可以正常工作，(float const&)int 会像 (float)int 一样转换吗？

VS2019 发布 x86 template
按字节数对向量进行混洗

有什么办法可以左移 v 0 gt v 1 a m128i by n字节其中n仅在运行时才知道我目前仅限于 AVX1 但如果 AVX2 512 使这变得更容易我非常感兴趣 I found mm bslli si128 m128i imm
使用 AVX/AVX2 转置 8x8 浮点

转置 8x8 矩阵可以通过制作四个 4x4 矩阵并对每个矩阵进行转置来实现这不是我想要的在另一个问题中一个答案给出了解决方案 https stackoverflow com a 2518670 4144148x8 矩阵只需要 24 条
SIMD 和 VLIW 指令是一样的吗？

SIMD 单指令多数据和 VLIW 超长指令字到底有什么区别其中一个是另一个的子集吗或者它们是两个完全不同的东西完全不相关且正交一台机器可以有一个或两个或者两者都没有 SIMD 指令可以作为扩展添加到 VLIW ISA 但 V

随机推荐

导致 C++ 程序崩溃的最简单方法是什么？

我正在尝试制作一个与不同的崩溃进程交互的Python程序这不在我的控制范围内不幸的是我正在交互的程序甚至不能可靠地崩溃所以我想制作一个故意崩溃的快速 C 程序但我实际上不知道最好和最短的方法来做到这一点有谁知道在我的 int m
如何在 C# 中从 MP4 文件中提取音频并将其转换为 FLAC 文件？

我的目标是编写 C 将 Microsoft LYNC 会议音频转换为文本 Here https www dropbox com s lsopm8izs7j36ej WaveConverter zip dl 0到目前为止是我的项目最初我尝试
数据可视化库[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我目前正在启动我的新项目这是一个数据可视化项目我想开发一个可以可视化数据无论数据来自哪里的应用程序现在我正在尝试找到一个可以使
在 ASP.NET 中创建验证码的代码？

我想创建一个类似的验证码http www gigbooks com getcaptcha php http www gigbooks com getcaptcha php这个但它是在 PHP 中任何人都可以为我提供在 ASP NET 中
将 <[email protected]> 之前的任何字符替换为空字符串

我有这个字符串 AnyText jonathon lt email protected cdn cgi l email protection gt 使用正则表达式的所需输出 AnyText lt email protected cdn cg
MKPolyline 与 MapKit 中的缩放相关的奇怪渲染

我有非常简单的视图控制器来演示 MKPolyline 这种奇怪的渲染行为没什么特别的只是普通的 api 调用 import UIKit import MapKit class ViewController UIViewControlle
导入 Keras 会破坏多处理

在使用 keras 时我发现我无法使用 multiprocessing Pool 经过一些故障排除后我认为导入 keras 是问题的根源并为此创建了一个简单的示例 import keras from multiprocessing i
如何在 Swift 中缓存双精度数组

下面的代码 let cache NSCache
Flex RemoteObject - 处理多个请求

我有几个远程对象方法我想根据上下文以不同的方式响应但我不想设置一堆不同的 RemoteObject 别名这样做有什么建议吗一些背景假设我有一个管理应用程序它以不同的方式显示销售统计数据远程方法如下所示
jQuery - 如何使用 jQuery 验证插件验证出生日期？ [复制]

这个问题在这里已经有答案了我想使用 jQuery 验证插件验证输入出生日期但它必须采用 dd mm yyyy 格式并且在年份日期超过 2002 年时也不会验证因此当日期格式为 dd mm yyyy 并且年份超过 2002 时日
在 javascript 中创建自定义对象的数组

你好我需要一些关于 javascript 的帮助 function PricingData id method freq service price this ID id this PaymentMethod ID method this
使用 Zeep 的 Python SOAP 客户端 - 导入命名空间

一些背景我在打开这个问题时出现了here https stackoverflow com questions 40173217 python soap client with zeep authentication 解决身份验证问题后我
RESULT_CACHE RELIES_ON (NLS_SESSION_PARAMETERS)

为什么每次我更改会话以设置新的 NLS DATE FORMAT 时下面的函数不返回新的参数值 FUNCTION get param p parameter IN VARCHAR2 RETURN VARCHAR2 RESULT CACHE
如何将 &str 转换为 JSON 响应？

我有一个 str index 0 name AB CDE FG 402 test int4 sts on time 2021 06 05 03 28 24 044284300 UTC value 8 我怎样才能将它转换为 JSON inde
根据移动方向更改 CSS

当移动应用程序页面方向从横向更改为纵向反之亦然时更改 css 文件的最佳方法是什么我只需要同时支持 Android 和 iPhone 看来媒体查询不是最干净的方式还有其他想法吗 Example For portrait media
xtable 包：跳过输出中的一些行

In the xtable输出如果我希望某些行中没有任何内容我将输入NA位于与我要跳过的行相对应的矩阵元素中然而这将导致 xtable 输出类似我想知道的是我如何做到这一点所以它只是对于我想跳过的那一行仍然不确定我是否理解正
有没有Python模块可以帮助从Javascript加载的DOM中抓取数据？

我想从使用 Ajax 调用加载 DOM 元素的页面中抓取数据我尝试过基于 PyQt4 的旧解决方案行它在完全加载 DOM 后加载 DOM 但问题是我需要执行 POST 请求并且它仅适用于 GET 新的Python模块ghost py
LoadError：不兼容的库版本 - /home/ubuntu/.rvm/gems/ruby-2.3.1@lm5/gems/nokogiri-1.8.2/lib/nokogiri/nokogiri.so

尝试使用生产模式运行 rake 资产预编译如下所示 rake assets precompile 它在 ubuntu 14 04 32 位和 16 06 32 位上工作正常但在 aws ec2 中的 16 04 64 位上出现加载
PhpStorm PHPUnit 测试报告器错误

我已经通过 Composer 安装了 PHPUnit 并将其设置为通过设置运行我的安装的单元测试但是当我运行测试时测试报告者收到以下错误 tets 执行得很好无法将测试报告器附加到测试框架或测试框架意外退出你应该指出你的vendor
有没有一种方法可以根据编译时未知的掩码长度来掩码 __m128i 寄存器的一端？

我有一个看似简单的问题将字符串加载到 m128i 寄存器中使用 mm loadu si128 然后查找字符串的长度使用 mm cmpistri 现在假设长度低于 16 我希望在第一个字符串结尾零之后只有零实现此目的的一种方法是将

有没有一种方法可以根据编译时未知的掩码长度来掩码 __m128i 寄存器的一端？

有没有一种方法可以根据编译时未知的掩码长度来掩码 __m128i 寄存器的一端？ 的相关文章

随机推荐

热门标签

有没有一种方法可以根据编译时未知的掩码长度来掩码 __m128i 寄存器的一端？的相关文章