如何从 SSE2 __m128i 结构中提取字节？

2023-11-27

我是 SIMD 内在函数的初学者，所以我要感谢大家的耐心等待。我有一个涉及无符号字节的绝对差异比较的应用程序（我正在处理灰度图像）。

我尝试了 AVX、更现代的 SSE 版本等，但最终认为 SSE2 似乎足够了，并且对单个字节的支持最多 - 如果我错了，请纠正我。

我有两个问题：第一，加载128位寄存器的正确方法是什么？我认为我应该传递与 128 的倍数对齐的加载内在函数数据，但这是否适用于像这样的 2D 数组代码：

greys = aligned_alloc(16, xres * sizeof(int8_t*));

for (uint32_t x = 0; x < xres; x++)
{
    greys[x] = aligned_alloc(16, yres * sizeof(int8_t*));
}

（上面的代码假设 xres 和 yres 相同，并且是 2 的幂）。这会在内存中变成线性的、不间断的块吗？那么，当我循环时，我可以继续将地址（将它们增加 128）传递给 SSE2 加载内在函数吗？或者对于像这样的二维数组是否需要做一些不同的事情？

我的第二个问题：一旦我完成了所有的矢量处理，我到底如何从__m128i？翻阅《Intel 内联指南》，将向量类型转换为标量类型的指令很少见。我发现的最接近的是 int_mm_movemask_epi8 (__m128i a)但我不太明白如何使用它。

哦，还有三分之一的问题 - 我假设_mm_load_si128只加载有符号的字节？而且我找不到任何其他字节加载函数，所以我猜你应该从每个字节中减去 128，然后再考虑它？

我知道这些对于 SIMD 专家来说是基本问题，但我希望这个问题对像我这样的初学者有用。如果您认为我的整个应用程序方法是错误的，或者我最好使用更现代的 SIMD 扩展，我很想知道。我只是想谦虚地警告一下，我从来没有使用过汇编，所有这些琐碎的事情都需要大量的解释才能帮助我。

尽管如此，我还是很感谢您提供的任何澄清。

如果它有所不同：我的目标是低功耗 i7 Skylake 架构。但如果应用程序也能在更旧的机器上运行（因此是 SSE2），那就太好了。

首先是最不明显的问题：

一旦我完成了所有的矢量处理，我到底如何从__m128i

将低 64 位提取为整数int64_t _mm_cvtsi128_si64x(__m128i), or 低 32 位与int _mm_cvtsi128_si32 (__m128i a).

如果您想要向量的其他部分，而不是低元素，您的选择是：

打乱向量以创建新向量__m128i在低元素中添加所需的数据，并使用 cvt 内在函数（asm 中的 MOVD 或 MOVQ）。
使用SSE2int _mm_extract_epi16 (__m128i a, int imm8)，或 SSE4.1 类似的指令用于其他元素大小，例如_mm_extract_epi64(v, 1);(PEXTRB/W/D/Q) 不是最快的指令，但如果您只需要一个高位元素，它们大约相当于单独的 shuffle 和 MOVD，但机器代码更小。
_mm_store_si128到对齐的临时数组并访问成员：编译器通常会将其优化为只是随机播放或pextr*指令如果你编译-msse4.1 or -march=haswell管他呢。打印 __m128i 变量显示了一个示例，包括 Godbolt 编译器输出显示_mm_store_si128进入一个alignas(16) uint64_t tmp[2]
Or use union { __m128i v; int64_t i64[2]; }或者其他的东西。基于联合的类型双关在 C99 中是合法的，但仅作为 C++ 中的扩展。这与 tmp 数组的编译方式相同，并且通常不易于阅读。

也可以在 C++ 中使用的 union 的替代方案是memcpy(&my_int64_local, 8 + (char*)my_vector, 8);提取上半部分，但这似乎更复杂且不太清晰，并且更有可能是编译器无法“看穿”的东西。当它是一个完整的变量时，编译器通常非常擅长优化小的固定大小的 memcpy，但这只是变量的一半。
如果向量的整个高半部分可以不加修改地直接进入内存（而不是在整数寄存器中需要），那么智能编译器可能会优化以使用MOVHPS存储a的高半部分__m128i与上述工会的东西。

或者你可以使用_mm_storeh_pi((__m64*)dst, _mm_castsi128_ps(vec))。只需要SSE1，比SSE4.1效率更高pextrq在大多数 CPU 上。但不要对您将立即再次使用的标量整数执行此操作；如果 SSE4.1 不可用，编译器可能实际上会进行 MOVHPS 和整数重新加载，这通常不是最佳的。（有些编译器（例如 MSVC）不会优化内在函数。）

这会在内存中变成线性的、不间断的块吗？

不，它是指向单独内存块的指针数组，与正确的二维数组相比，引入了额外的间接级别。不要那样做。

进行一项大的分配，然后自己进行索引计算（使用array[x*yres + y]).

是的，从中加载数据_mm_load_si128，或者 loadu 如果您需要从偏移量加载。

assumed _mm_load_si128只加载有符号的字节

有符号或无符号不是字节的固有属性，而只是解释这些位的方式。您可以使用相同的加载内部函数来加载两个 64 位元素或 128 位位图。

使用适合您的数据的内在函数。它有点像汇编语言：一切都只是字节，机器会用字节执行您告诉它的操作。您可以选择一系列指令/内在函数来产生有意义的结果。

整数加载内在函数采用__m128i*指针参数，所以你必须使用_mm_load_si128( (const __m128i*) my_int_pointer )或类似的。这看起来像指针别名（例如读取数组int通过一个short *)，这是 C 和 C++ 中的未定义行为。然而，这就是英特尔所说的你应该这样做的方式，因此任何实现英特尔内在函数的编译器都需要使其正确工作。 gcc 通过定义来做到这一点__m128i with __attribute__((may_alias)).

也可以看看加载 GCC 向量扩展的数据其中指出您可以使用 Intel 内在函数进行 GNU C 本机向量扩展，并展示如何加载/存储。

要了解有关 SSE 的 SIMD 的更多信息，请参阅sse标签 wiki，包括一些介绍/教程链接。

The x86tag wiki 有一些很好的 x86 asm / 性能链接。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 SSE2 __m128i 结构中提取字节？的相关文章

CLR 2.0 与 4.0 性能比较？

如果在 CLR 4 0 下运行为 CLR 2 0 编译的 NET 程序会运行得更快吗应用程序配置
如何从 C# 中的 dataTable.Select( ) 查询中删除单引号？

所以我有一个经销商名称列表我正在我的数据表中搜索它们问题是一些傻瓜必须被命名为 Young s 这会导致错误 drs dtDealers Select DealerName dealerName 所以我尝试替换字符串尽管它对我不起作
使用 C# 登录《我的世界》

我正在尝试为自己和一些朋友创建一个简单的自定义 Minecraft 启动器我不需要启动 Minecraft 的代码只需要登录的实际代码行例如据我所知您过去可以使用 string netResponse httpGET https
如何在C（Linux）中的while循环中准确地睡眠？

在 C 代码 Linux 操作系统中我需要在 while 循环内准确地休眠比如说 10000 微秒 1000 次我尝试过usleep nanosleep select pselect和其他一些方法但没有成功一旦大约 50 次它
如何判断计算机是否已重新启动？

我曾经使用过一个命令行 SMTP 邮件程序作为试用版的限制它允许您在每个 Windows 会话中最多接收 10 封电子邮件如果您重新启动计算机您可能还会收到 10 个以上我认为这种共享软件破坏非常巧妙我想在我的应用程序中复制它
如何填充 ToolStripComboBox？

我发现它很难将数据绑定到ToolStripComboBox 好像没有这个ValueMember and DisplayMember特性怎么绑定呢访问toolstripcombobox中包装的组合框并访问其ValueMember Disp
查看 NuGet 包依赖关系层次结构

有没有一种方法文本或图形来查看 NuGet 包之间的依赖关系层次结构如果您使用的是新的 csproj 您可以在此处获取所有依赖项在项目构建后项目目录 obj project assets json
使用 GCP 的数据存储区时如何区分代码是在模拟器中运行还是在 GKE 中运行

按照中给出的说明进行操作后我不确定是否遗漏了任何内容https cloud google com datastore docs tools datastore emulator https cloud google com datasto
对 std::vector 进行排序但忽略某个数字

我有一个std vector
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
在Linux中，找不到框架“.NETFramework，Version=v4.5”的参考程序集

我已经设置了 Visual studio 来在我的 Ubuntu 机器上编译 C 代码我将工作区我的代码加载到 VS 我可以看到以下错误 The reference assemblies for framework NETFramewo
类型约束

我有以下类层次结构 class Header IEnumerable
打破 ReadFile() 阻塞 - 命名管道 (Windows API)

为了简化这是一种命名管道服务器正在等待命名管道客户端写入管道的情况使用 WriteFile 阻塞的 Windows API 是 ReadFile 服务器已创建启用阻塞的同步管道无重叠 I O 客户端已连接现在服务器正在等待一些数据
保护 APK 中的字符串

我正在使用 Xamarin 的 Mono for Android 开发一个 Android 应用程序我目前正在努力使用 Google Play API 添加应用内购买功能为此我需要从我的应用程序内向 Google 发送公共许可证密钥
C++ new * char 不为空

我有一个问题我在 ASIO 中开发服务器数据包采用尖头字符当我创建新字符时例如char buffer new char 128 我必须手动将其清理为空 By for int i 0 i lt 128 i buffer i 0x00
OpenGL：仅获取模板缓冲区而没有深度缓冲区？

我想获取一个模板缓冲区但如果可能的话不要承受附加深度缓冲区的开销因为我不会使用它我发现的大多数资源表明虽然模板缓冲区是可选的例如排除它以利于获得更高的深度缓冲区精度但我还没有看到任何请求并成功获取仅 8 位模板缓冲区的代码
这个可变参数模板示例有什么问题？

基类是 include
可访问性不一致：参数类型的可访问性低于方法

我试图在两个表单之间传递一个对象基本上是对当前登录用户的引用目前我在登录表单中有一些类似的内容 private ACTInterface oActInterface public void button1 Click object s
使用 C 在 OS X 中获取其他进程的 argv

我想获得其他进程的argv 例如ps 我使用的是在 Intel 或 PowerPC 上运行的 Mac OS X 10 4 11 首先我阅读了 ps 和 man kvm 的代码然后编写了一些 C 代码 include
如何使用 C++11 using 语法键入定义函数指针？

我想写这个 typedef void FunctionPtr using using 我该怎么做呢它具有类似的语法只不过您从指针中删除了标识符 using FunctionPtr void 这是一个Example http ideone

随机推荐

我应该如何类型提示一个也可以是无限的整数变量？

搜索这个主题时我发现了以下内容如何表示整数无穷大我同意 Martijn Peeters 的观点即为int可能不是最好的想法然而这使得类型提示变得困难假设以下代码 myvar 10 type int myvar math inf
ASP.NET MVC 2 中的验证实际上是如何工作的？

我试图追踪为什么我的 ASP NET MVC 2 验证不起作用但我找不到足够的关于它如何工作的信息来做到这一点我已按照此步骤操作大卫海登的有用文章这似乎是目前最好的文档但实际上什么也没发生当我提交到服务器时我得到了验证就像我从
防止 Angular 中的多个 $http 请求。有没有更好的办法？

我构建了一个有点复杂的方法来通过 http 返回资源该方法返回一个承诺然后检查我的本地缓存是否存在资源如果是它将返回缓存的资源如果不是它将发出 http 请求这在资源被缓存后效果很好但是我在加载时调用此方法的应用程序中有多个
如何取消 Sublime Text 3 中正在进行的查找/搜索

如何取消 Sublime Text 中正在进行的搜索基本上当我使用递归文件夹搜索特定文本时 ctrl shft F 但有时如果搜索模式不好它会无限运行如何在不关闭 Sublime text 的情况下取消错误的搜索我使用的停止搜索的
上传没有 multipart/form-data 的文件（服务器到服务器）

从这个答案https stackoverflow com a 1695287 256400 我感觉多部分表单数据需要将文件从浏览器上传到服务器但是如果我的用例是将文件从服务器上传到服务器如果我将内容类型 as 应用程序八位字节流甚
MediaPlayer.seekTo() 不寻求在 Android 上定位

我正在开发一个应用程序其中视频以 3 个不同的时间间隔暂停第二次暂停后如果单击按钮则应从之前的位置开始返回例如如果当前在 1 30 暂停则单击按钮后它将转到上一个书签即 00 45 我认为使用 MediaPlayer se
ValueError 不支持 psycopg2 的格式字符“d”

我有这样的代码 print company id d company id db cursor execute insert into person company id first last type values d s s d com
两个表上的 Rails 自定义foreign_key名称

我有两个模型例如 User 和 Club 及其属性 User id uid email etc and Club id player id address supporter etc 由于某种原因连接属性是clubs player id
将任何记录转换为字符串并返回？

我怎样才能转换任何record键入单个String然后回来也许将记录加载到流中并将其作为字符串读取我使用的记录不会包含任何特殊类型它们只是使用简单的东西例如String Integer PChar DWORD and Array o
android viewpager 中的幻灯片？

我在使用 android viewpager 幻灯片时遇到问题我想在最短时间段后显示视图页面布局这是我的代码示例我的主要课程 public class MainActivity extends Activity private Vie
本地主机上是否需要 SSL？

我们有一个将使用自签名证书的 Web 应用程序将其安装到服务器上后浏览器将在 https 本地主机不为了论证我要声明我们不能使用实际的机器名称这将生成浏览器错误因为 localhost 不是证书的域一个选项是在 HTTP 上
如何在调用我的应用程序中的函数的窗口中创建键盘快捷键？

How can I create an application that performs an action with keyboard shortcut App must be unvisible For example Shows M
按 NaN 计数的降序对数据帧的行进行排序

我正在尝试对以下 Pandas DataFrame 进行排序 RHS age height shoe size weight 0 weight NaN 0 0 0 0 1 0 1 shoe size NaN 0 0 1 0 NaN 2 sh
在 hive 或 impala 中计算表统计信息如何加速 Spark SQL 中的查询？

为了提高性能例如连接建议首先计算表静态数据在蜂巢我可以做 analyze table table compute statistics 在黑斑羚 compute stats table 我的 Spark 应用程序从 hive 表读取
在sql server中高效地将行转换为列

我正在寻找一种在 SQL Server 中将行转换为列的有效方法我听说 PIVOT 不是很快而且我需要处理大量记录这是我的例子 Id Value ColumnName 1 John FirstName 2 2 4 Amount 3 Z
非线性颜色插值？

如果我有一条从 0 到 1 的直线那么我在线上的 0 处有 colorA 255 0 0 然后在 0 3 处我有 colorB 20 160 0 然后在线上的 1 处我有 colorC 0 0 0 我怎样才能找到 0 7 处的颜色 Tha
UNC 路径不适用于 .NET？

我正在运行一个非常简单的程序它试图列出同一台计算机上的文件夹中的文件该文件夹是使用 UNC 格式指定的如中所述http msdn microsoft com en us library windows desktop aa365247
如何使用 SMO 脚本生成器生成 sql 脚本

我的数据库有表视图等等我需要一种方法以自动方式为所有 DDL 生成 SQL 脚本不需要数据由于存在 FK 约束因此表创建脚本应正确排序有些视图使用另一个视图因此视图创建脚本也必须正确排序从呈现的脚本开始MSDN 博客我得到
如何通过深层链接恢复 Android 应用程序而不丢失活动堆栈（或应用程序状态）？

我有这个
如何从 SSE2 __m128i 结构中提取字节？

我是 SIMD 内在函数的初学者所以我要感谢大家的耐心等待我有一个涉及无符号字节的绝对差异比较的应用程序我正在处理灰度图像我尝试了 AVX 更现代的 SSE 版本等但最终认为 SSE2 似乎足够了并且对单个字节的支持最多如果我

如何从 SSE2 __m128i 结构中提取字节？

如何从 SSE2 __m128i 结构中提取字节？ 的相关文章

随机推荐

热门标签

如何从 SSE2 __m128i 结构中提取字节？的相关文章