如何优化SIMD转置函数（8x4 => 4x8）？

2024-01-19

我需要使用 AVX 优化 8x4 和 4x8 浮点矩阵的转置。我用阿格纳·福格的矢量类库 http://www.agner.org/optimize/#vectorclass.

青色任务 - 构建 BVH 并求和最小-最大。每个循环的最后阶段都会使用转置（它们也通过多线程进行优化，但任务可能非常多）。

代码现在看起来像：

void transpose(register Vec4f (&fin)[8], register Vec8f (&mat)[4]) {
    for (int i = 0;i < 8;i++) {
        fin[i] = lookup<28>(Vec4i(0, 8, 16, 24) + i, (float *)mat);
    }
}

需要优化的变体。如何针对 SIMD 优化此功能？

我最近用向量类编写了自己的转置变体（4x8 和 8x4）。 1.0 版。

void transpose(register Vec4f(&fin)[8], register Vec8f(&mat)[4]) {
    register Vec8f a00 = blend8f<0, 8, 1, 9, 2, 10, 3, 11>(mat[0], mat[1]);
    register Vec8f a10 = blend8f<0, 8, 1, 9, 2, 10, 3, 11>(mat[2], mat[3]);
    register Vec8f a01 = blend8f<4, 12, 5, 13, 6, 14, 7, 15>(mat[0], mat[1]);
    register Vec8f a11 = blend8f<4, 12, 5, 13, 6, 14, 7, 15>(mat[2], mat[3]);

    register Vec8f v0_1 = blend8f<0, 1, 8, 9, 2, 3, 10, 11>(a00, a10);
    register Vec8f v2_3 = blend8f<4, 5, 12, 13, 6, 7, 14, 15>(a00, a10);
    register Vec8f v4_5 = blend8f<0, 1, 8, 9, 2, 3, 10, 11>(a01, a11);
    register Vec8f v6_7 = blend8f<4, 5, 12, 13, 6, 7, 14, 15>(a01, a11);

    fin[0] = v0_1.get_low();
    fin[1] = v0_1.get_high();
    fin[2] = v2_3.get_low();
    fin[3] = v2_3.get_high();
    fin[4] = v4_5.get_low();
    fin[5] = v4_5.get_high();
    fin[6] = v6_7.get_low();
    fin[7] = v6_7.get_high();
}

void transpose(register Vec8f(&fin)[4], register Vec4f(&mat)[8]) {
    register Vec8f a0_1 = Vec8f(mat[0], mat[1]);
    register Vec8f a2_3 = Vec8f(mat[2], mat[3]);
    register Vec8f a4_5 = Vec8f(mat[4], mat[5]);
    register Vec8f a6_7 = Vec8f(mat[6], mat[7]);

    register Vec8f a00 = blend8f<0, 4, 8 , 12, 1, 5, 9 , 13>(a0_1, a2_3);
    register Vec8f a10 = blend8f<0, 4, 8 , 12, 1, 5, 9 , 13>(a4_5, a6_7);
    register Vec8f a01 = blend8f<2, 6, 10, 14, 3, 7, 11, 15>(a0_1, a2_3);
    register Vec8f a11 = blend8f<2, 6, 10, 14, 3, 7, 11, 15>(a4_5, a6_7);

    fin[0] = blend8f<0, 1, 2, 3, 8, 9, 10, 11>(a00, a10);
    fin[1] = blend8f<4, 5, 6, 7, 12, 13, 14, 15>(a00, a10);
    fin[2] = blend8f<0, 1, 2, 3, 8, 9, 10, 11>(a01, a11);
    fin[3] = blend8f<4, 5, 6, 7, 12, 13, 14, 15>(a01, a11);
}

需要2.0版本。

我没有这方面的经验矢量类图书馆，但通过简要浏览来源lookup模板函数，看起来你正在做一些效率非常低的事情。

我使用下面的 SSE/AVX 内在函数提出了一个简单而有效的解决方案。我不知道如何对其进行完全编码vectorclass图书馆。但是，您可以使用转换运算符将原始数据提取为__m128 and __m256从课堂上Vec4f and Vec8f。适当的构造函数允许您将原始结果转换回向量类。

在具有内在函数的纯 SSE 中，有一个宏_MM_TRANSPOSE4_PS在标题中xmmintrin.h。它转置 4x4 浮点矩阵，每一行都位于单独的 128 位寄存器中。如果您只有 SSE（即没有 AVX），那么您只需调用此宏两次即可完成。这是代码：

#define _MM_TRANSPOSE4_PS(row0, row1, row2, row3) {    \
  __m128 tmp3, tmp2, tmp1, tmp0;                      \
  tmp0 = _mm_shuffle_ps(row0, row1, 0x44);            \
  tmp2 = _mm_shuffle_ps(row0, row1, 0xEE);            \
  tmp1 = _mm_shuffle_ps(row2, row3, 0x44);            \
  tmp3 = _mm_shuffle_ps(row2, row3, 0xEE);            \
  row0 = _mm_shuffle_ps(tmp0, tmp1, 0x88);            \
  row1 = _mm_shuffle_ps(tmp0, tmp1, 0xDD);            \
  row2 = _mm_shuffle_ps(tmp2, tmp3, 0x88);            \
  row3 = _mm_shuffle_ps(tmp2, tmp3, 0xDD);            \
}

在 AVX 中，具有 256 位操作数的指令通常只对操作数的两半（称为通道）执行 SSE 等效操作。和内在的_mm256_shuffle_ps也不例外：它只是简单地打乱两个 128 位通道作为其_mm等价的。如果意味着如果我们改变_mm前缀为_mm256如果在宏中添加前缀，它将转置两个 4x4 矩阵：一个位于四个 256 位寄存器的较低通道，一个位于四个 256 位寄存器的较高通道。我们只需将生成的 256 位寄存器分成两半并正确排序。

生成的代码如下所示。我已经检查过它工作正常。它似乎只有12条指令，所以我想它会很快。

void Transpose4x8(__m128 dst[8], __m256 src[4]) {
  __m256 row0 = src[0], row1 = src[1], row2 = src[2], row3 = src[3];
  __m256 tmp3, tmp2, tmp1, tmp0;
  tmp0 = _mm256_shuffle_ps(row0, row1, 0x44);
  tmp2 = _mm256_shuffle_ps(row0, row1, 0xEE);
  tmp1 = _mm256_shuffle_ps(row2, row3, 0x44);
  tmp3 = _mm256_shuffle_ps(row2, row3, 0xEE);
  row0 = _mm256_shuffle_ps(tmp0, tmp1, 0x88);
  row1 = _mm256_shuffle_ps(tmp0, tmp1, 0xDD);
  row2 = _mm256_shuffle_ps(tmp2, tmp3, 0x88);
  row3 = _mm256_shuffle_ps(tmp2, tmp3, 0xDD);
  dst[0] = _mm256_castps256_ps128(row0);
  dst[1] = _mm256_castps256_ps128(row1);
  dst[2] = _mm256_castps256_ps128(row2);
  dst[3] = _mm256_castps256_ps128(row3);
  dst[4] = _mm256_extractf128_ps(row0, 1);
  dst[5] = _mm256_extractf128_ps(row1, 1);
  dst[6] = _mm256_extractf128_ps(row2, 1);
  dst[7] = _mm256_extractf128_ps(row3, 1);
}

UPDATE逆转置的完成方式完全相同，只是有些事情以相反的顺序进行。这是代码：

void Transpose8x4(__m256 dst[4], __m128 src[8]) {
  __m256 row0 = _mm256_setr_m128(src[0], src[4]);
  __m256 row1 = _mm256_setr_m128(src[1], src[5]);
  __m256 row2 = _mm256_setr_m128(src[2], src[6]);
  __m256 row3 = _mm256_setr_m128(src[3], src[7]);
  __m256 tmp3, tmp2, tmp1, tmp0;
  tmp0 = _mm256_shuffle_ps(row0, row1, 0x44);
  tmp2 = _mm256_shuffle_ps(row0, row1, 0xEE);
  tmp1 = _mm256_shuffle_ps(row2, row3, 0x44);
  tmp3 = _mm256_shuffle_ps(row2, row3, 0xEE);
  row0 = _mm256_shuffle_ps(tmp0, tmp1, 0x88);
  row1 = _mm256_shuffle_ps(tmp0, tmp1, 0xDD);
  row2 = _mm256_shuffle_ps(tmp2, tmp3, 0x88);
  row3 = _mm256_shuffle_ps(tmp2, tmp3, 0xDD);
  dst[0] = row0; dst[1] = row1; dst[2] = row2; dst[3] = row3;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何优化SIMD转置函数（8x4 => 4x8）？的相关文章

进程何时获得 SIGABRT（信号 6）？

C 中进程获得 SIGABRT 的场景有哪些该信号是否始终来自进程内部或者该信号可以从一个进程发送到另一个进程吗有没有办法识别哪个进程正在发送该信号 abort 向调用进程发送SIGABRT信号就是这样abort 基本上有效 abo
迭代变量并查找特定类型实例的技术

我想迭代进程中内存中的变量通过插件动态加载并查找特定类型的实例以前我可以找到特定类型或内存中的所有类型我可以创建类型的实例我可以获取作为不同类型的字段包含的实例但我无论如何都不知道只是搜索特定类型的实例一种方法是使用 W
我的线程图像生成应用程序如何将其数据传输到 GUI？

Mandelbrot 生成器的缓慢多精度实现线程化使用 POSIX 线程 Gtk 图形用户界面我有点失落了这是我第一次尝试编写线程程序我实际上并没有尝试转换它的单线程版本只是尝试实现基本框架到目前为止它是如何工作的简要描述 M
为什么我不能用 `= delete;` 声明纯虚函数？

Intro 纯虚函数使用通用语法声明 virtual f 0 然而自 c 11 以来有一种方法可以显式地传达non existence 特殊成员函数的 Mystruct delete eg default constructor Q
如何在 Android NDK 中创建新的 NativeWindow 而无需 Android 操作系统源代码？

我想编译一个 Android OpenGL 控制台应用程序您可以直接从控制台启动 Android x86 运行或者从 Android x86 GUI 内的 Android 终端应用程序运行这个帖子如何在 Android NDK 中创
构造函数中显式关键字的使用

我试图了解 C 中显式关键字的用法并查看了这个问题C 中的explicit关键字是什么意思 https stackoverflow com questions 121162 但是那里列出的示例实际上是前两个答案对于用法并不是很清楚
JSON 数组到 C# 列表

如何将这个简单的 JSON 字符串反序列化为 C 中的列表 on4ThnU7 n71YZYVKD CVfSpM2W 10kQotV 这样 List
访问者和模板化虚拟方法

在一个典型的实现中Visitor模式该类必须考虑基类的所有变体后代在许多情况下访问者中的相同方法内容应用于不同的方法在这种情况下模板化的虚拟方法是理想的选择但目前这是不允许的那么模板化方法可以用来解析父类的虚方法吗鉴于
如何从 C# 控制器重定向到外部 url

我使用 C 控制器作为网络服务在其中我想将用户重定向到外部网址我该怎么做 Tried System Web HttpContext Current Response Redirect 但没有成功使用控制器的重定向 http msdn
C 语言中 =+（等于加）是什么意思？

我碰到与标准相反今天在一些 C 代码中我不太确定这里发生了什么我在文档中也找不到它 In ancientC 版本相当于它的残余物与最早的恐龙骨头一起被发现例如 B 引入了广义赋值运算符使用x y to add y to x
即使手动设置显示环境变量后，WSL Ubuntu 也会显示“错误：无法打开显示”

我在 WSL Ubuntu 上使用 g 我使用 git 克隆了 GLFW 存储库使用了ccmake命令配置并生成二进制文件然后使用make在 build 目录中最终创建 a文件我安装了所有OpenGL相关的库 usr ld 我不记得我
在 2D 中将一个点旋转另一个点

我想知道当一个点相对于另一个点旋转一定角度时如何计算出新的坐标我有一个块箭头想要将其相对于箭头底部中间的点旋转角度 theta 这是允许我在两个屏幕控件之间绘制多边形所必需的我无法使用和旋转图像从我到目前为止所考虑的情况来看使问题
在非活动联合成员上使用“std::addressof”是否定义明确[重复]

这个问题在这里已经有答案了下面的代码是尝试实现constexpr的版本offsetof在 C 11 中它可以在 gcc 7 2 0 和 clang 5 0 0 中编译这取决于申请std addressof工会非活跃成员的成员这是明确
基于xsd模式生成xml（使用.NET）

我想根据我的 xsd 架构 cap xsd 生成 xml 文件我找到了这篇文章并按照说明进行操作使用 XSD 文件生成 XML 文件 https stackoverflow com questions 6530424 generatin
如何重置捕获像素的值

我正在尝试创建一个 C 函数该函数返回屏幕截图位图中每四个像素的 R G 和 B 值这是我的代码的一部分 for int ix 4 ix lt 1366 ix ix 4 x x 4 for int iy 3 iy lt 768 iy i
当模板类不包含可用的成员函数时，如何在编译时验证模板参数？

我有以下模板struct template
g++ 对于看似不相关的变量“警告：迭代...调用未定义的行为”

考虑以下代码strange cpp include
有没有一种简单的方法可以让 Visual Studio 2015 使用特定的 ToolsVersion？

使用特定版本构建项目或解决方案时msbuild我可以使用以下命令选择早期的 net 工具链 toolsversion or tv switch C Program Files x86 MSBuild 14 0 bin msbuild tv
耐用功能是否适合大量活动？

我有一个场景需要计算 500k 活动都是小算盘由于限制我只能同时计算 30 个想象一下下面的简单示例 FunctionName Crawl public static async Task
使用 CSharpCodeProvider 类编译 C# 7.3 的 C# 编译器版本是什么？

我想使用 Microsoft CSharp CSharpCodeProvider 类来编译 C 7 3 代码编译器版本在 IDictionary 中指定在创建新的 CSharpCodeProvider 时将其作为输入例如 Compil

随机推荐

Android 中的 StackOverflow 错误

我正在运行我的应用程序宏碁平板电脑应用程序获取crash每次应用程序都完美运行Samsung tablet 02 13 09 48 05 400 D OpenGLRenderer 7270 Flushing caches mode 0
在 Windows 上使用 Ruby 进行开发 [已关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我很快就会开始一份新工作我将在 Windows 机器上使用 Ruby 和 Rails 进行开发我已
Azure Devops Rest api 仅返回 100 个项目

我正在尝试从我的组织中检索所有项目我有 300 个项目但 api 调用仅返回 100 我尝试将 top 与 api 一起使用但它什么也没返回这是我的脚本适用于获取 100 个项目并转换为 csv 文件但我需要此 csv 文件中所
为什么这个例子在C中陷入了无限循环？ [复制]

这个问题在这里已经有答案了在下面的示例中如果我在 Mac OS X 终端中输入一个字符程序将陷入无限循环打印Please enter a number 一行一行并且不允许用户输入任何内容这段代码有什么问题解决办法是什么我想更
将电子邮件地址插入表字段

write student record query INSERT INTO Student SLastName SFirstName SeMail SGrade SPhone SCell SLunch VALUES LastName Fi
将大写字母应用于 pandas 数据框中的列

我在将大写字母应用于数据帧中的列时遇到问题数据框是df 1 2 ID是需要应用大写的列标题问题在于这些值由三个字母和三个数字组成例如rrr123是价值观之一 df 1 2 ID map str upper df 1 2 ID 我收到一
如果我将 JavaScript 保留在底部或将 JavaScript 保留在 document.ready 内的中，两者是同一件事吗？

如果我将 JavaScript 代码保留在底部或将 JavaScript 代码保留在 inside document ready 两者是同一件事吗我对这两种方法感到困惑 http api jquery com ready http api
使 Python-Telegram-Bot 持久化

我最近使用 python telegram bot 库编写了一个简单的电报机器人并将该机器人部署在 Heroku 上现在我正在寻找一种有效的方法来使机器人持久化允许它在运行之间存储 Bot data 和 user data 我查看了库
模板化函数在编译期间被报告为“未定义的引用”

这些是我的文件 c hpp ifndef C define C include
window.open 不可调整大小，可滚动

I tried window open并希望 javascript 使用新 url 打开新浏览器并希望新窗口可调整大小和可滚动 i tried window open someurl blank windowOpenTab scrollb
如何将二进制 pgdump（压缩）转换为纯 SQL 文件？

我确实想在数据库转储中搜索一些数据但这些转储使用二进制压缩格式 PGDMP标题如何将它们转换为 SQL 而不恢复它们 pg restore 在没有数据库名称的情况下运行时将文本转储输出到标准输出你可以将其发送到其他地方 f或使用 I
如何在 JS 中将 ASCII 艺术图像输入到控制台？

我正在尝试让这个 ASCII 图像显示在控制台中
将 GridView 导出到多个 Excel 工作表

我的 Web 应用程序中有两个 Gridview 我需要在单击 ExcelExpot 按钮时将值导出到 Excel 相应的 Sheet1 和 Sheet2 中 protected void ExportToExcel this GridVi
“char”关键字的用途是什么？

是什么charJavaScript 中使用的保留关键字因为不需要类型声明特别是使用它的正确语法是什么有人能给我一个正确的完整示例吗因为写char c 抛出一个解释错误说missing before statement 就在之前c
在 C++ 进程之间共享 CGAL 的几何图形

我正在寻找在进程之间发送 CGAL 几何图形的最快方法 C 假设我们有 2 个进程 A 和 B 进程 A 正在生成几何图形进程 B 正在显示它我想以最快的方式连接它们几何形状为 CGAL 多面体类型我知道我可以使用共享内存但是我遇
如何使用ggpmisc的stat_poly_eq在方程中显示不同的y标签

我正在尝试使用以下命令在绘图上显示方程stat poly eq的函数ggpmisc 我的问题是如何改变y 在等式中由y1 and y2 通过参考key争论我尝试添加eq with lhs映射中的参数但它无法识别该参数我试图将向量传递
WPF 学习曲线有多糟糕？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
轨道形式的单选按钮标签

我的问题类似于this one https stackoverflow com questions 658689 how to associate labels with radio buttons但对于 Rails 应用程序我有一个带有
是否可以运行异步调用来在 ASP.NET 中设置会话？

我有一个页面访问数据库运行一个繁重的存储过程并返回结果结果将根据会话变量 Session isShown 显示我想使用Ajax调用另一个页面来设置 xmlhttp open POST frmCancelWfSearch aspx tr
如何优化SIMD转置函数（8x4 => 4x8）？

我需要使用 AVX 优化 8x4 和 4x8 浮点矩阵的转置我用阿格纳福格的矢量类库 http www agner org optimize vectorclass 青色任务构建 BVH 并求和最小最大每个循环的最后阶段都会使用转

如何优化SIMD转置函数（8x4 => 4x8）？

如何优化SIMD转置函数（8x4 => 4x8）？ 的相关文章

随机推荐

热门标签

如何优化SIMD转置函数（8x4 => 4x8）？的相关文章