高效的 4x4 矩阵乘法（C 与汇编）

2024-03-31

我正在寻找一种更快、更棘手的方法来用 C 语言将两个 4x4 矩阵相乘。我目前的研究重点是具有 SIMD 扩展的 x86-64 汇编。到目前为止，我已经创建了一个比简单的 C 实现快大约 6 倍的函数，这超出了我对性能改进的预期。不幸的是，只有当没有使用优化标志进行编译时（GCC 4.7），这种情况才成立。和-O2，C变得更快，我的努力变得毫无意义。

我知道现代编译器利用复杂的优化技术来实现近乎完美的代码，通常比手工制作的巧妙汇编更快。但在少数性能关键的情况下，人们可能会尝试与编译器争夺时钟周期。特别是，当可以探索一些由现代 ISA 支持的数学时（就像我的例子一样）。

我的函数如下所示（AT&T 语法，GNU 汇编器）：

    .text
    .globl matrixMultiplyASM
    .type matrixMultiplyASM, @function
matrixMultiplyASM:
    movaps   (%rdi), %xmm0    # fetch the first matrix (use four registers)
    movaps 16(%rdi), %xmm1
    movaps 32(%rdi), %xmm2
    movaps 48(%rdi), %xmm3
    xorq %rcx, %rcx           # reset (forward) loop iterator
.ROW:
    movss (%rsi), %xmm4       # Compute four values (one row) in parallel:
    shufps $0x0, %xmm4, %xmm4 # 4x 4FP mul's, 3x 4FP add's 6x mov's per row,
    mulps %xmm0, %xmm4        # expressed in four sequences of 5 instructions,
    movaps %xmm4, %xmm5       # executed 4 times for 1 matrix multiplication.
    addq $0x4, %rsi

    movss (%rsi), %xmm4       # movss + shufps comprise _mm_set1_ps intrinsic
    shufps $0x0, %xmm4, %xmm4 #
    mulps %xmm1, %xmm4
    addps %xmm4, %xmm5
    addq $0x4, %rsi           # manual pointer arithmetic simplifies addressing

    movss (%rsi), %xmm4
    shufps $0x0, %xmm4, %xmm4
    mulps %xmm2, %xmm4        # actual computation happens here
    addps %xmm4, %xmm5        #
    addq $0x4, %rsi

    movss (%rsi), %xmm4       # one mulps operand fetched per sequence
    shufps $0x0, %xmm4, %xmm4 #  |
    mulps %xmm3, %xmm4        # the other is already waiting in %xmm[0-3]
    addps %xmm4, %xmm5
    addq $0x4, %rsi           # 5 preceding comments stride among the 4 blocks

    movaps %xmm5, (%rdx,%rcx) # store the resulting row, actually, a column
    addq $0x10, %rcx          # (matrices are stored in column-major order)
    cmpq $0x40, %rcx
    jne .ROW
    ret
.size matrixMultiplyASM, .-matrixMultiplyASM

它通过处理封装在 128 位 SSE 寄存器中的四个浮点来计算每次迭代结果矩阵的整列。通过一些数学运算（操作重新排序和聚合）就可以实现完整的矢量化mullps/addps4xfloat 包的并行乘法/加法指令。该代码重用了用于传递参数的寄存器（%rdi, %rsi, %rdx：GNU/Linux ABI），受益于（内部）循环展开，并将一个矩阵完全保存在 XMM 寄存器中，以减少内存读取。你可以看到，我已经研究了这个主题，并花时间尽我所能地实现它。

简单的 C 计算征服了我的代码，如下所示：

void matrixMultiplyNormal(mat4_t *mat_a, mat4_t *mat_b, mat4_t *mat_r) {
    for (unsigned int i = 0; i < 16; i += 4)
        for (unsigned int j = 0; j < 4; ++j)
            mat_r->m[i + j] = (mat_b->m[i + 0] * mat_a->m[j +  0])
                            + (mat_b->m[i + 1] * mat_a->m[j +  4])
                            + (mat_b->m[i + 2] * mat_a->m[j +  8])
                            + (mat_b->m[i + 3] * mat_a->m[j + 12]);
}

我研究了上述 C 代码的优化汇编输出，在 XMM 寄存器中存储浮点数时，不涉及任何并行操作– 只是标量计算、指针算术和条件跳转。编译器的代码似乎不那么刻意，但它仍然比我预计的矢量化版本快 4 倍左右，稍微有效一些。我确信总体想法是正确的——程序员做类似的事情并获得回报。但这里出了什么问题呢？是否存在我不知道的寄存器分配或指令调度问题？你知道任何 x86-64 组装工具或技巧来支持我与机器的战斗吗？

4x4 矩阵乘法是 64 次乘法和 48 次加法。使用 SSE，这可以减少到 16 次乘法和 12 次加法（以及 16 次广播）。以下代码将为您完成此操作。它只需要SSE（#include <xmmintrin.h>）。数组A, B, and C需要16字节对齐。使用水平指令，例如hadd（上证3）和dpps（SSE4.1）将是效率较低 https://stackoverflow.com/questions/14967969/efficient-4x4-matrix-vector-multiplication-with-sse-horizontal-add-and-dot-prod（尤其dpps）。我不知道循环展开是否有帮助。

void M4x4_SSE(float *A, float *B, float *C) {
    __m128 row1 = _mm_load_ps(&B[0]);
    __m128 row2 = _mm_load_ps(&B[4]);
    __m128 row3 = _mm_load_ps(&B[8]);
    __m128 row4 = _mm_load_ps(&B[12]);
    for(int i=0; i<4; i++) {
        __m128 brod1 = _mm_set1_ps(A[4*i + 0]);
        __m128 brod2 = _mm_set1_ps(A[4*i + 1]);
        __m128 brod3 = _mm_set1_ps(A[4*i + 2]);
        __m128 brod4 = _mm_set1_ps(A[4*i + 3]);
        __m128 row = _mm_add_ps(
                    _mm_add_ps(
                        _mm_mul_ps(brod1, row1),
                        _mm_mul_ps(brod2, row2)),
                    _mm_add_ps(
                        _mm_mul_ps(brod3, row3),
                        _mm_mul_ps(brod4, row4)));
        _mm_store_ps(&C[4*i], row);
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

高效的 4x4 矩阵乘法（C 与汇编）的相关文章

将图像文件从网址复制到本地文件夹？

我有该图像的网址例如 http testsite com web abc jpg http testsite com web abc jpg 我想将该 URL 复制到 c images 中的本地文件夹中而且当我将该文件复制到文件夹中时
是否允许将类模板类型参数键入相同的名称？

这似乎可以在 MSVC 中按预期编译甚至工作但它是合法的 C 代码吗它是否能保证执行此处所期望的操作即将模板类型导出到结构体的同名用户 template
在Application_AquireRequestState事件中用POST数据重写Url

我有一个在其中注册路线的代码Application AcquireRequestState应用程序的事件注册路由后我会在 Http 运行时缓存中设置一个标志这样我就不会再次执行路由注册代码在此事件中注册路线有特定原因Applicat
如何在不实例化一个类的情况下检查它是否继承了另一个类？ [复制]

这个问题在这里已经有答案了假设我有一个如下所示的类 class Derived some inheritance stuff here 我想在我的代码中检查类似的内容 Derived is SomeType 但看起来像is运算符需要 De
导出类时编译器错误

我正在使用 Visual Studio 2013 但遇到了一个奇怪的问题当我导出一个类时它会抛出尝试引用已删除的函数错误但是当该类未导出时它的行为会正确让我举个例子 class Foo note the export cla
是否有像 gccxml 这样的用于生成包装器的 C 标头解析器工具？

我需要为一种新的编程语言编写一些 C 标头包装器并且想要类似 gccxml 的东西但不完全依赖 gcc 以及它在 Windows 系统上带来的问题只需要读C而不是C 只要有完整的文档记录任何格式的输出都可以 Linux Solari
如何使用 wpf webbrowser 将数据发布到 Web 服务器

我想从数据库获取数据并使用它来让用户登录到网站我有一个包含 Web 浏览器控件的 wpf 页面我有这样的代码用于将用户登录到用 php 编写的网站
存储过程上的 OdbcCommand - 输出参数上出现“未提供参数”错误

我正在尝试执行存储过程通过 ODBC 驱动程序针对 SQL Server 2005 但收到以下错误过程或函数 GetNodeID 需要参数 ID 但未提供该参数 ID 是我的过程的 OUTPUT 参数在存储过程中指定了一个输入 mac
在 MATLAB 中创建共享库

一位研究人员在 MATLAB 中创建了一个小型仿真我们希望其他人也能使用它我的计划是进行模拟清理一些东西并将其变成一组函数然后我打算将其编译成C库并使用SWIG https en wikipedia org wiki SWIG创建一
单线程公寓问题

从我的主窗体中我调用以下命令来打开一个新窗体 MyForm sth new MyForm sth show 一切都很好但是这个表单有一个组合框当我将其 AutoCompleteMode 切换为建议和追加时我在显示表单时遇到了这个异常
编译器错误“错误：在文件范围内可变地修改了‘字符串’”

考虑 include
如何减少 JSF 中的 javax.faces.ViewState

减少 JSF 中视图状态隐藏字段大小的最佳方法是什么我注意到我的视图状态约为 40k 这会在每次请求和响应时下降到客户端并返回到服务器特别是到达服务器时这对用户来说会显着减慢我的环境 JSF 1 2 MyFaces Tomcat T
正确使用“extern”关键字

有一些来源书籍在线材料解释了extern如下 extern int i declaration has extern int i 1 definition specified by the absence of extern 并且有支
不兼容的类型 - 是因为数组已经是指针吗？

在下面的代码中我创建一个基于书籍结构的对象并让它保存多个书籍我设置的是一个数组即定义启动的对象然而每当我去测试我对指针的了解实践有帮助并尝试创建一个指向创建的对象的指针时它都会给我错误 C Users Justin D
从 C 线程调用 Python 代码

我对从 C 或 C 线程调用 Python 代码时如何确保线程安全感到非常困惑 The Python 文档 http docs python org c api init html non python created threads似乎是
TPL 数据流块下游如何获取源生成的数据？

我正在使用 TPL Dataflow 处理图像我收到处理请求从流中读取图像应用多次转换然后将生成的图像写入另一个流 Request gt Stream gt Image gt Image gt Stream 为此我使用块 Buff
#pragma pack(16) 和 #pragma pack(8) 的效果总是相同吗？

我正在尝试使用来对齐数据成员 pragma pack n http msdn microsoft com en us library 2e70t5y1 28v vs 100 29 aspx 以下面为例 include
ASP.NET Core Razor Page 多路径路由

我正在使用 ASP NET Core 2 0 Razor Pages 不是 MVC 构建系统但在为页面添加多个路由时遇到问题例如所有页面都应该能够通过 abc com language 访问segment shop mypage 或
使用 Chrome 和 Selenium 设置 LocalStorage

我正在尝试使用 OpenQA Selenium 和 Chrome 设置本地存储键和值我认为这相当微不足道但我似乎无法让它发挥作用我对 C 很陌生所以我可能错过了一些东西无论如何我有这个功能 public static void
启动画面后主窗口出现在其他窗口后面

我有一个带有启动屏幕的 Windows 窗体应用程序当我运行该应用程序时启动屏幕显示正常消失并加载应用程序的主窗体但是当我加载主窗体时它出现在包含该应用程序的 Windows 资源管理器目录下这是运行启动画面然后运行主窗体的代

随机推荐

使用 ADO 将原始文件数据插入 Access 表的 BLOB（“OLE 对象”）字段

我正在尝试将文件插入 MS Access 数据库的字段中OLE Object类型我在用C and ADO 目前我收到错误Invalid pointer error 罢工 gt 我认为我的问题是错误处理变体因为这是我第一次使用它们我正在
如何使用 C# 进行条件序列化 - NewtonSoft.Json

我正在使用 NewtonSoft Json 进行 json 序列化 public class CommonBase JsonProperty PropertyName u customer id public long CustomerId
套接字术语 - “阻塞”是什么意思？

当谈论 C 中的套接字编程时术语阻塞是什么意思我需要构建一个服务器组件可能是 Windows 服务来接收数据进行一些处理并将数据返回给调用者呼叫者可以等待回复但我需要确保多个客户端可以同时呼叫如果客户端 1 连接并且我花
WordPress 数据库 insert() 和 update() - 使用 NULL 值

WordPress 附带wpdb处理 CRUD 操作的类我感兴趣的这个类的两个方法是insert CRUD 中的 C 和update CRUD 中的 U 当我想将 NULL 插入 mysql 数据库列时出现问题 wpdb类将 PHP 空变
Haskell：删除最大的列表

我有一个列表列表以及一个返回包含最多项目的列表的函数 extract Plateau gt Plateau extract x xs x maximumBy compare on length x xs x otherwise extra
使用 Chrome 控制台通过 RequireJS 访问 Knockout ViewModel

既然我正在使用 RequireJS 如何在 Chrome 控制台中访问 KnockOut ViewModel 变量在使用 RequireJS 之前我遵循命名空间模式将所有内容隐藏在单个全局中我可以通过在 Chrome 控制台中输入以
Android Studio 3.0 - 无法找到方法“com.android.build.gradle.internal.variant.BaseVariantData.getOutputs()Ljava/util/List”

尝试使用 Android Studio 3 0 Canary 1 启动新的 Kotlin 项目会显示此错误完整轨迹错误找不到方法 com android build gradle internal variant BaseVarian
stargazer 将 data.frame 数据解释为乳胶代码是否构成错误或者这是有意的？

我遇到一个问题 Stargazer 函数将我的 data frame 中的数据解释为乳胶命令我想找到一种方法来抑制观星者的这个功能见下文 z lt c Bank of America Corp Citigroup Inc JPMorga
nvcc fatal：安装 cuda 9.1+caffe+openCV 3.4.0 时不支持 gpu 架构“compute_20”

我已经安装了CUDA 9 1 cudnn 9 1 opencv 3 4 0 caffe 当我尝试跑步时make all j8 in caffe目录下出现这个错误 nvcc fatal 不支持的 GPU 架构 compute 20 我尝试过
DebugView 的替代品？

我在用着系统内部 http en wikipedia org wiki WinternalsDebugView 用于在测试过程中进行调试记录它非常好不过我在想是否有更先进的工具我正在寻找的功能实时过滤器记录所有内容好吧所有
Puppeteer：将循环结构转换为 JSON 您是否传递嵌套的 JSHandle？

我正在尝试抓取一个一页网站有多种选择组合会导致不同的搜索重定向我在里面写了一个for循环page evaluate的回调函数来单击不同的选择并在每个按钮中进行单击搜索但是我收到错误将循环结构转换为 JSON 您是否传递嵌套的 JS
Vim“较早”和“较晚”命令未按预期工作

首先查看 Vim 中的时间旅行命令即ea N s and lat N s 我以为这会很简单但是它并没有像预期的那样对我有用现在我完全困惑了这就是发生的事情我启动了 Vim 并开始编写以下几行 say first line wri
Visual Studio 2022 中的解决方案资源管理器

我刚刚安装了 Visual Studio 2022 professional 安装很顺利没有失败但是当我尝试创建任何项目时我得到这样的解决方案资源管理器 Webapplication1 0项目并且它没有显示带有控制器和启动文件等的
在 Symfony 2.3 项目上集成 Twitter Bootstrap 3.2

我尝试将 Twitter Bootstrap 3 2 集成到我的 Symfony 2 3 项目中刚刚找到 Bootstrap 3 0 的教程与 leafo lessphp 但这不再受支持此外它不适用于 Bootstrap 3 2 我发现
将 pandas 数据框列映射到字典

我有一个数据框的案例其中包含高基数的分类变量许多唯一值我想将该变量重新编码为一组值最常见的值并用一个包罗万象的类别其他替换所有其他值举一个简单的例子以下是应保持不变的两个值 top values apple orange
是否可以撤销提交？

假设我们有一个存储库和 5 个提交 commit 1 commit 2 commit 3 commit 4 commit 5 现在我意识到提交 4 和 5 是一个坏主意我想完全删除提交 4 和 5 中提交的所有更改该怎么做 git re
在clojure中，如何将具有相同键的映射组合的多个映射合并到一个列表中？

在 Clojure 中我想将多个映射组合成一个映射其中具有相同键的映射被组合成一个列表例如 humor happy humor sad humor happy weather sunny 应该导致 weather sunny humo
如何从资源文件夹中获取文件。 Spring框架

我正在尝试解组我的 xml 文件 public Object convertFromXMLToObject String xmlfile throws IOException FileInputStream is null File fil
分层架构中的实体框架

最近我读了一篇文章分层架构中的实体框架 http msdn microsoft com en us magazine cc700340 aspx 并且写道我们可以通过 WCF 将 EF 实体发送到客户端但是在 Stackoverflow
高效的 4x4 矩阵乘法（C 与汇编）

我正在寻找一种更快更棘手的方法来用 C 语言将两个 4x4 矩阵相乘我目前的研究重点是具有 SIMD 扩展的 x86 64 汇编到目前为止我已经创建了一个比简单的 C 实现快大约 6 倍的函数这超出了我对性能改进的预期不幸的是

高效的 4x4 矩阵乘法（C 与汇编）

高效的 4x4 矩阵乘法（C 与汇编） 的相关文章

随机推荐

热门标签

高效的 4x4 矩阵乘法（C 与汇编）的相关文章