在C中使用AVX实现矩阵运算

2024-04-07

我正在尝试使用 AVX 实现以下操作：

for (i=0; i<N; i++) {
  for(j=0; j<N; j++) {
    for (k=0; k<K; k++) {
      d[i][j] += 2 * a[i][k] * ( b[k][j]- c[k]);
    }
  }
}

for (int i=0; i<N; i++){
   f+= d[ind[i]][ind[i]]/2;
}

其中 d 是 NxN 矩阵，a 是 NxK，b 是 KxN，c 是长度为 K 的向量。它们都是双精度数。当然，所有数据都是对齐的，我正在使用#pragma vector aligned帮助编译器（gcc）。

我知道如何将 AVX 扩展与一维数组一起使用，但使用矩阵来实现它对我来说有点棘手。目前，我有以下内容，但没有得到正确的结果：

    for (int i=0; i< floor (N/4); i++){
        for (int j=0; j< floor (N/4); j++){
            __m256d D, A, B, C;
            D = _mm256_setzero_pd();
            #pragma vector aligned
            for (int k=0; k<K_MAX; k++){
                A = _mm256_load_pd(a[i] + k*4);
                B = _mm256_load_pd(b[k] + j*4);
                C = _mm256_load_pd(c + 4*k);
                B = _mm256_sub_pd(B, C);
                A = _mm256_mul_pd(A, B);
                D = _mm256_add_pd(_mm256_set1_pd(2.0), A);
                _mm256_store_pd(d[i] + j*4, D);
            }

        }
    }


    for (int i=0; i<N; i++){
        f+= d[ind[i]][ind[i]]/2;
    }

我希望有人能告诉我错误在哪里。

提前致谢。

注意：我不愿意介绍OpenMP，只是使用SIMD Intel指令

假设 N 和 K 数都相对较大（远大于 4（硬件向量大小）），这是对主循环进行向量化的一种方法。未经测试。

主要思想是矢量化中间循环而不是内部循环。这样做有两个原因。

这避免了水平操作。当仅对内部循环进行向量化时，我们必须计算向量的水平和。
That b[k][j]连续 4 次加载时，加载具有不幸的 RAM 访问模式k值，需要 4 个单独的加载指令，或者收集加载，这两种方法都相对较慢。连续4次加载元素jValues 是一个全向量加载指令，非常高效，特别是在您对齐输入时。

    const int N_aligned = ( N / 4 ) * 4;
    for( int i = 0; i < N; i++ )
    {
        int j = 0;
        for( ; j < N_aligned; j += 4 )
        {
            // Load 4 scalars from d
            __m256d dv = _mm256_loadu_pd( &d[ i ][ j ] );

            // Run the inner loop which only loads from RAM but never stores any data
            for( int k = 0; k < K; k++ )
            {
                __m256d av = _mm256_broadcast_sd( &a[ i ][ k ] );
                __m256d bv = _mm256_loadu_pd( &b[ k ][ j ] );
                __m256d cv = _mm256_broadcast_sd( &c[ k ] );

                // dv += 2*av*( bv - cv )
                __m256d t1 = _mm256_add_pd( av, av );   // 2*av
                __m256d t2 = _mm256_sub_pd( bv, cv );   // bv - cv
                dv = _mm256_fmadd_pd( t1, t2, dv );
            }
            // Store the updated 4 values
            _mm256_storeu_pd( &d[ i ][ j ], dv );
        }

        // Handle remainder with scalar code
        for( ; j < N; j++ )
        {
            double ds = d[ i ][ j ];
            for( int k = 0; k < K; k++ )
                ds += 2 * a[ i ][ k ] * ( b[ k ][ j ] - c[ k ] );
            d[ i ][ j ] = ds;
        }
    }

如果您想进一步优化，请尝试通过像 2 这样的小因子展开内部循环，使用 2 个独立的累加器初始化_mm256_setzero_pd()，将它们添加到循环之后。在某些处理器上，此版本可能会因 FMA 指令的延迟而停止，而不是使加载端口或 ALU 饱和。多个独立累加器有时会有所帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在C中使用AVX实现矩阵运算的相关文章

如何将包含 5000 条记录的 Excel 文件插入到 documentDB 中？

我有一个 Excel 文件最初约有 200 行我能够将 Excel 文件转换为数据表并且所有内容都正确插入到 documentdb 中 Excel 文件现在有 5000 行在插入 30 40 条记录后不会插入其余所有行不会插入到
起订量要求？违背了目的？

是否需要虚拟化您想要模拟的所有属性访问器就违背了模拟的目的我的意思是如果我必须修改我的对象并虚拟化我想要模拟的每个访问器我难道不能继承我的类并自己模拟它吗你的问题非常有效但如果你仔细想想没有其他方法可以模拟课程如果你采用一个接
使用API隐藏程序标题栏

它可以使用 c 和 windows api 删除窗口控制台标题栏如果是的话如何请这个简单的应用程序隐藏并显示其所在控制台的标题栏它会立即将控制台标题更改为 guid 以查找窗口句柄然后它使用 ToggleTitleBar 使用找
是否允许将类模板类型参数键入相同的名称？

这似乎可以在 MSVC 中按预期编译甚至工作但它是合法的 C 代码吗它是否能保证执行此处所期望的操作即将模板类型导出到结构体的同名用户 template
使用 OpenGL 着色器进行数学计算 (C++)

我有一个矩阵例如 100x100 尺寸我需要对每个元素进行计算 matrix i j tt 8 5例如我有一个巨大的矩阵我想使用 OpenGL 着色器来实现该算法我想使用着色器例如 uniform float val unifo
在Application_AquireRequestState事件中用POST数据重写Url

我有一个在其中注册路线的代码Application AcquireRequestState应用程序的事件注册路由后我会在 Http 运行时缓存中设置一个标志这样我就不会再次执行路由注册代码在此事件中注册路线有特定原因Applicat
从 future 中检索值时的 SIGABRT

我在使用 C 11 future 时遇到问题当我打电话时wait or get 关于返回的未来std async 程序接收从mutex标头可能是什么问题呢如何修复它我在 Linux 上使用 g 4 6 将以下代码粘贴到 ideone
是否有像 gccxml 这样的用于生成包装器的 C 标头解析器工具？

我需要为一种新的编程语言编写一些 C 标头包装器并且想要类似 gccxml 的东西但不完全依赖 gcc 以及它在 Windows 系统上带来的问题只需要读C而不是C 只要有完整的文档记录任何格式的输出都可以 Linux Solari
序列化和反序列化 Visual Studio 解决方案文件 - 或以编程方式编辑？

我想以编程方式添加和删除项目解决方案文件夹和其他项目例如解决方案的资源文件但我不确定最好的方法是什么对于那些不知道的人高度简化解决方案文件 sln 通常如下所示 Microsoft Visual Studio Solution
C# datagridview 列转入数组

我正在用 C 构建一个程序并在其中包含一个 datagridview 组件 datagridview 有固定数量的列 2 我想将其保存到两个单独的数组中但行数确实发生了变化我怎么能这样做呢假设一个名为 dataGridView1 的
编译器错误“错误：在文件范围内可变地修改了‘字符串’”

考虑 include
防止GDB中的PLT（过程链接表）断点

在最新版本的 GDB 中在库函数调用上设置断点会导致多个实际断点调用过程链接表 PLT 实际的函数调用这意味着当调用库函数时我们每次都会经历两次中断在以前的 GDB 版本中只会创建 2 因此您只能得到一次中断那么问题来了是否
格式化货币

在下面的示例中逗号是小数点分隔符我有这个 125456 89 我想要这个 125 456 89 其他示例 23456789 89 gt 23 456 789 89 Thanks 看看这个例子 double value 12345 678
正确使用“extern”关键字

有一些来源书籍在线材料解释了extern如下 extern int i declaration has extern int i 1 definition specified by the absence of extern 并且有支
使用（linq to sql）更新错误

我有两个表通过外键 CarrierID 绑定 Carrier CarrierID CarrierName CarrierID 1 CarrierName DHL CarrierID 2 CarrierName Fedex Vendor V
从 C 线程调用 Python 代码

我对从 C 或 C 线程调用 Python 代码时如何确保线程安全感到非常困惑 The Python 文档 http docs python org c api init html non python created threads似乎是
TPL 数据流块下游如何获取源生成的数据？

我正在使用 TPL Dataflow 处理图像我收到处理请求从流中读取图像应用多次转换然后将生成的图像写入另一个流 Request gt Stream gt Image gt Image gt Stream 为此我使用块 Buff
C++ [Windows] 可执行文件所在文件夹的路径[重复]

这个问题在这里已经有答案了我需要访问一些文件fstream在我的 Windows 上的 C 应用程序中这些文件都位于我的exe文件所在文件夹的子文件夹中获取当前可执行文件的文件夹路径的最简单且更重要的最安全的方法是什么 Use 获取
使用 Chrome 和 Selenium 设置 LocalStorage

我正在尝试使用 OpenQA Selenium 和 Chrome 设置本地存储键和值我认为这相当微不足道但我似乎无法让它发挥作用我对 C 很陌生所以我可能错过了一些东西无论如何我有这个功能 public static void
c# 模拟 IFormFile CopyToAsync() 方法

我正在对一个异步函数进行单元测试该函数将 IFormFile 列表转换为我自己的任意数据库文件类列表将文件数据转换为字节数组的方法是 internal async Task

随机推荐

C# 有（直接）flex/yacc 端口吗？或者人们在 C# 中使用什么词法分析器/解析器？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
非虚拟平凡析构函数+继承

假定一个类及其所有子类在存储在精确类型或指向精确类型的指针的变量中时只需要默认析构函数即可释放其资源如果由基类指针引用并且子类可能会泄漏内存并且然后被那个指针删除 Example include
通过多个节点的最短单向路径

我有一系列图形坐标我需要找到穿过它们的最短单向路径我没有预定的开始结束但每个点只能被触摸一次并且不需要返回到最佳原点我已经尝试了几种 TSP 方法但它们似乎都基于最后返回原点这在这种情况下给出了非常低效的结果 Example
如何在 PHP 的 while 循环中计算乘法值？

我有一个 while 循环它显示数据库中的数据现在我想将一行中的两个值相乘并在同一行中显示结果同样的方式将值相乘并在每一行中显示结果我没有得到结果谁能帮我我是 PHP 新手 while row mysql fetch array
如何使用 javascript/jquery 从嵌套列表生成嵌套 json 对象

我想生成以下对象 var ideaBoard Staff Retreat Games title Rockband details 1hr title Texas Hold em details 30min Talks title The
browserify :- 未捕获类型错误：fs.readFileSync 不是函数

我试图在我的代码中使用natural js 在客户端使用它我使用browserify 但它给出了一个错误 Uncaught TypeError fs readFileSync is not a function at loadDictio
Javascript 变量在 onload 函数内没有改变

这段代码总是在警报中返回 3 我一起选择两个文件一个 mp4格式和第二个 zip format function readFile input var counter input files length for x 0 x
Android BiometricPrompt：无法解析符号 PromptInfo

当我从以下位置复制以下代码时this https developer android com training sign in biometric authdeveloper android com 关于在 Android 应用程序中添加生
在应用内购买自动更新内容会提示用户共享信息

我添加了通过 iOS SDK 的 StoreKit API 购买自动更新内容的功能在我的 iOS 设备上的沙盒中测试此功能时同意购买后警报中会显示以下消息分享您的信息此处应用程序名称的发布者想要您的姓名电子邮件和邮政编码以便
为什么对齐是2的幂？

有一句话来自参考参数 http en cppreference com w cpp language object Alignment 每个对象类型都具有称为对齐要求的属性该属性是一个整数值 std size t 类型始终是 2 的幂
如何使用 Google Vision API 对 Base64 编码图像进行文本检测？

我有一个 Base64 编码的图像 imageData data image png base64 iVBORw0rrfwfwHReger32QRQWr 我应该如何使用谷歌云视觉Python库进行文本检测我的代码如下所示 from goo
Android 中的国际化

我正在制作一个应用程序我想在其中实现国际化我创建了替代资源例如 res values fr strings xml 其中包含所有字符串的法文文本包括标题谁能告诉我下一步该怎么做 thanks 你应该总是有默认字符串res valu
CryptographicException“密钥在指定状态下使用无效。”尝试导出 X509 私钥的 RSAParameters 时

我盯着这个看了很长一段时间感谢MSDN 文档 http msdn microsoft com query dev10 query appId Dev10IDEF1 l EN US k k 28SYSTEM SECURITY CRYPTOG
为什么数据只能压缩一次？

所以压缩过程需要一大块二进制数据A并输出较小的二进制数据块B 有什么特点B使其无法再次经历这个过程数据有一种叫做熵的东西每个新位给出的新信息量例如 10101010101010101010具有低熵因为你不需要下一点就知道接下来会发生
即使使用智能指针，C++ 在发生异常时也会泄漏

我是智能指针世界的新手我已经阅读完毕他们都指出即使程序在遇到异常后退出智能指针也可以避免内存泄漏我写了一个简单的程序来尝试一下但是Valgrind http en wikipedia org wiki Valgrind告诉我我的
C 将未知大小的数组传递给单个变量中的函数

在 C 中我必须将数组传递给单个变量中的函数并且在程序运行之前不知道数组的大小纸上解决方案是在数组中添加一个额外的元素用于存储数组的大小我认为这称为哨兵值好的但我在实现这个时遇到问题将 array 作为函数参数传递似乎不起
使用 JFreeChart 散点图有没有办法细分数据集的样式？

我正在使用 JFreeChart 渲染包含数千个数据点的散点图我通过将合适的 XYLineAndShapeRendererper 附加到每个数据集来控制每个 ScatterPlotDataset 的外观样式例如数据集 1 中的点显示
在运行时更改标签位置

如何改变UILabel运行时的位置 Thanks label frame CGRectMake or label center CGPointMake
R中不同时间序列数据值的互相关

我有 5 个地点 15 天的时间序列数据以日格式存储为matrix 数据的结构是 meter daywise lt structure c 24 4745528484842 21 5936510486629 58 91208965401
在C中使用AVX实现矩阵运算

我正在尝试使用 AVX 实现以下操作 for i 0 i

在C中使用AVX实现矩阵运算

在C中使用AVX实现矩阵运算 的相关文章

随机推荐

热门标签

在C中使用AVX实现矩阵运算的相关文章