对于高度优化的矩阵乘法代码，MSVC 和 GCC 之间的性能差异

2023-11-25

我发现 Ivy Bridge 系统的 MSVC（在 Windows 上）和 GCC（在 Linux 上）编译的代码在性能上存在很大差异。该代码执行密集矩阵乘法。我在 GCC 中得到了 70% 的峰值失败率，而在 MSVC 中只有 50%。我想我可能已经隔离了它们如何转换以下三个内在函数的差异。

__m256 breg0 = _mm256_loadu_ps(&b[8*i])
_mm256_add_ps(_mm256_mul_ps(arge0,breg0), tmp0)

海湾合作委员会这样做

vmovups ymm9, YMMWORD PTR [rax-256]
vmulps  ymm9, ymm0, ymm9
vaddps  ymm8, ymm8, ymm9

MSVC 这样做

vmulps   ymm1, ymm2, YMMWORD PTR [rax-256]
vaddps   ymm3, ymm1, ymm3

有人可以向我解释一下这两种解决方案是否以及为什么会在性能上产生如此大的差异吗？

尽管 MSVC 少用了一条指令，但它会将负载与 mult 联系起来，这可能会使其更加依赖（也许负载不能乱序完成）？我的意思是 Ivy Bridge 可以在一个时钟周期内完成一次 AVX 加载、一次 AVX 乘法和一次 AVX 添加，但这要求每个操作都是独立的。

也许问题出在其他地方？您可以在下面看到最内层循环的 GCC 和 MSVC 的完整汇编代码。您可以在此处查看循环的 C++ 代码使用 Ivy Bridge 和 Haswell 循环展开以实现最大吞吐量

g++ -S -masm=intel 矩阵.cpp -O3 -mavx -fopenmp

.L4:
    vbroadcastss    ymm0, DWORD PTR [rcx+rdx*4]
    add rdx, 1
    add rax, 256
    vmovups ymm9, YMMWORD PTR [rax-256]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm8, ymm8, ymm9
    vmovups ymm9, YMMWORD PTR [rax-224]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm7, ymm7, ymm9
    vmovups ymm9, YMMWORD PTR [rax-192]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm6, ymm6, ymm9
    vmovups ymm9, YMMWORD PTR [rax-160]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm5, ymm5, ymm9
    vmovups ymm9, YMMWORD PTR [rax-128]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm4, ymm4, ymm9
    vmovups ymm9, YMMWORD PTR [rax-96]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm3, ymm3, ymm9
    vmovups ymm9, YMMWORD PTR [rax-64]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm2, ymm2, ymm9
    vmovups ymm9, YMMWORD PTR [rax-32]
    cmp esi, edx
    vmulps  ymm0, ymm0, ymm9
    vaddps  ymm1, ymm1, ymm0
    jg  .L4

MSVC /FAc /O2 /openmp /arch:AVX ...

vbroadcastss ymm2, DWORD PTR [r10]    
lea  rax, QWORD PTR [rax+256]
lea  r10, QWORD PTR [r10+4] 
vmulps   ymm1, ymm2, YMMWORD PTR [rax-320]
vaddps   ymm3, ymm1, ymm3    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-288]
vaddps   ymm4, ymm1, ymm4    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-256]
vaddps   ymm5, ymm1, ymm5    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-224]
vaddps   ymm6, ymm1, ymm6    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-192]
vaddps   ymm7, ymm1, ymm7    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-160]
vaddps   ymm8, ymm1, ymm8    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-128]
vaddps   ymm9, ymm1, ymm9    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-96]
vaddps   ymm10, ymm1, ymm10    
dec  rdx
jne  SHORT $LL3@AddDot4x4_

EDIT:

我通过计算总浮点运算来对代码进行基准测试：2.0*n^3其中 n 是方阵的宽度并除以测量的时间omp_get_wtime()。我重复循环几次。在下面的输出中，我重复了 100 次。

所有内核的 Intel Xeon E5 1620 (Ivy Bridge) Turbo 上的 MSVC2012 输出为 3.7 GHz

maximum GFLOPS = 236.8 = (8-wide SIMD) * (1 AVX mult + 1 AVX add) * (4 cores) * 3.7 GHz

n   64,     0.02 ms, GFLOPs   0.001, GFLOPs/s   23.88, error 0.000e+000, efficiency/core   40.34%, efficiency  10.08%, mem 0.05 MB
n  128,     0.05 ms, GFLOPs   0.004, GFLOPs/s   84.54, error 0.000e+000, efficiency/core  142.81%, efficiency  35.70%, mem 0.19 MB
n  192,     0.17 ms, GFLOPs   0.014, GFLOPs/s   85.45, error 0.000e+000, efficiency/core  144.34%, efficiency  36.09%, mem 0.42 MB
n  256,     0.29 ms, GFLOPs   0.034, GFLOPs/s  114.48, error 0.000e+000, efficiency/core  193.37%, efficiency  48.34%, mem 0.75 MB
n  320,     0.59 ms, GFLOPs   0.066, GFLOPs/s  110.50, error 0.000e+000, efficiency/core  186.66%, efficiency  46.67%, mem 1.17 MB
n  384,     1.39 ms, GFLOPs   0.113, GFLOPs/s   81.39, error 0.000e+000, efficiency/core  137.48%, efficiency  34.37%, mem 1.69 MB
n  448,     3.27 ms, GFLOPs   0.180, GFLOPs/s   55.01, error 0.000e+000, efficiency/core   92.92%, efficiency  23.23%, mem 2.30 MB
n  512,     3.60 ms, GFLOPs   0.268, GFLOPs/s   74.63, error 0.000e+000, efficiency/core  126.07%, efficiency  31.52%, mem 3.00 MB
n  576,     3.93 ms, GFLOPs   0.382, GFLOPs/s   97.24, error 0.000e+000, efficiency/core  164.26%, efficiency  41.07%, mem 3.80 MB
n  640,     5.21 ms, GFLOPs   0.524, GFLOPs/s  100.60, error 0.000e+000, efficiency/core  169.93%, efficiency  42.48%, mem 4.69 MB
n  704,     6.73 ms, GFLOPs   0.698, GFLOPs/s  103.63, error 0.000e+000, efficiency/core  175.04%, efficiency  43.76%, mem 5.67 MB
n  768,     8.55 ms, GFLOPs   0.906, GFLOPs/s  105.95, error 0.000e+000, efficiency/core  178.98%, efficiency  44.74%, mem 6.75 MB
n  832,    10.89 ms, GFLOPs   1.152, GFLOPs/s  105.76, error 0.000e+000, efficiency/core  178.65%, efficiency  44.66%, mem 7.92 MB
n  896,    13.26 ms, GFLOPs   1.439, GFLOPs/s  108.48, error 0.000e+000, efficiency/core  183.25%, efficiency  45.81%, mem 9.19 MB
n  960,    16.36 ms, GFLOPs   1.769, GFLOPs/s  108.16, error 0.000e+000, efficiency/core  182.70%, efficiency  45.67%, mem 10.55 MB
n 1024,    17.74 ms, GFLOPs   2.147, GFLOPs/s  121.05, error 0.000e+000, efficiency/core  204.47%, efficiency  51.12%, mem 12.00 MB

既然我们已经讨论了对齐问题，我猜是这样的：http://en.wikipedia.org/wiki/Out-of-order_execution

由于 g++ 发出独立的加载指令，因此您的处理器可以对指令重新排序，以预取所需的下一个数据，同时进行加法和乘法。 MSVC 在 mul 上抛出一个指针，使 load 和 mul 绑定到同一条指令，因此更改指令的执行顺序没有任何帮助。

编辑：带有所有文档的英特尔服务器今天不再那么生气，因此这里有更多关于为什么乱序执行是答案（部分）的研究。

首先，您的评论似乎完全正确，即 MSVC 版本的乘法指令可以解码为单独的 µ-op，这些 µ-op 可以由 CPU 的乱序引擎进行优化。这里有趣的部分是现代微代码定序器是可编程的，因此实际行为取决于硬件和固件。生成的程序集的差异似乎来自 GCC 和 MSVC，它们各自试图对抗不同的潜在瓶颈。 GCC 版本试图给乱序引擎留有余地（正如我们已经介绍过的）。然而，MSVC 版本最终利用了一种称为“微操作融合”的功能。这是因为 µ-op 退休限制。管道末端每个周期只能退出 3 个 µ-op。在特定情况下，微操作融合需要两个微操作must在两个不同的执行单元（即内存读取和算术）上完成，并将它们绑定到大多数管道的单个 µ-op 上。融合的μ-op仅在执行单元分配之前被分成两个真正的μ-op。执行后，操作再次融合，允许它们作为一个整体退役。

无序引擎只能看到融合的 µ 运算，因此它无法将负载运算从乘法中拉开。这会导致管道在等待下一个操作数完成其总线传输时挂起。

所有链接！！！：http://download-software.intel.com/sites/default/files/management/71/2e/319433-017.pdf

http://www.intel.com/content/dam/www/public/us/en/documents/manuals/64-ia-32-architectures-optimization-manual.pdf

http://www.agner.org/optimize/microarchitecture.pdf

http://www.agner.org/optimize/optimizing_ assembly.pdf

http://www.agner.org/optimize/instruction_tables.ods（注意：Excel 抱怨此电子表格部分损坏或粗略，因此打开您需要自担风险。不过，它似乎不是恶意的，根据我的其余研究，Agner Fog 很棒。在我选择之后-在Excel恢复步骤中，我发现它充满了大量的重要数据）

http://cs.nyu.edu/courses/fall13/CSCI-GA.3033-008/Microprocessor-Report-Sandy-Bridge-Spans-Generations-243901.pdf

http://www.syncfusion.com/Content/downloads/ebook/Assembly_Language_Succinctly.pdf

很久以后编辑：哇，这里的讨论有一些有趣的更新。我想我错误地认为有多少管道实际上受到微操作融合的影响。也许循环条件检查的差异比我预期的性能增益要多，其中未融合的指令允许 GCC 将比较和跳转与最后的向量加载和算术步骤交错？

vmovups ymm9, YMMWORD PTR [rax-32]
cmp esi, edx
vmulps  ymm0, ymm0, ymm9
vaddps  ymm1, ymm1, ymm0
jg  .L4

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对于高度优化的矩阵乘法代码，MSVC 和 GCC 之间的性能差异的相关文章

ASP.NET MVC 中的经典 ASP (C#)

我有一个应用程序想要最终转换为 ASP NET MVC 我想要进行全面的服务升级到 ASP NET 但想要使用当前的 ASP 内容来运行当前的功能这样我就可以在对新框架进行增量升级的同时升级小部分该站点严重依赖于不太成熟的 VB6
我的线程图像生成应用程序如何将其数据传输到 GUI？

Mandelbrot 生成器的缓慢多精度实现线程化使用 POSIX 线程 Gtk 图形用户界面我有点失落了这是我第一次尝试编写线程程序我实际上并没有尝试转换它的单线程版本只是尝试实现基本框架到目前为止它是如何工作的简要描述 M
使用具有现有访问令牌的 Google API .NET 客户端

用例如下移动应用程序正在通过 Google 对用户进行身份验证并且在某些时候我们需要将用户的视频发布到他的 YouTube 帐户出于实际原因实际发布应该由后端完成已经存储在那里的大文件由于用户已经通过应用程序的身份验证因此应
C#动态支持吗？

看完之后这个帖子 https stackoverflow com questions 2674906 when should one use dynamic keyword in c sharp 4 0k和链接我还有 2 个问题问题 1
为什么大多数 C 开发人员使用 Define 而不是 const？ [复制]

这个问题在这里已经有答案了在许多程序中 define与常量具有相同的用途例如 define FIELD WIDTH 10 const int fieldWidth 10 我通常认为第一种形式优于另一种形式它依赖于预处理器来处理基本上是
从 MVC 迁移到 ASP.NET Core 3.1 中的端点路由时，具有角色的 AuthorizeAttribute 不起作用

我正在尝试将我的项目从 UseMVC asp net core 2 2 兼容样式升级到 UseEndpoint Routing 并且我的所有请求都被重定向到我的验证失败页面它与声明有关如果我删除 Authorize Roles Adm
构造函数中显式关键字的使用

我试图了解 C 中显式关键字的用法并查看了这个问题C 中的explicit关键字是什么意思 https stackoverflow com questions 121162 但是那里列出的示例实际上是前两个答案对于用法并不是很清楚
JSON 数组到 C# 列表

如何将这个简单的 JSON 字符串反序列化为 C 中的列表 on4ThnU7 n71YZYVKD CVfSpM2W 10kQotV 这样 List
POCO HTTPSClientSession 发送请求时遇到问题 - 证书验证失败

我正在尝试使用 POCO 库编写一个向服务器发出 HTTPS 请求的程序出于测试目的我正在连接到具有自签名证书的服务器并且我希望允许客户端进行连接为了允许这种情况发生我尝试安装InvalidCertificateHandler这是
暂停下载线程

我正在用 C 编写一个非常简单的批量下载程序该程序读取要下载的 URL 的 txt 文件我已经设置了一个全局线程和委托来更新 GUI 按下开始按钮即可创建并启动该线程我想要做的是有一个暂停按钮使我能够暂停下载直到点击恢复
IronPython：没有名为 json 的模块

我安装了 IronPython 我的 python 文件如下所示 import sys print sys version import json 运行它的代码 var p Python CreateEngine var scope p C
将数据打印到文件

我已经超载了 lt lt 运算符使其写入文件并写入控制台我已经为同一个函数创建了 8 个线程并且我想输出 hello hi 如果我在无限循环中运行这个线程例程文件中的o p是 hello hi hello hi hello hi e
生产代码中的 LRU 实现

我有一些 C 代码需要使用 LRU 技术实现缓存替换目前我知道两种实现LRU缓存替换的方法每次访问缓存数据时使用时间戳最后比较替换时的时间戳使用缓存项的堆栈如果最近访问过它们则将它们移动到顶部因此最后底部将包含 LRU 候选
当我“绘制”线条时，如何将点平均分配到 LineRenderer 的宽度曲线？

我正在使用线条渲染器创建一个绘图应用程序现在我尝试使用线条渲染器上的宽度曲线启用笔压问题在于 AnimationCurve 的时间值水平轴从 0 标准化为 1 因此我不能在每次添加位置时都在其末尾添加一个值除非有一个我不知
如何一步步遍历目录树？

我发现了很多关于遍历目录树的示例但我需要一些不同的东西我需要一个带有某种方法的类每次调用都会从目录返回一个文件并逐渐遍历目录树请问我该怎么做我正在使用函数 FindFirstFile FindNextFile 和 FindClo
System.Runtime.InteropServices.COMException（0x80040154）：[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在 C 项目中遇到异常 System Runtime InteropServices COMException 0x80040154 检
为什么拆箱枚举会产生奇怪的结果？

考虑以下 Object box 5 int int int box int 5 int nullableInt box as int nullableInt 5 StringComparison enum StringComparison
WinRT 定时注销

我正在开发一个 WinRT 应用程序要求之一是应用程序应具有定时注销功能这意味着在任何屏幕上如果应用程序空闲了 10 分钟应用程序应该注销并导航回主屏幕显然执行此操作的强力方法是在每个页面的每个网格上连接指针按下事件并在触
Googletest：如何异步运行测试？

考虑到一个包含数千个测试的大型项目其中一些测试需要几分钟才能完成如果按顺序执行整套测试需要一个多小时才能完成通过并行执行测试可以减少测试时间据我所知没有办法直接从 googletest mock 做到这一点就像 async选项
匿名结构体作为返回类型

下面的代码编译得很好VC 19 00 23506 http rextester com GMUP11493 标志 Wall WX Za 与VC 19 10 25109 0 标志 Wall WX Za permissive 这可以在以下位置检

随机推荐

将单词拆分为所有可能的“子词” - 所有可能的组合

我正在尝试将一个单词拆分为子单词所有可能的排列 Input Bang Output B ang Ba ng Ban g B a ng B an g Ba n g B a n g 我希望我涵盖了所有可能的安排 Bang 的方法我想了很久却
使用 sed，在模式上方或下方插入一行？ [复制]

这个问题在这里已经有答案了我需要通过在唯一模式的正下方或上方插入一行或多行来编辑大量文件请建议如何使用sed awk perl 或其他任何东西在外壳中谢谢例子 some text lorem ipsum dolor sit ame
连接python套接字和java套接字

我一直在尝试在 Java 客户端套接字和 Python 服务器套接字之间发送一个简单的字符串这是服务器套接字的代码 HOST PORT 12000 s socket socket socket AF INET socket SOCK ST
如何使用 Cmake 和 NASM 构建二进制文件

我正在学习 x64 并且我讨厌 make 所以我试图让 cmake 使用 NASM 构建二进制文件 cmake 大致支持这一点但文档很糟糕这就是我现在所做的工作将堆栈溢出中的内容拼凑在一起然后删除所有不会破坏构建的内容 cmake
绑定到当前项目 (WPF)

我正在尝试绑定一个ListView控制到一个DataTable 但 WPF 绑定系统似乎抱怨我指定的绑定路径举个例子一个GridViewColumn定义如下
CMake 对 C 文件禁用 -std=c++11 标志

我正在尝试建立bkchaind 一种构建选项是使用 cmake 因此我使用 Homebrew OSX 10 9 1 安装它当我做cmake不过我得到 2 Building C object json rpc cpp src jsonrp
在 Java 中 fork 一个进程

是否可以将正在执行的程序从单个执行序列创建为两个子程序的完整分支生成的子程序完全相同它们具有相同的执行顺序和值但现在它们是两个不同的程序这就像创建一个对象的克隆从而为我们提供了两个相同类型的不同对象来处理但这里我们想要创建一
range over 存储切片的接口{}

假设您有一个接受的函数t interface 如果确定t是一个切片我该怎么做range在那片上 func main data string one two three test data moredata int 1 2 3 test d
List[Int] 和 List[Integer] 类型擦除的差异

为什么List scala Int 键入擦除List Object whilst Integer in List java lang Integer 似乎被保存例如 javap for object Foo def fooInt Lis
IE (HTTPS)：从 php 文件生成 pdf 不起作用

这是我的问题我正在尝试调用页面 foo php docID bar 并将 PDF 返回到屏幕该 PDF 作为 BLOB 存储在数据库中这是我的代码中实际返回 PDF 的部分 docID isset REQUEST docID REQU
来自 Android Studio 的详细构建日志

使用 Android Studio 构建时如何获取详细日志包括编译器和链接器的命令行参数我刚刚从 Ant Android mk 构建过渡到 Android Studio 构建在旧系统中我能够通过执行以下操作来了解编译器是如何被调用的
如何在多个别名上定义递归 Python 类型？

我想要这个逻辑类型结构 from typing import List Dict Union ObjectType Dict str EntryType ListType List EntryType EntryType Union str
n 级可扩展列表视图

如何显示n级可扩展列表视图android 我只得到3级可扩展的示例参考这个 link 请指导或分享我在android中多级可扩展显示的合适示例 Thanks 根据这个example public View getChildView int
valgrind memcheck 是否支持检查 mmap

我正在尝试 valgrind 来检测内存泄漏它在堆泄漏即从 malloc 或 new 分配内存方面效果很好但是它支持检查 Linux 中的 mmap 泄漏吗谢谢张不直接很难调试看看valgrind h VALGRIND
更改为 Android SDK 26 后工具栏中的图标被压扁

将我的应用程序从编译定位 SDK v25 更改为 SDK v26 后我的应用程序工具栏中的所有菜单图标现在都被压扁压扁拉伸这是相关的布局代码
Postgres 会将 WHERE 子句下推到带有窗口函数（聚合）的 VIEW 中吗？

的文档Pg的窗口函数说窗口函数考虑的行是查询的 FROM 子句生成的虚拟表的行并通过其 WHERE GROUP BY 和 HAVING 子句如果有进行过滤例如由于不满足 WHERE 条件而被删除的行不会被任何窗口函数看到查
如何在 Swift 中使用 MarqueeLabel？

我想知道是否有一种方法可以启用文本的水平滚动即选取框类型的文本我用过这个库 https github com cbpowell MarqueeLabel并将 MarqueeLabel Swift 文件添加到我的应用程序中但到目前为止
无法在 Visual Studio 项目属性中选择 .NET Framework 4.6.1

我使用以下网址安装了 NET Framework 4 6 1 http www microsoft com en us download details aspx id 49981 但是当我打开 Visual Studio 2015 项目时
如何更改 MonthCalendar 控件中某些日期的颜色？

如何更改 VB NET 中 MonthCalendar 控件中某些日期的颜色例如我需要将 1 月 21 日的颜色更改为红色星期日更改为橙色等等这不可能没有内置的方法可以自定义各个日期或日期在屏幕上的显示方式MonthCalenda
对于高度优化的矩阵乘法代码，MSVC 和 GCC 之间的性能差异

我发现 Ivy Bridge 系统的 MSVC 在 Windows 上和 GCC 在 Linux 上编译的代码在性能上存在很大差异该代码执行密集矩阵乘法我在 GCC 中得到了 70 的峰值失败率而在 MSVC 中只有 50 我想我

对于高度优化的矩阵乘法代码，MSVC 和 GCC 之间的性能差异

对于高度优化的矩阵乘法代码，MSVC 和 GCC 之间的性能差异 的相关文章

随机推荐

热门标签

对于高度优化的矩阵乘法代码，MSVC 和 GCC 之间的性能差异的相关文章