对于高度优化的矩阵乘法代码,MSVC 和 GCC 之间的性能差异

2023-11-25

我发现 Ivy Bridge 系统的 MSVC(在 Windows 上)和 GCC(在 Linux 上)编译的代码在性能上存在很大差异。该代码执行密集矩阵乘法。我在 GCC 中得到了 70% 的峰值失败率,而在 MSVC 中只有 50%。我想我可能已经隔离了它们如何转换以下三个内在函数的差异。

__m256 breg0 = _mm256_loadu_ps(&b[8*i])
_mm256_add_ps(_mm256_mul_ps(arge0,breg0), tmp0)

海湾合作委员会这样做

vmovups ymm9, YMMWORD PTR [rax-256]
vmulps  ymm9, ymm0, ymm9
vaddps  ymm8, ymm8, ymm9

MSVC 这样做

vmulps   ymm1, ymm2, YMMWORD PTR [rax-256]
vaddps   ymm3, ymm1, ymm3

有人可以向我解释一下这两种解决方案是否以及为什么会在性能上产生如此大的差异吗?

尽管 MSVC 少用了一条指令,但它会将负载与 mult 联系起来,这可能会使其更加依赖(也许负载不能乱序完成)?我的意思是 Ivy Bridge 可以在一个时钟周期内完成一次 AVX 加载、一次 AVX 乘法和一次 AVX 添加,但这要求每个操作都是独立的。

也许问题出在其他地方?您可以在下面看到最内层循环的 GCC 和 MSVC 的完整汇编代码。您可以在此处查看循环的 C++ 代码使用 Ivy Bridge 和 Haswell 循环展开以实现最大吞吐量

g++ -S -masm=intel 矩阵.cpp -O3 -mavx -fopenmp

.L4:
    vbroadcastss    ymm0, DWORD PTR [rcx+rdx*4]
    add rdx, 1
    add rax, 256
    vmovups ymm9, YMMWORD PTR [rax-256]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm8, ymm8, ymm9
    vmovups ymm9, YMMWORD PTR [rax-224]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm7, ymm7, ymm9
    vmovups ymm9, YMMWORD PTR [rax-192]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm6, ymm6, ymm9
    vmovups ymm9, YMMWORD PTR [rax-160]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm5, ymm5, ymm9
    vmovups ymm9, YMMWORD PTR [rax-128]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm4, ymm4, ymm9
    vmovups ymm9, YMMWORD PTR [rax-96]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm3, ymm3, ymm9
    vmovups ymm9, YMMWORD PTR [rax-64]
    vmulps  ymm9, ymm0, ymm9
    vaddps  ymm2, ymm2, ymm9
    vmovups ymm9, YMMWORD PTR [rax-32]
    cmp esi, edx
    vmulps  ymm0, ymm0, ymm9
    vaddps  ymm1, ymm1, ymm0
    jg  .L4

MSVC /FAc /O2 /openmp /arch:AVX ...

vbroadcastss ymm2, DWORD PTR [r10]    
lea  rax, QWORD PTR [rax+256]
lea  r10, QWORD PTR [r10+4] 
vmulps   ymm1, ymm2, YMMWORD PTR [rax-320]
vaddps   ymm3, ymm1, ymm3    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-288]
vaddps   ymm4, ymm1, ymm4    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-256]
vaddps   ymm5, ymm1, ymm5    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-224]
vaddps   ymm6, ymm1, ymm6    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-192]
vaddps   ymm7, ymm1, ymm7    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-160]
vaddps   ymm8, ymm1, ymm8    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-128]
vaddps   ymm9, ymm1, ymm9    
vmulps   ymm1, ymm2, YMMWORD PTR [rax-96]
vaddps   ymm10, ymm1, ymm10    
dec  rdx
jne  SHORT $LL3@AddDot4x4_

EDIT:

我通过计算总浮点运算来对代码进行基准测试:2.0*n^3其中 n 是方阵的宽度并除以测量的时间omp_get_wtime()。我重复循环几次。在下面的输出中,我重复了 100 次。

所有内核的 Intel Xeon E5 1620 (Ivy Bridge) Turbo 上的 MSVC2012 输出为 3.7 GHz

maximum GFLOPS = 236.8 = (8-wide SIMD) * (1 AVX mult + 1 AVX add) * (4 cores) * 3.7 GHz

n   64,     0.02 ms, GFLOPs   0.001, GFLOPs/s   23.88, error 0.000e+000, efficiency/core   40.34%, efficiency  10.08%, mem 0.05 MB
n  128,     0.05 ms, GFLOPs   0.004, GFLOPs/s   84.54, error 0.000e+000, efficiency/core  142.81%, efficiency  35.70%, mem 0.19 MB
n  192,     0.17 ms, GFLOPs   0.014, GFLOPs/s   85.45, error 0.000e+000, efficiency/core  144.34%, efficiency  36.09%, mem 0.42 MB
n  256,     0.29 ms, GFLOPs   0.034, GFLOPs/s  114.48, error 0.000e+000, efficiency/core  193.37%, efficiency  48.34%, mem 0.75 MB
n  320,     0.59 ms, GFLOPs   0.066, GFLOPs/s  110.50, error 0.000e+000, efficiency/core  186.66%, efficiency  46.67%, mem 1.17 MB
n  384,     1.39 ms, GFLOPs   0.113, GFLOPs/s   81.39, error 0.000e+000, efficiency/core  137.48%, efficiency  34.37%, mem 1.69 MB
n  448,     3.27 ms, GFLOPs   0.180, GFLOPs/s   55.01, error 0.000e+000, efficiency/core   92.92%, efficiency  23.23%, mem 2.30 MB
n  512,     3.60 ms, GFLOPs   0.268, GFLOPs/s   74.63, error 0.000e+000, efficiency/core  126.07%, efficiency  31.52%, mem 3.00 MB
n  576,     3.93 ms, GFLOPs   0.382, GFLOPs/s   97.24, error 0.000e+000, efficiency/core  164.26%, efficiency  41.07%, mem 3.80 MB
n  640,     5.21 ms, GFLOPs   0.524, GFLOPs/s  100.60, error 0.000e+000, efficiency/core  169.93%, efficiency  42.48%, mem 4.69 MB
n  704,     6.73 ms, GFLOPs   0.698, GFLOPs/s  103.63, error 0.000e+000, efficiency/core  175.04%, efficiency  43.76%, mem 5.67 MB
n  768,     8.55 ms, GFLOPs   0.906, GFLOPs/s  105.95, error 0.000e+000, efficiency/core  178.98%, efficiency  44.74%, mem 6.75 MB
n  832,    10.89 ms, GFLOPs   1.152, GFLOPs/s  105.76, error 0.000e+000, efficiency/core  178.65%, efficiency  44.66%, mem 7.92 MB
n  896,    13.26 ms, GFLOPs   1.439, GFLOPs/s  108.48, error 0.000e+000, efficiency/core  183.25%, efficiency  45.81%, mem 9.19 MB
n  960,    16.36 ms, GFLOPs   1.769, GFLOPs/s  108.16, error 0.000e+000, efficiency/core  182.70%, efficiency  45.67%, mem 10.55 MB
n 1024,    17.74 ms, GFLOPs   2.147, GFLOPs/s  121.05, error 0.000e+000, efficiency/core  204.47%, efficiency  51.12%, mem 12.00 MB

既然我们已经讨论了对齐问题,我猜是这样的:http://en.wikipedia.org/wiki/Out-of-order_execution

由于 g++ 发出独立的加载指令,因此您的处理器可以对指令重新排序,以预取所需的下一个数据,同时进行加法和乘法。 MSVC 在 mul 上抛出一个指针,使 load 和 mul 绑定到同一条指令,因此更改指令的执行顺序没有任何帮助。

编辑:带有所有文档的英特尔服务器今天不再那么生气,因此这里有更多关于为什么乱序执行是答案(部分)的研究。

首先,您的评论似乎完全正确,即 MSVC 版本的乘法指令可以解码为单独的 µ-op,这些 µ-op 可以由 CPU 的乱序引擎进行优化。这里有趣的部分是现代微代码定序器是可编程的,因此实际行为取决于硬件和固件。生成的程序集的差异似乎来自 GCC 和 MSVC,它们各自试图对抗不同的潜在瓶颈。 GCC 版本试图给乱序引擎留有余地(正如我们已经介绍过的)。然而,MSVC 版本最终利用了一种称为“微操作融合”的功能。这是因为 µ-op 退休限制。管道末端每个周期只能退出 3 个 µ-op。在特定情况下,微操作融合需要两个微操作must在两个不同的执行单元(即内存读取和算术)上完成,并将它们绑定到大多数管道的单个 µ-op 上。融合的μ-op仅在执行单元分配之前被分成两个真正的μ-op。执行后,操作再次融合,允许它们作为一个整体退役。

无序引擎只能看到融合的 µ 运算,因此它无法将负载运算从乘法中拉开。这会导致管道在等待下一个操作数完成其总线传输时挂起。

所有链接!!!:http://download-software.intel.com/sites/default/files/management/71/2e/319433-017.pdf

http://www.intel.com/content/dam/www/public/us/en/documents/manuals/64-ia-32-architectures-optimization-manual.pdf

http://www.agner.org/optimize/microarchitecture.pdf

http://www.agner.org/optimize/optimizing_ assembly.pdf

http://www.agner.org/optimize/instruction_tables.ods(注意:Excel 抱怨此电子表格部分损坏或粗略,因此打开您需要自担风险。不过,它似乎不是恶意的,根据我的其余研究,Agner Fog 很棒。在我选择之后-在Excel恢复步骤中,我发现它充满了大量的重要数据)

http://cs.nyu.edu/courses/fall13/CSCI-GA.3033-008/Microprocessor-Report-Sandy-Bridge-Spans-Generations-243901.pdf

http://www.syncfusion.com/Content/downloads/ebook/Assembly_Language_Succinctly.pdf


很久以后编辑: 哇,这里的讨论有一些有趣的更新。我想我错误地认为有多少管道实际上受到微操作融合的影响。也许循环条件检查的差异比我预期的性能增益要多,其中未融合的指令允许 GCC 将比较和跳转与最后的向量加载和算术步骤交错?

vmovups ymm9, YMMWORD PTR [rax-32]
cmp esi, edx
vmulps  ymm0, ymm0, ymm9
vaddps  ymm1, ymm1, ymm0
jg  .L4
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

对于高度优化的矩阵乘法代码,MSVC 和 GCC 之间的性能差异 的相关文章

  • ASP.NET MVC 中的经典 ASP (C#)

    我有一个应用程序想要 最终 转换为 ASP NET MVC 我想要进行全面的服务升级 到 ASP NET 但想要使用当前的 ASP 内容来运行当前的功能 这样我就可以在对新框架进行增量升级的同时升级小部分 该站点严重依赖于不太成熟的 VB6
  • 我的线程图像生成应用程序如何将其数据传输到 GUI?

    Mandelbrot 生成器的缓慢多精度实现 线程化 使用 POSIX 线程 Gtk 图形用户界面 我有点失落了 这是我第一次尝试编写线程程序 我实际上并没有尝试转换它的单线程版本 只是尝试实现基本框架 到目前为止它是如何工作的简要描述 M
  • 使用具有现有访问令牌的 Google API .NET 客户端

    用例如下 移动应用程序正在通过 Google 对用户进行身份验证 并且在某些时候 我们需要将用户的视频发布到他的 YouTube 帐户 出于实际原因 实际发布应该由后端完成 已经存储在那里的大文件 由于用户已经通过应用程序的身份验证 因此应
  • C#动态支持吗?

    看完之后这个帖子 https stackoverflow com questions 2674906 when should one use dynamic keyword in c sharp 4 0k和链接 我还有 2 个问题 问题 1
  • 为什么大多数 C 开发人员使用 Define 而不是 const? [复制]

    这个问题在这里已经有答案了 在许多程序中 define与常量具有相同的用途 例如 define FIELD WIDTH 10 const int fieldWidth 10 我通常认为第一种形式优于另一种形式 它依赖于预处理器来处理基本上是
  • 从 MVC 迁移到 ASP.NET Core 3.1 中的端点路由时,具有角色的 AuthorizeAttribute 不起作用

    我正在尝试将我的项目从 UseMVC asp net core 2 2 兼容样式 升级到 UseEndpoint Routing 并且我的所有请求都被重定向到我的验证失败页面 它与声明有关 如果我删除 Authorize Roles Adm
  • 构造函数中显式关键字的使用

    我试图了解 C 中显式关键字的用法 并查看了这个问题C 中的explicit关键字是什么意思 https stackoverflow com questions 121162 但是 那里列出的示例 实际上是前两个答案 对于用法并不是很清楚
  • JSON 数组到 C# 列表

    如何将这个简单的 JSON 字符串反序列化为 C 中的列表 on4ThnU7 n71YZYVKD CVfSpM2W 10kQotV 这样 List
  • POCO HTTPSClientSession 发送请求时遇到问题 - 证书验证失败

    我正在尝试使用 POCO 库编写一个向服务器发出 HTTPS 请求的程序 出于测试目的 我正在连接到具有自签名证书的服务器 并且我希望允许客户端进行连接 为了允许这种情况发生 我尝试安装InvalidCertificateHandler这是
  • 暂停下载线程

    我正在用 C 编写一个非常简单的批量下载程序 该程序读取要下载的 URL 的 txt 文件 我已经设置了一个全局线程和委托来更新 GUI 按下 开始 按钮即可创建并启动该线程 我想要做的是有一个 暂停 按钮 使我能够暂停下载 直到点击 恢复
  • IronPython:没有名为 json 的模块

    我安装了 IronPython 我的 python 文件如下所示 import sys print sys version import json 运行它的代码 var p Python CreateEngine var scope p C
  • 将数据打印到文件

    我已经超载了 lt lt 运算符 使其写入文件并写入控制台 我已经为同一个函数创建了 8 个线程 并且我想输出 hello hi 如果我在无限循环中运行这个线程例程 文件中的o p是 hello hi hello hi hello hi e
  • 生产代码中的 LRU 实现

    我有一些 C 代码 需要使用 LRU 技术实现缓存替换 目前我知道两种实现LRU缓存替换的方法 每次访问缓存数据时使用时间戳 最后比较替换时的时间戳 使用缓存项的堆栈 如果最近访问过它们 则将它们移动到顶部 因此最后底部将包含 LRU 候选
  • 当我“绘制”线条时,如何将点平均分配到 LineRenderer 的宽度曲线?

    我正在使用线条渲染器创建一个 绘图 应用程序 现在我尝试使用线条渲染器上的宽度曲线启用笔压 问题在于 AnimationCurve 的 时间 值 水平轴 从 0 标准化为 1 因此我不能在每次添加位置时都在其末尾添加一个值 除非有一个我不知
  • 如何一步步遍历目录树?

    我发现了很多关于遍历目录树的示例 但我需要一些不同的东西 我需要一个带有某种方法的类 每次调用都会从目录返回一个文件 并逐渐遍历目录树 请问我该怎么做 我正在使用函数 FindFirstFile FindNextFile 和 FindClo
  • System.Runtime.InteropServices.COMException(0x80040154):[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我在 C 项目中遇到异常 System Runtime InteropServices COMException 0x80040154 检
  • 为什么拆箱枚举会产生奇怪的结果?

    考虑以下 Object box 5 int int int box int 5 int nullableInt box as int nullableInt 5 StringComparison enum StringComparison
  • WinRT 定时注销

    我正在开发一个 WinRT 应用程序 要求之一是应用程序应具有 定时注销 功能 这意味着在任何屏幕上 如果应用程序空闲了 10 分钟 应用程序应该注销并导航回主屏幕 显然 执行此操作的强力方法是在每个页面的每个网格上连接指针按下事件 并在触
  • Googletest:如何异步运行测试?

    考虑到一个包含数千个测试的大型项目 其中一些测试需要几分钟才能完成 如果按顺序执行 整套测试需要一个多小时才能完成 通过并行执行测试可以减少测试时间 据我所知 没有办法直接从 googletest mock 做到这一点 就像 async选项
  • 匿名结构体作为返回类型

    下面的代码编译得很好VC 19 00 23506 http rextester com GMUP11493 标志 Wall WX Za 与VC 19 10 25109 0 标志 Wall WX Za permissive 这可以在以下位置检

随机推荐

  • 将单词拆分为所有可能的“子词” - 所有可能的组合

    我正在尝试将一个单词拆分为子单词 所有可能的排列 Input Bang Output B ang Ba ng Ban g B a ng B an g Ba n g B a n g 我希望我涵盖了所有可能的安排 Bang 的方法 我想了很久却
  • 使用 sed,在模式上方或下方插入一行? [复制]

    这个问题在这里已经有答案了 我需要通过在唯一模式的正下方或上方插入一行或多行来编辑大量文件 请建议如何使用sed awk perl 或其他任何东西 在外壳中 谢谢 例子 some text lorem ipsum dolor sit ame
  • 连接python套接字和java套接字

    我一直在尝试在 Java 客户端套接字和 Python 服务器套接字之间发送一个简单的字符串 这是服务器套接字的代码 HOST PORT 12000 s socket socket socket AF INET socket SOCK ST
  • 如何使用 Cmake 和 NASM 构建二进制文件

    我正在学习 x64 并且我讨厌 make 所以我试图让 cmake 使用 NASM 构建二进制文件 cmake 大致支持这一点 但文档很糟糕 这就是我现在所做的工作 将堆栈溢出中的内容拼凑在一起 然后删除所有不会破坏构建的内容 cmake
  • 绑定到当前项目 (WPF)

    我正在尝试绑定一个ListView控制到一个DataTable 但 WPF 绑定系统似乎抱怨我指定的绑定路径 举个例子 一个GridViewColumn定义如下
  • CMake 对 C 文件禁用 -std=c++11 标志

    我正在尝试建立bkchaind 一种构建选项是使用 cmake 因此我使用 Homebrew OSX 10 9 1 安装它 当我做cmake不过 我得到 2 Building C object json rpc cpp src jsonrp
  • 在 Java 中 fork 一个进程

    是否可以将正在执行的 程序 从单个执行序列创建为两个子程序的完整分支 生成的子程序完全相同 它们具有相同的执行顺序和值 但现在它们是两个不同的程序 这就像创建一个对象的克隆 从而为我们提供了两个相同类型的不同对象来处理 但这里我们想要创建一
  • range over 存储切片的接口{}

    假设您有一个接受的函数t interface 如果确定t是一个切片 我该怎么做range在那片上 func main data string one two three test data moredata int 1 2 3 test d
  • List[Int] 和 List[Integer] 类型擦除的差异

    为什么List scala Int 键入擦除List Object whilst Integer in List java lang Integer 似乎 被保存 例如 javap for object Foo def fooInt Lis
  • IE (HTTPS):从 php 文件生成 pdf 不起作用

    这是我的问题 我正在尝试调用页面 foo php docID bar 并将 PDF 返回到屏幕 该 PDF 作为 BLOB 存储在数据库中 这是我的代码中实际返回 PDF 的部分 docID isset REQUEST docID REQU
  • 来自 Android Studio 的详细构建日志

    使用 Android Studio 构建时如何获取详细日志 包括编译器和链接器的命令行参数 我刚刚从 Ant Android mk 构建过渡到 Android Studio 构建 在旧系统中 我能够通过执行以下操作来了解编译器是如何被调用的
  • 如何在多个别名上定义递归 Python 类型?

    我想要这个逻辑类型结构 from typing import List Dict Union ObjectType Dict str EntryType ListType List EntryType EntryType Union str
  • n 级可扩展列表视图

    如何显示n级可扩展列表视图android 我只得到3级可扩展的示例 参考这个 link 请指导或分享我在android中多级可扩展显示的合适示例 Thanks 根据这个example public View getChildView int
  • valgrind memcheck 是否支持检查 mmap

    我正在尝试 valgrind 来检测内存泄漏 它在堆泄漏 即从 malloc 或 new 分配内存 方面效果很好 但是 它支持检查 Linux 中的 mmap 泄漏吗 谢谢 张 不直接 很难调试 看看valgrind h VALGRIND
  • 更改为 Android SDK 26 后工具栏中的图标被压扁

    将我的应用程序从编译 定位 SDK v25 更改为 SDK v26 后 我的应用程序工具栏中的所有菜单图标现在都被压扁 压扁 拉伸 这是相关的布局代码
  • Postgres 会将 WHERE 子句下推到带有窗口函数(聚合)的 VIEW 中吗?

    的文档Pg的窗口函数说 窗口函数考虑的行是查询的 FROM 子句生成的 虚拟表 的行 并通过其 WHERE GROUP BY 和 HAVING 子句 如果有 进行过滤 例如 由于不满足 WHERE 条件而被删除的行不会被任何窗口函数看到 查
  • 如何在 Swift 中使用 MarqueeLabel?

    我想知道是否有一种方法可以启用文本的水平滚动 即选取框类型的文本 我用过这个库 https github com cbpowell MarqueeLabel并将 MarqueeLabel Swift 文件添加到我的应用程序中 但到目前为止
  • 无法在 Visual Studio 项目属性中选择 .NET Framework 4.6.1

    我使用以下网址安装了 NET Framework 4 6 1 http www microsoft com en us download details aspx id 49981 但是当我打开 Visual Studio 2015 项目时
  • 如何更改 MonthCalendar 控件中某些日期的颜色?

    如何更改 VB NET 中 MonthCalendar 控件中某些日期的颜色 例如 我需要将 1 月 21 日的颜色更改为红色 星期日更改为橙色等等 这不可能 没有内置的方法可以自定义各个日期或日期在屏幕上的显示方式MonthCalenda
  • 对于高度优化的矩阵乘法代码,MSVC 和 GCC 之间的性能差异

    我发现 Ivy Bridge 系统的 MSVC 在 Windows 上 和 GCC 在 Linux 上 编译的代码在性能上存在很大差异 该代码执行密集矩阵乘法 我在 GCC 中得到了 70 的峰值失败率 而在 MSVC 中只有 50 我想我