_mm256_fmadd_ps 比 _mm256_mul_ps + _mm256_add_ps 慢？

2024-05-02

我有一个图像处理算法来计算a*b+c*d与AVX。伪代码如下：

float *a=new float[N];
float *b=new float[N];
float *c=new float[N];
float *d=new float[N];

//assign values to a, b, c and d
__m256 sum;
double start=cv::getTickCount();
for (int i = 0; i < n; i += 8) // assume that n is a multiple of 8
{
    __m256 am=_mm256_loadu_ps(a+i);
    __m256 bm=_mm256_loadu_ps(b+i);
    __m256 cm=_mm256_loadu_ps(c+i);
    __m256 dm=_mm256_loadu_ps(d+i);

    __m256 abm=_mm256_mul_ps(am, bm);
    __m256 cdm=_mm256_mul_ps(cm, dm);
    __m256 abcdm=_mm256_add_ps(abm, cdm);
    sum=_mm256_add_ps(sum, abcdm);
}
double time1=(cv::getTickCount()-start)/cv::getTickFrequency();

我将上面的 _mm256_mul_ps 和 _mm256_add_ps 更改为 _mm256_fmadd_ps ，如下所示：

float *a=new float[N];
float *b=new float[N];
float *c=new float[N];
float *d=new float[N];

//assign values to a, b, c and d
__m256 sum;
double start=cv::getTickCount();
for (int i = 0; i < n; i += 8) // assume that n is a multiple of 8
{
    __m256 am=_mm256_loadu_ps(a+i);
    __m256 bm=_mm256_loadu_ps(b+i);
    __m256 cm=_mm256_loadu_ps(c+i);
    __m256 dm=_mm256_loadu_ps(d+i);

    sum=_mm256_fmadd_ps(am, bm, sum);
    sum=_mm256_fmadd_ps(cm, dm, sum);
}
double time2=(cv::getTickCount()-start)/cv::getTickFrequency();

但下面的代码比上面的慢！上面的代码执行时间1是50ms，下面的代码执行时间2是90ms。 _mm256_fmadd_ps 比 _mm256_mul_ps + _mm256_add_ps 慢？？？

我使用 Ubuntu 16.04，GCC 7.5.0，编译器标志：-fopenmp -march=native -O3

您的缩减循环既是延迟瓶颈，又不是吞吐量瓶颈，因为您只使用一个 FP 向量累加器。 FMA 速度较慢，因为您使关键路径更长（每个循环迭代有 2 条指令链，而不是 1 条指令）。

In the add在这种情况下，循环携带依赖链sum只是sum=_mm256_add_ps(sum, abcdm);。其他指令对于每次迭代都是独立的，并且可以具有abcdm输入准备好前一个vaddps有这个迭代的sum ready.

In the fma在这种情况下，循环携带的 dep 链经过两个_mm256_fmadd_ps操作，都进入sum，所以是的，您预计它会慢两倍左右。

使用更多累加器展开以隐藏 FP 延迟（就像点积的正常情况一样）. See 为什么mulss在Haswell上只需要3个周期，与Agner的指令表不同？（使用多个累加器展开 FP 循环） https://stackoverflow.com/questions/45113527/why-does-mulss-take-only-3-cycles-on-haswell-different-from-agners-instruction有关此内容以及 OoO exec 工作原理的更多详细信息。

另请参阅使用 SIMD 提高数组浮点点积的性能 https://stackoverflow.com/questions/65818232/improving-performance-of-floating-point-dot-product-of-an-array-with-simd/65827668#65827668这是一个更简单、适合初学者的 2 个累加器示例。

（将这些单独的__m256 sum0, sum1, sum2, etcvars 应该在循环之后完成。您还可以使用__m256 sum[4]以节省打字。您甚至可以对该数组使用内部循环；大多数编译器将完全展开小型固定计数循环，因此您可以在每个循环中获得所需的展开汇编__m256在单独的 YMM 寄存器中。）

或者让 clang 自动矢量化它；它通常会为您使用多个累加器展开。

或者，如果您出于某种原因不想展开，您可以使用 FMA，同时使用以下命令保持较低的循环承载延迟：sum += fma(a, b, c*d);（一份 mul、一份 FMA、一份添加）。当然，假设你的编译器没有“收缩”你的 mul 并为你添加到 FMA 中，如果你使用-ffast-math;默认情况下，GCC 会在语句中积极执行此操作，但 clang 不会。

一旦你这样做了，你的吞吐量将在每个时钟 2 个负载上成为瓶颈（最好的情况是即使使用对齐阵列，也没有缓存行分割，这new won't给你），所以使用 FMA 除了减少前端瓶颈之外几乎没有帮助。（与需要在每个负载运行 1 FP 操作才能跟上的多累加器 mul/add 版本相比；使用多个累加器将使您比任一原始循环更快。就像每 2 个周期进行一次迭代（4 个负载），而不是 1每 3 个周期vaddps延迟瓶颈）。

在 Skylake 及更高版本上，FMA/add/mul 都具有相同的延迟：4 个周期。在 Haswell/Broadwell 上，vaddps 延迟为 3 个周期（一个专用 FP 添加单元），而 FMA 延迟为 5。

Zen2 有 3 个周期 vaddps、5 个周期 vfma....ps (https://uops.info/ https://uops.info/）。（两者的 2/时钟吞吐量，并且在不同的执行端口上，因此理论上您可以运行 2 个 FMAandZen2 上每个时钟 2 个 vaddp。）

由于您的较长延迟 FMA 循环的速度不到两倍，我猜测您可能使用的是 Skylake 衍生的 CPU。也许 mul/add 版本在前端或资源冲突或其他方面遇到了一些瓶颈，并且没有完全达到预期的每 3 个时钟 1 次迭代延迟限制速度。

一般来说，请参阅https://uops.info/ https://uops.info/用于延迟和微指令/端口故障。（还https://agner.org/optimize/ https://agner.org/optimize/).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

_mm256_fmadd_ps 比 _mm256_mul_ps + _mm256_add_ps 慢？的相关文章

将两个 32 位整数向量相乘，生成 32 位结果元素向量

将每个 32 位条目乘以 2 的最佳方法是什么 mm256i互相注册 mm256 mul epu32不是我正在寻找的因为它产生 64 位输出我想要每个 32 位输入元素都有一个 32 位结果而且我确信两个 32 位值的乘法不会溢出
使用 -static-libgcc -static-libstdc++ 编译仍然会导致对 libc.so 的动态依赖

我正在尝试制作一个尽可能可移植的可执行文件删除一些依赖项后我在另一个系统上运行二进制文件时遇到以下问题 lib x86 64 linux gnu libm so 6 version GLIBC 2 15 not found requir
如何BSWAP 64位寄存器的低32位？

我一直在寻找如何将 BSWAP 用于 64 位寄存器的低 32 位子寄存器的答案例如 0x0123456789abcdef位于 RAX 寄存器内我想将其更改为0x01234567efcdab89用一条指令因为性能所以我尝试了以下内联
在 x86 ASM 中测试零通常哪个更快：“TEST EAX, EAX”与“TEST AL, AL”？

测试 AL 中的字节是否为零非零通常哪个更快 TEST EAX EAX TEST AL AL 假设之前有一个 MOVZX EAX BYTE PTR ESP 4 指令加载了一个带有零扩展的字节参数到 EAX 的其余部分防止了我已经知道的组
在 Ubuntu 上用 C 项目编译和链接 GTK 3

我相信这不是重复的问题在发布此问题之前我已经看过所有问题答案我想我这里的情况有所不同我使用Ubuntu 12 04并下载GTK 2 和 3 我从 GNOME 网站复制了一个简单的 GTK 源代码但是当我在终端中使用这个命令时 gc
C++ while 循环优化无法正常工作

我有这个代码段 include
`printf()` 中格式说明符“%qd”的用途是什么？

我看到格式说明符 qd浏览时github https github com Microsoft clang blob master test Sema format strings c代码然后我检查了 GCC 编译器它工作正常 incl
为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
在 Linux 上将 libquadmath 与 C++ 链接

我有一个示例代码 include
错误：“std::this_thread”尚未声明

我尝试使用 std this thread sleep for 函数但收到错误 error std this thread has not been declared 包括标志 GLIBCXX USE NANOSLEEP 还需要什么来强制它
这种对有效类型规则的使用是否严格遵守？

C99和C11中的有效类型规则规定没有声明类型的存储可以用任何类型写入并且存储非字符类型的值将相应地设置存储的有效类型抛开 INT MAX 可能小于 123456789 的事实不谈以下代码对有效类型规则的使用是否严格符合 inclu
GCC：数组类型具有不完整的元素类型

我已经宣布了struct 我尝试传递这些结构的数组以及double双精度数组和一个整数到一个函数中我得到一个数组类型具有不完整的元素类型当我编译它时来自 gcc 的消息我在通过考试的过程中犯了什么错误struct到函数 type
为什么 ld 无法从 /etc/ld.so.conf 中的路径找到库？

我想添加 opt vertica lib64进入系统库路径所以我执行以下步骤 1 添加 opt vertica lib64 into etc ld so conf 然后运行ldconfig 2 检查 bash ldconfig p gre
Gcc 4.2 版本缺失

在我的带有 osx lion 和 XCode 4 1 的新 macbook pro 上我遇到了一些 gcc 问题 In usr bin我找不到gcc 4 2 我只有以下版本 i686 apple darwin11 llvm gcc 4 2
C 中的 N 依赖注入 - 比链接器定义的数组更好的方法？

Given a 库模块在下文中称为Runner 它作为可重复使用的组件无需重新编译即静态链接库中应用程序分区架构的而不是主分区请注意它仅包含main 出于演示目的 Given a set 顺序无关调用的其他模块对象Call
什么是“矢量化”？

现在好几次了我在 matlab fortran 其他一些中遇到这个术语但我从来没有找到解释它是什么意思它有什么作用所以我在这里问什么是矢量化例如循环矢量化是什么意思许多CPU具有向量或 SIMD 指令集它们同时对两
为什么 FMA _mm256_fmadd_pd() 内在函数有 3 个 asm 助记符：“vfmadd132pd”、“231”和“213”？

有人可以向我解释一下为什么融合乘法累加指令有 3 种变体 vfmadd132pd vfmadd231pd and vfmadd213pd 而只有一个 C 内在函数 mm256 fmadd pd 为了简单起见在 AT T 语法中有什么区别
arm-linux-gnueabi 编译器选项

我在用 ARM Linux gnueabi gcc在 Linux 中为 ARM 处理器编译 C 程序但是我不确定它编译的默认 ARM 模式是什么例如对于 C 代码 test c unsigned int main return 0x
在 C# 中按元素相乘数组具有意想不到的性能

我想找到按元素相乘两个数组的最佳方法这是更广泛项目的一部分其中性能而不是唯一的考虑因素我今天开始用 C Linqpad 编写一些函数因此它还没有以任何方式进行优化下面代码的输出如下 Environment ProcessorCou
使用 AVX/AVX2 转置 8x8 浮点

转置 8x8 矩阵可以通过制作四个 4x4 矩阵并对每个矩阵进行转置来实现这不是我想要的在另一个问题中一个答案给出了解决方案 https stackoverflow com a 2518670 4144148x8 矩阵只需要 24 条

随机推荐

如何检查 flutter web 应用程序中的元素。如何在 Flutter Web 应用程序中进行自动化测试

在此输入图像描述 https i stack imgur com SN4rr png 我正在尝试检查元素但它没有响应任何人都可以建议如何在 flutter web 应用程序中进行自动化测试或者建议任何其他测试工具支持 flutter
自动执行将制表符分隔文件中的值乘以 -1 来求反的过程

我一直在 Excel 中手动处理大量文件我已经进行了一些搜索但还没有找到关于如何以自动化方式实现此过程的明确最佳实践我的手动流程如下我有一个 tab 制表符分隔文件每行总共有 8 个列我需要对每行最后 5 列的数值求负我一
使用 ActionBar 选项卡进行导航时菜单会折叠

我已经使用支持库中的 ActionBar 来将我的应用程序构建为选项卡式导航栏我的应用程序中有两个选项卡这两个片段都有菜单并且有一个菜单项我想将其显示为操作栏中的一项操作但由于某种原因显示了溢出图标而不是分配给这些项目的图标
如何确定现在（UTC）是否在 ISO 8601 格式的给定星期几和一天中时间的范围内

我遇到了如何确定是否DateTime UtcNow 例如 2018 01 01T20 00 00Z 属于另一个时区的给定日期和时间范围内没有给出具体日期只是一周中的几天和一天中的时间给定时间采用 ISO 8601 标准格式为了简化这
如何在 div 标签上添加带边框的三角形

我有一个 div 标签我想在它上面添加一个小三角形注意我希望我的 div 标签具有某种颜色的边框以及另一种颜色的 div 主体假设我的 div 背景为白色边框为蓝色请看这个 http fiddle jshell net pau
JPA 2.0 API Maven 工件

我正在使用 JPA 2 0 我的持久性提供程序是 Hibernate 但是我只想包含 javax 中的标准 API 但在中心没有 2 0 工件我目前正在使用 Hibernate JPA 2 0 工件但我想使用更标准的东西这可能吗
mongodb 中的条件更新

我有以下架构需要进行更新详细信息如下不知道该怎么做 UserPromo new Schema sendFBInvite earnedIntros type Number default 0 earningActionCounter t
sbt-proguard 与 play 2.2.3

我们使用 play 2 2 3 开发了一个 Web 应用程序并希望对其进行混淆我正在尝试使用sbt proguard https github com sbt sbt proguard插入我把下面的行PROJECT FOLDER pr
使用 R 和 rvest 进行网页抓取

我正在尝试rvest学习使用 R 进行网页抓取我正在尝试为页面的其他几个部分复制乐高示例并使用selector gadget to id 我从中提取了示例R Studio 教程 http blog rstudio org 2014 11
如何在 Angular 2 中禁用浏览器后退按钮

我正在使用 Angular 2 开发一个网站有没有办法使用 Angular 2 禁用或触发浏览器后退按钮 Thanks 不确定这是否已经排序但仍然发布答案以供将来参考为了解决这个问题您基本上需要在应用程序组件中添加一个侦听器并设置
在 iOS 的 swift 中使用纯文本（Android 格式）创建属性字符串

我正在从 Localized strings 中读取字符串其中包含类似的内容这基本上就是 Android 应用程序的 strings xml 中的内容 testShort A b short b ntest with another b
将实现拆分到多个文件/模块，并尽可能保持所有内容的私密性

考虑我的库中的以下代码 pub struct Foo impl Foo fn helper self pub fn do something foo Foo foo helper 我的图书馆的用户应该能够使用Foo and do somet
SwiftUI 无法使用 navigationLink 来回导航

请注意在 gif 中一旦我导航并关闭新视图我就无法返回这是 SwiftUI 错误还是导航链接的误用 struct ContentView View var body some View return NavigationView N
如何在 iPhone 表格的单元格内显示多行文本？

我是 iPhone 开发新手我正在解析 xml 文件并在表格的每一行中显示标题日期视图和摘要摘要的内容很大因此单元格中只显示前 3 个单词我增加了行的高度我的单元格中仍然显示 3 个单词摘要应如何正确适合单元格并应显示完整内
构建基于纯 JavaScript 的 Web 应用程序（客户端和服务器端）是否有意义？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我一直认为 JavaScript 是任何 Web 应用程序客户端的一个很好的补充或者更确切地说在过去几年中是一个必须具备的功能即使当我开
通过 web.config 设置拒绝目录中的所有文件

作为测试我尝试使用 web config 通过以下方式控制安全性拒绝访问目录中除特定文件之外的所有文件允许访问目录中除特定文件之外的所有文件所以我设置 web config 如下
SWT - 表查看器 - 隐藏列并从列中获取值

我正在尝试从表中的数据创建一个数组列表我需要从可见列中获取值但我还需要从表中不可见的列中获取值将 SWT 与表查看器一起使用我不知道如何不显示表中的列我也不知道如何通过指定列名从表中提取数据我一直使用 Swing 所以我一直使用
有没有办法离线将多个 Plotly HTML 文件合并/嵌入到一个页面/HTML 文件中？

我正在尝试将多个图表合并成一个 HTML 报告来发送问题是我真的不认为子图是最好的主意因为图表相对不相关不同的 X Y 轴我所需要做的只是将图表附加到 1 个 HTML 文件中有一个指南解释了如何使用绘图 URL 来完成此操作但
Django 管理中的嵌套内联？

好吧我有一个相当简单的设计 class Update models Model pub date models DateField title models CharField max length 512 class Post mode
_mm256_fmadd_ps 比 _mm256_mul_ps + _mm256_add_ps 慢？

我有一个图像处理算法来计算a b c d与AVX 伪代码如下 float a new float N float b new float N float c new float N float d new float N assign va

_mm256_fmadd_ps 比 _mm256_mul_ps + _mm256_add_ps 慢？

_mm256_fmadd_ps 比 _mm256_mul_ps + _mm256_add_ps 慢？ 的相关文章

随机推荐

热门标签

_mm256_fmadd_ps 比 _mm256_mul_ps + _mm256_add_ps 慢？的相关文章