对于Intel Haswell上的XMM/YMM FP操作，可以使用FMA代替ADD吗？

2024-04-15

这个问题适用于 Haswell 上带有 XMM/YMM 寄存器的打包、单精度浮点运算。

所以根据awesome, awesome table http://www.agner.org/optimize/instruction_tables.pdf由 Agner Fog 汇总，我知道 MUL 可以在端口 p0 和 p1 上完成（recp 吞吐量为 0.5），而 ADD 仅在端口 p1 上完成（recp 吞吐量为 1）。我可以排除这个限制，但我也知道 FMA 可以在端口 p0 或 p1 上完成（recp 吞吐量为 0.5）。因此，当 FMA 可以使用 p0 或 p1 并且它同时执行 ADD 和 MUL 时，为什么普通 ADD 仅限于 p1，这让我感到困惑。难道是我对表的理解有误？或者有人可以解释为什么会这样？

也就是说，如果我的阅读是正确的，那么英特尔为什么不直接使用 FMA 操作作为普通 MUL 和普通 ADD 的基础，从而提高 ADD 和 MUL 的吞吐量。或者，什么会阻止我使用两个同时、独立的 FMA 操作来模拟两个同时、独立的 ADD 操作？执行 ADD-by-FMA 会受到哪些处罚？显然，使用了更多数量的寄存器（2 个寄存器用于 ADD，3 个寄存器用于 ADD-by-FMA），但除此之外呢？

您并不是唯一一个对英特尔为何这样做感到困惑的人。阿格纳·雾在他的微架构 http://agner.org/optimize/microarchitecture.pdfHaswell 的手册写道：

奇怪的是，只有一个端口用于浮点加法，但有两个端口用于浮点乘法。

在阿格纳的留言板上他还写 http://agner.org/optimize/blog/read.php?i=285#352

浮点乘法和乘加融合有两个执行单元，但浮点加法只有一个执行单元。这种设计似乎不是最理想的，因为浮点代码通常包含比乘法更多的加法。

该线程继续提供有关该主题的更多信息，我建议您阅读这些信息，但我不会在这里引用。

他还在这个答案中讨论了这个问题sandy-bridge-and-haswell-sse2-avx-avx2 的每周期浮点数 https://stackoverflow.com/questions/15655835/flops-per-cycle-for-sandy-bridge-and-haswell-sse2-avx-avx2

Haswell 上 FMA 指令的延迟为 5，吞吐量为每个时钟 2。这意味着您必须保持 10 个并行操作才能获得最大吞吐量。例如，如果您想添加一个很长的 f.p 列表。数字，您必须将其分成十个部分并使用十个累加器寄存器。

这确实是可能的，但谁会为某个特定处理器进行如此奇怪的优化呢？

他的回答基本上回答了你的问题。您可以使用 FMA 使加法吞吐量加倍。事实上，我在加法吞吐量测试中这样做了，并且确实看到它翻倍了。

总之，此外，如果您的计算受延迟限制，则不要使用 FMA，而应使用 ADD。但如果吞吐量有限，您可以尝试使用 FMA（通过将乘数设置为 1.0），但您可能必须使用许多 AVX 寄存器来执行此操作。

我展开 10 次以获得最大吞吐量使用 ivy-bridge 和 haswell 进行循环展开以实现最大吞吐量 https://stackoverflow.com/questions/21090873/loop-unrolling-to-achieve-maximum-throughput-with-ivy-bridge-and-haswell/21600232#21600232

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对于Intel Haswell上的XMM/YMM FP操作，可以使用FMA代替ADD吗？的相关文章

将8个16位SSE寄存器转换为8位数据

假设我有一个包含 16 位数据的 SSE 数组 1 2 3 4 5 6 7 8 现在我需要通过在前 8 个字节中仅存储 16 位数据的低字节来将此 SSE 数组转换为 8 位数据如下所示 1 2 3 4 5 6 7 8 0 0 0 0 0
使用 ymm 寄存器作为“类似内存”的存储位置

考虑 x86 中的以下循环 on entry rdi has the number of iterations top some magic happens here to calculate a result in rax mov arr
在每个函数/每个代码块的基础上启用 SSE4 的正确方法是什么？

对于我的一个 OS X 程序我有一些使用 SSE4 1 指令的优化案例在仅 SSE3 的计算机上运行非优化分支 SupportsSSE4 1 returns true on CPUs that support SSE4 1 false
具有 PCLMULQDQ 的快速 CRC *未反映*

我正在尝试写一个PCLMULQDQ 优化的 CRC 32 https www intel com content dam www public us en documents white papers fast crc computatio
是否存在或将会存在 target_clones 属性的“全局”版本？

我最近玩过target clones该属性从 gcc 6 1 及更高版本可用这非常漂亮但是就目前而言它需要一种有点笨拙的方法每个想要多版本化的函数都必须手动声明一个属性这不是最佳的因为它将编译器特定的内容放入代码中它要求开发
SSE 双线性插值

我正在紧密循环中实现双线性插值并尝试使用 SSE 对其进行优化但我从中得到的加速为零这是代码非 SIMD 版本使用简单的向量结构可以定义为struct Vec3f float x y z 实现乘法和加法运算符 ifdef USE
是否可以使用 SSE 对此嵌套进行矢量化？

我从来没有为 SSE 优化编写过汇编代码如果这是一个菜鸟问题我很抱歉在this https felix abecassis me 2012 08 sse vectorizing conditional code 文章解释了如何向量化f
当内存带宽受限时 SSE 和 AVX 的性能

在下面的代码中我更改了 dataLen 并获得了不同的效率 dataLen 400 SSE 时间 758000 us AVX 时间 483000 us SSE gt AVX dataLen 2400 SSE 时间 4212000 us A
如何避免单元测试中的浮点舍入错误？

我正在尝试为一些对单精度浮点数数组进行操作的简单向量数学函数编写单元测试这些函数使用 SSE 内在函数并且在 32 位系统上运行测试时出现误报至少我认为测试在 64 位上通过当操作遍历数组时我积累了越来越多的舍入误差这是单元测
memcpy 在 Linux 中移动 128 位

我正在 Linux 中为 PCIe 设备编写设备驱动程序该设备驱动程序执行多次读取和写入来测试吞吐量当我使用 memcpy 时最大有效负载TLP https en wikipedia org wiki PCI Express Data
Intel 指令文档中未使用 XMM 寄存器 0

在 Intel x64 手册中它说 32 位 SSE2 模式下有 XMM 寄存器 0 7 那么为什么 95 使用这些寄存器的指令会跳过 0 并使用 1 4 例如Intel的vol 2手册entry https www felixclout
MOVDQA 和 MOVAPS x86 指令之间的区别？

我正在查找英特尔数据表英特尔 64 和 IA 32 架构软件开发人员手册我找不到两者之间的区别 MOVDQA 移动对齐的双四字 MOVAPS 移动对齐压缩单精度在英特尔数据表中我可以找到这两条指令该指令可用于从 128 位加载 XM
AVX2浮点比较并得到0.0或1.0而不是全0或全1位

基本上在生成的向量中我想为所有输入浮点值 gt 1 保存 1 0 而为所有输入浮点值 float f 8 1 2 0 5 1 7 1 9 0 34 22 9 18 6 0 7 float r 8 Must be 1 0 1 1 0 1
融合乘加和默认舍入模式

使用 GCC 5 3 可以编译以下代码 O3 fma float mul add float a float b float c return a b c 产生以下程序集 vfmadd132ss xmm1 xmm2 xmm0 ret 我注意
我应该使用 SIMD 或向量扩展还是其他什么？

我目前正在开发一个开源 3D 应用程序框架c questions tagged c 2b 2b with c 11 questions tagged c 2b 2b11 我自己的数学库是这样设计的XNA数学库 http msdn micro
在 SIMD 操作上下文中，非压缩指令和压缩指令有什么区别？

在 SIMD 操作上下文中非压缩指令和压缩指令有什么区别我正在阅读一篇关于优化 SSE 代码的文章 http www cortstratton org articles OptimizingForSSE php batch http w
AmazonDB 免费套餐的含义是什么？

在我的 Android 应用程序中我使用 Amazon DynamoDB 我创建了 10 个表读取容量为 10 写入容量为 5 今天我收到了一封来自 Amazon 的电子邮件我花了 11 36 美元我不明白免费套餐的含义这是我从亚
优化数组压缩

假设我有一个数组k 1 2 0 0 5 4 0 我可以按如下方式计算掩码m k gt 0 1 1 0 0 1 1 0 仅使用掩码 m 和以下操作左移右移 And Or 加减乘我可以将 k 压缩为以下形式 1 2 5 4 以下是我目
使用 AVX 内在函数代替 SSE 并不能提高速度 - 为什么？

我已经使用 Intel 的 SSE 内在函数相当长一段时间了并取得了良好的性能提升因此我希望 AVX 内在函数能够进一步加速我的程序不幸的是直到现在情况并非如此可能我犯了一个愚蠢的错误所以如果有人能帮助我我将非常感激我使用
用于预乘 ARGB 的 SSE alpha 混合

我正在尝试编写一个支持 SSE 的 alpha 合成器这就是我想出的首先混合两个 4 像素向量的代码 alpha blend two 128 bit 16 byte SSE vectors containing 4 pre multi

随机推荐

在 Visual Studio 2017 中出现未处理的异常后启用编辑

在 Visual Studio 2017 中出现未处理的异常后如何继续执行在 2015 及以下版本中可以通过单击轻松完成此操作Enable Editing它将调用堆栈展开到异常之前的点然后就可以编辑执行点变量和代码当库抛出异常时
如何使用“here-doc”将行打印到文件？

基本上这是我在过去半小时内编程和使用 Google 的结果试图实现一个简单的事情从以下位置获取用户输入 STDIN并将它们写入结构化 XML 文件作为输出下面是我丑陋的代码 bin perl print img URL img lt
Akka 流如何不断实现？

我在用阿卡流 http doc akka io docs akka stream and http experimental 1 0 scala stream index html在 Scala 中进行轮询AWS SQS https aws
在 databrick 上运行时将 PySpark 标准输出和标准错误日志保存到云对象存储

我正在标准 databricks 集群上运行 PySpark 数据管道代码我需要保存所有 Python PySpark 标准输出和标准错误消息存储到 Azure BLOB 帐户中的文件中当我在本地运行 Python 代码时我可以在终端
如何重新分发使用 Crystal Reports 的 VB 6 应用程序？

假设目标系统有 Crystal Reports for Visual Studio 2008 我如何将可执行的 VB 6 应用程序与报告文件一起分发仅移动可执行文件和报告文件是行不通的我想知道如何创建可再发行包我们使用CR10 我的建
优化子查询选择每组最后一条记录

我有这个查询它是一个依赖查询并且需要很多执行时间 SELECT u id u user name ifnull select longitude from map where user id u id order by map id de
Django QuerySet 不返回任何内容

我有一个国家地区列表例如它们都有自己的网址 www example com al 每个国家地区都有一个城市列表但 object list 为空 My View class CityOverview generic ListView
如何使嵌入式视图控制器成为响应者链的一部分？

我正在使用情节提要开发 Mac 应用程序我有一个窗口显示NSViewController作为其内容其中包含一个容器视图控制器其中嵌入了NSSplitViewController 预期的行为是NSSplitViewController
无法使用 sqldf 对 R 中的函数使用rank()

arm lt as data frame matrix c 1 1 1 2 2 6 7 4 9 10 ncol 2 colnames arm lt c a b 这是我在 R 中创建的数据集现在我想对 b 列进行排名并按 a 列进行分组无
不允许使用默认特殊成员函数的多个版本 (MSVC)

这是有效的 C 代码吗 struct S S S const default S S default Context 我尝试通过将这两行添加到以下代码中来处理歧义S godbolt https godbolt org z j9znrY6ef
使用多个视图以编程/动态方式创建 LinearLayout

我有一个像这样的层次结构 LinearLayout horizontal 图像视图 LinearLayout vertical TextView TextView TextView TextView 我希望能够通过迭代添加上面的层次结构只
对象的属性（预期为邮件项）生成“438”运行时错误：“对象不支持此属性或方法”

我试图选择一个文件夹然后显示一个 MsgBox 其中包含该文件夹及其所有子文件夹中在设定时间范围内发送的电子邮件数量我可以选择一个文件夹但我得到 438 运行时错误对象不支持此属性或方法在 for 循环之后的行上 receive
Biopython：如何避免蛋白质中的特定氨基酸序列以绘制 Ramachandran 图？

我编写了一个 python 脚本来绘制泛素蛋白的 Ramachandran 图我正在使用biopython 我正在处理 pdb 文件我的脚本如下 import Bio PDB import numpy as np import matp
使用嵌套面板

尝试为我的游戏构建一个 GUI 但无论我使用什么布局我都无法让面板嵌套来做我喜欢的事情我的目标是这个http i182 photobucket com albums x202 NekoLLX CharGenmockup 1 jpg ht
使用 Cp500 编码陌生事物（LF 和 NEL）

最近在从字节转换为字符串然后再从字符串转换为字节的过程中我遇到了 Cp500 EBCDIC 编码的奇怪问题问题在于一个特定的角色就是在这个转变过程中被转变为这个角色下面的代码验证了这一点 byte b25 0x25 byte b
挑战：重新编码 data.frame() — 使其更快

重新编码是调查数据的常见做法但最明显的路线花费的时间比应有的时间要多使用提供的示例数据完成相同任务的最快代码system time 在我的机器上获胜 Sample data dat lt cbind rep 1 5 50000 rep
无法将 TensorFlow 保存的模型转换为 tfjs_layers_model webmodel

我正在尝试将 TensorFlow 保存的模型转换为 tfjs webmodel 但它给出了ValueError 我使用的代码可以找到here https github com PatrickLib captcha recognize 我有
在 C++ 类中创建二维向量

我需要创建一个充满整数的向量向量但是我不断收到错误错误数字常量之前的预期标识符错误数字常量之前应有或 using namespace std class Grid public Grid void display grid v
Google App Engine (java) 服务类是线程安全的吗？

是否可以从工厂获取一次对服务的引用并使用它来处理多个请求使用以下 servlet 伪代码可以最好地解释这一点 SomeServlet MemcacheService memcacheService MemcacheServiceFacto
对于Intel Haswell上的XMM/YMM FP操作，可以使用FMA代替ADD吗？

这个问题适用于 Haswell 上带有 XMM YMM 寄存器的打包单精度浮点运算所以根据awesome awesome table http www agner org optimize instruction tables pdf由

对于Intel Haswell上的XMM/YMM FP操作，可以使用FMA代替ADD吗？

对于Intel Haswell上的XMM/YMM FP操作，可以使用FMA代替ADD吗？ 的相关文章

随机推荐

热门标签

对于Intel Haswell上的XMM/YMM FP操作，可以使用FMA代替ADD吗？的相关文章