fma

对于Intel Haswell上的XMM/YMM FP操作，可以使用FMA代替ADD吗？

这个问题适用于 Haswell 上带有 XMM YMM 寄存器的打包单精度浮点运算所以根据awesome awesome table http www agner org optimize instruction tables pdf由

SSE avx throughput FLOPs fma

使用 GCC 5 3 可以编译以下代码 O3 fma float mul add float a float b float c return a b c 产生以下程序集 vfmadd132ss xmm1 xmm2 xmm0 ret 我注意

c gcc Clang IEEE754 fma

正如答案中所示clang 14 0 0 浮点优化 https stackoverflow com questions 73985098 clang 14 0 0 floating point optimizations 自版本 14 起 C

c Optimization floatingpoint Clang fma

我有这个程序集 AT T 语法 mulsd xmm0 xmm1 addsd xmm1 xmm2 我想将其替换为 vfmadd231sd xmm0 xmm1 xmm2 这种转换是否总是在所有涉及的寄存器和标志中留下相同的状态或者结果浮动会略

Assembly floatingpoint x86 fma