为什么 GCC 不将 aaaaaa 优化为 (aaa)(aaa)？

2024-05-07

我正在对科学应用程序进行一些数值优化。我注意到的一件事是 GCC 会优化调用pow(a,2)通过将其编译成a*a，但是调用pow(a,6)没有优化，实际会调用库函数pow，这大大降低了性能。（相比之下，英特尔 C++ 编译器 http://en.wikipedia.org/wiki/Intel_C++_Compiler, 可执行文件icc，将消除图书馆的要求pow(a,6).)

我好奇的是当我更换pow(a,6) with a*a*a*a*a*a使用 GCC 4.5.1 和选项“-O3 -lm -funroll-loops -msse4”，它使用 5mulsd指示：

movapd  %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13

如果我写(a*a*a)*(a*a*a)，它会产生

movapd  %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm14, %xmm13
mulsd   %xmm13, %xmm13

这将乘法指令的数量减少到 3 条。icc有类似的行为。

为什么编译器不能识别这个优化技巧？

Because 浮点数学不具有结合律 http://en.wikipedia.org/wiki/Floating_point#Accuracy_problems。浮点乘法中操作数的分组方式会影响结果的数值准确性。

因此，大多数编译器对于重新排序浮点计算都非常保守，除非他们可以确定答案将保持不变，或者除非您告诉他们您不关心数值精度。例如：the -fassociative-math option http://gcc.gnu.org/onlinedocs/gcc/Optimize-Options.htmlgcc 允许 gcc 重新关联浮点运算，甚至-ffast-math该选项允许在准确性和速度之间进行更积极的权衡。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 GCC 不将 aaaaaa 优化为 (aaa)(aaa)？的相关文章

如何安全地将 CGFloat 降低或提高到 int？

我经常需要在地板或天花板上安装CGFloat to an int 用于计算数组索引我永远看到的问题floorf theCGFloat or ceilf theCGFloat 是浮点不准确可能会带来麻烦那如果我的CGFloat is 2
带有适用于 MS-Windows 的工具链的预构建 MIPS 交叉编译器

我在我的 Linux 机器上使用 MIPS 交叉编译器效果很好现在我需要在 Windows 上编译相同的应用程序我正在网上搜索一些适用于 MS Windows 的预构建 MIPS 交叉编译器带有工具链但没有成功由于我不确定该怎么
如何使用movntdqa避免缓存污染？

我正在尝试编写一个 memcpy 函数该函数不会将源内存加载到 CPU 缓存中目的是避免缓存污染下面的 memcpy 函数可以工作但会像标准 memcpy 一样污染缓存我正在使用带有 Visual C 2008 Express 的
设置 IRQ 映射

我正在遵循一些教程和参考文献来尝试设置我的内核我在教程中遇到了一些不熟悉的代码但根本没有解释它这是我被告知映射的代码16 IRQs 0 15 到 ISR 地点32 47 void irq remap void outportb 0x2
为什么 clang 使用 -O0 生成低效的 asm（对于这个简单的浮点和）？

我正在 llvm clang Apple LLVM 版本 8 0 0 clang 800 0 42 1 上反汇编此代码 int main float a 0 151234 float b 0 2 float c a b printf f c
如何仅使用单个数组在 JavaScript 中模拟调用堆栈

我正在看维基百科页面 https en wikipedia org wiki Call stack在调用堆栈上并尝试理解这个图像据我所知哈哈 const memory memory 0 3 top of stack pointer m
arm-linux-gnueabi 编译器选项

我在用 ARM Linux gnueabi gcc在 Linux 中为 ARM 处理器编译 C 程序但是我不确定它编译的默认 ARM 模式是什么例如对于 C 代码 test c unsigned int main return 0x
是否有相当于 Clang/LLVM 的 .spec 文件，在哪里可以找到参考？

The gcc驱动程序可以配置为使用特定的链接器特定的选项和其他细节例如覆盖系统头 specs files 当前截至撰写本文时 GCC 版本 4 9 0 的手册此处描述了规范文件 https gcc gnu org onlinedoc
如何处理 PHP 中浮点数的奇怪舍入

众所周知浮点运算并不总是完全准确但是如何处理它的不一致之处呢 As an example in PHP 5 2 9 this doesn t happen in 5 3 echo round 14 99225 4 14 9923 ech
ELF动态符号表

我有一个关于 ELF 动态符号表的问题对于 FUNC 类型的符号我注意到某些二进制文件中的值为 0 但在其他二进制文件中它具有一些非零值这两个二进制文件都是由 gcc 生成的我想知道为什么会出现这种差异有没有编译器选项来控制这个
是否可以在Linux上将C转换为asm而不链接libc？

测试平台为Linux 32位但也欢迎 Windows 32 位上的某些解决方案这是一个c代码片段 int a 0 printf d n a 如果我使用 gcc 生成汇编代码 gcc S test c 然后我会得到 movl 0 28 e
TSQL - 生成文字浮点值

我理解比较浮点数时遇到的许多问题并对它们在这种情况下的使用感到遗憾但我不是表格作者只有一个小障碍需要克服有人决定使用浮点数就像您期望使用 GUID 一样我需要检索具有特定浮点值的所有记录 sp help MyTable Colu
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
有没有办法在输出二进制文件中存储 clang 编译时标志？

使用 clang 时有没有办法在输出二进制文件中存储编译时标志例如运行后 clang O3 c main c 所结果的main o文件应该包含在某处 O3 gcc has frecord gcc switches https stack
32 位到 64 位内联汇编移植

我有一段 C 代码在 GNU Linux 环境下用 g 编译它加载一个函数指针它如何执行并不重要使用一些内联汇编将一些参数推送到堆栈上然后调用该函数代码如下 unsigned long stack 1 23 33 43 save
Pyaudio 安装错误 - “命令‘gcc’失败，退出状态 1”

我正在运行 Ubuntu 11 04 Python 2 7 1 并想安装 Pyaudio 于是我跑了 sudo easy install pyaudio 在终端中进程退出并显示以下错误消息 Searching for pyaudio Re
为什么 gcc 链接时没有 lpthread 标志？

我当时正在做一个业余爱好项目其中互斥体的行为很神秘我将其归结为这个显然应该陷入僵局的测试用例 include
C语言中如何比较float变量和double变量？

float num1 1 if num1 1 printf Yes it is equal n else printf No it is not equal n 输出 gt 是的它是相等的 whereas float num1 1 2 i
汇编器8086将32位数字除以16位数字

我尝试将 32 位数字除以 16 位数字例如 10000000h 除以 2000h 根据我尝试做的设计除以右 4 位数字除以除数然后左 4 位数字除以除数这是我的代码 DATA num dd 10000000h divisor dw
C++ 中的双精度型数字

尽管内部表示有 17 位但 IEE754 64 位浮点应该正确表示 15 位有效数字有没有办法强制第 16 位和第 17 位为零 Ref http msdn microsoft com en us library system dou

随机推荐

Laravel - 雄辩地覆盖自定义时间戳......为什么？

我正在制作一个库存管理系统当产品缺货时我会在表中输入一个条目并记下 oos at 字段和日期时间后来当它回到库存时我找到该条目并更新 restocked at 时间戳字段但是当我执行第二个操作时我的 oos at 字段被
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
kubectl 运行本地 docker 镜像 - ImagePullBackOff 状态

我在本地计算机上构建 docker 映像并尝试使用 kubectl 拉取 docker 映像但它没有启动 docker 容器图像以 docker 命令开头 REPOSITORY TAG IMAGE ID CREATED SIZE to
具有数百万行的日志表。怎么办？

我有一个包含数百万行的日志表我正在考虑将数据分成多个表即 LoginHistory ExceptionHistory PaymentProcessingHistory 等在采用包含许多行而不是列的大型表并创建多个表时使用的术语是什
在 C 中将字符串转换为二进制 [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我试图在 C 中将字符串转换为二进制这个函数必须返回一个字符串 char 如 010010101 等另外我想打印返回
编译器 libstdc++ 版本与系统版本

我试图了解 g 如何选择它链接的 libstdc 版本以及当库的系统版本不同时它意味着什么我正在使用 gcc g 4 1 2 根据ABI 指南 http gcc gnu org onlinedocs libstdc manual a
Spring身份验证，它是否使用加密的cookie？

是否Spring框架 http en wikipedia org wiki Spring Framework使用或在它支持的选项之一中将登录用户 userId 存储在 cookie 中的加密 cookie 这就是 ASP NET 身份验
以 at (@) 符号为前缀的 Objective-C 宏的含义

ReactiveCocoa 框架利用weakify and strongify宏两者前面都有一个符号这是一个例子从这个file https github com ReactiveCocoa ReactiveCocoa blob fd
Firestore 作为离线持久性机制有多可靠？

我目前使用 Firebase Firestore 作为主要后端从各种来源检索数据我还使用 Android 的 Room 作为我的移动后端当手机接收到数据时数据会存储在 Room 数据库中以防用户几天甚至几周内不再上网查看设备文件
Python getchildren() 不适用于有效的 XML 树

如果我在 XML 文件上运行以下 python 参见 Q 底部 import xml etree ElementTree as ET tree ET parse C temp test2 xml print tree getchildren
为什么我收到 string does not name a type 错误？

game cpp include
emacs：Orgmode，如何从一行行中创建一个列表

有没有办法隐藏这样的行块 line1 line2 linen into 1 line1 2 line2 n linen 使用 Emacsorg mode http orgmode org 我知道的最短的方法是突出显示这些行包括它们的换行
Excel VBA：通过快捷键运行打开文档后宏挂起，但从 VB 编辑器运行完美

我遇到了一个奇怪的问题我决定分配一个键盘快捷键Ctrl Shift P我的 VBA 例程之一该例程假设打开一个现有的 Excel 工作簿复制一些信息并 SaveAs另一个名字当我在 Visual Basic 编辑器中点击播放时
在 python 中使用 graphviz 从 DOT 文件绘制有向图

这是API参考 http graphviz readthedocs io en latest api html for graphviz 我找不到任何从现有的生成有向图的方法dot源文件方法如render and view保存在新文件中
在 Spring Boot 中哪里定义所有环境中通用的属性？

我几乎没有所有环境共有的属性例如spring jpa properties hibernate ejb interceptor 我将其保存在资源目录下的 application properties 中我在基于环境的属性文件中定义了数据
如何从脚本中退出 NodeJS 脚本？

现在我有一个为我设置数据库的nodeJS 脚本每当我在命令行中运行它时我都需要按 ctrl C 退出脚本我假设nodeJS中有某种命令可以让它在完成后自行退出但我似乎无法通过在interwebz上进行搜索来找到任何此类命令有人知道
R 混合效应模型中的均方根误差

您能否告诉我当您执行混合效应模型时如何获取计算 R 中的 RMSE 均方根误差值 Data na omit binh AIC BIC logLik 888 6144 915 1201 436 3072 Random effects Fo
使用 rmultinom() 函数从 R 中的多项分布生成随机数

我想从具有三个值的多项分布生成大小为 20 的样本例如1 2 and 3 例如样本可以是这样的sam 1 2 2 2 2 3 1 1 1 3 3 3 2 1 2 3 1 下面的代码可以工作但没有得到预期的结果 gt rmultinom
Ajax jquery 调用响应中出现 NetworkError: 403 Forbidden 错误

我使用 apache tomcat 作为 Web 服务器我已经在tomcat上部署了web服务如果我通过 jquery ajax 从本地文件系统向 tomcat webservice 发布请求作为响应我会收到 403 错误如果我从同
为什么 GCC 不将 a*a*a*a*a*a 优化为 (a*a*a)*(a*a*a)？

我正在对科学应用程序进行一些数值优化我注意到的一件事是 GCC 会优化调用pow a 2 通过将其编译成a a 但是调用pow a 6 没有优化实际会调用库函数pow 这大大降低了性能相比之下英特尔 C 编译器 http en wi

为什么 GCC 不将 a*a*a*a*a*a 优化为 (a*a*a)*(a*a*a)？

为什么 GCC 不将 a*a*a*a*a*a 优化为 (a*a*a)*(a*a*a)？ 的相关文章

随机推荐

热门标签

为什么 GCC 不将 aaaaaa 优化为 (aaa)(aaa)？

为什么 GCC 不将 aaaaaa 优化为 (aaa)(aaa)？的相关文章