gcc 的 asm 易失性相当于 gfortran 的递归默认设置吗？

2023-11-26

我只是在玩递归函数C++ and Fortran我意识到一个简单的递归函数Fortran几乎是同类产品的两倍C++功能。现在，在讨论这个问题之前，我知道这里也有类似的问题，具体来说：

为什么添加汇编注释会导致生成的代码发生如此根本的变化？
工作的asm volatile（““ ：：： “记忆”）
相当于gfortran中的asm volatility

然而，我有点更具体和困惑，因为 Fortran 编译器似乎正在做你可以实现的事情asm volatile in gcc。为了给您一些上下文，让我们考虑以下递归Fibonacci number执行：

Fortran 代码：

module test
implicit none
private
public fib

contains

! Fibonacci function
integer recursive function fib(n) result(r)
    integer, intent(in) :: n
    if (n < 2) then
        r = n
    else
        r = fib(n-1) + fib(n-2)
    end if
end function  ! end of Fibonacci function
end module

program fibonacci
use test, only: fib
implicit none
integer :: r,i 
integer :: n = 1e09
real(8) :: start, finish, cum_time

cum_time=0
do i= 1,n 
    call cpu_time(start)
    r = fib(20)
    call cpu_time(finish) 
    cum_time = cum_time + (finish - start)
    if (cum_time >0.5) exit
enddo  

print*,i,'runs, average elapsed time is', cum_time/i/1e-06, 'us' 
end program

编译为：

gfortran -O3 -march=native

C++代码：

#include <iostream>
#include <chrono>
using namespace std;

// Fib function
int fib(const int n)
{
    int r;
    if (n < 2)
        r = n;
    else
        r = fib(n-1) + fib(n-2);
    return r;
} // end of fib

template<typename T, typename ... Args>
double timeit(T (*func)(Args...), Args...args)
{
    double counter = 1.0;
    double mean_time = 0.0;
    for (auto iter=0; iter<1e09; ++iter){
        std::chrono::time_point<std::chrono::system_clock> start, end;
        start = std::chrono::system_clock::now();

        func(args...);

        end = std::chrono::system_clock::now();
        std::chrono::duration<double> elapsed_seconds = end-start;

        mean_time += elapsed_seconds.count();
        counter++;

        if (mean_time > 0.5){
            mean_time /= counter;
            std::cout << static_cast<long int>(counter)
            << " runs, average elapsed time is "
            << mean_time/1.0e-06 << " \xC2\xB5s" << std::endl; 
            break;
        }
    }
    return mean_time;
}

int main(){
    timeit(fib,20);
    return 0;
}

编译为：

g++ -O3 -march=native

Timing:

Fortran: 24991 runs, average elapsed time is 20.087 us
C++    : 12355 runs, average elapsed time is 40.471 µs

So gfortran那里的速度是两倍gcc。看看汇编代码，我得到

汇编（Fortran）：

.L28:
    cmpl    $1, %r13d
    jle .L29
    leal    -8(%rbx), %eax
    movl    %ecx, 12(%rsp)
    movl    %eax, 48(%rsp)
    leaq    48(%rsp), %rdi
    leal    -9(%rbx), %eax
    movl    %eax, 16(%rsp)
    call    __bench_MOD_fib
    leaq    16(%rsp), %rdi
    movl    %eax, %r13d
    call    __bench_MOD_fib
    movl    12(%rsp), %ecx
    addl    %eax, %r13d

汇编（C++）：

.L28:
    movl    72(%rsp), %edx
    cmpl    $1, %edx
    movl    %edx, %eax
    jle .L33
    subl    $3, %eax
    movl    $0, 52(%rsp)
    movl    %eax, %esi
    movl    %eax, 96(%rsp)
    movl    92(%rsp), %eax
    shrl    %eax
    movl    %eax, 128(%rsp)
    addl    %eax, %eax
    subl    %eax, %esi
    movl    %edx, %eax
    subl    $1, %eax
    movl    %esi, 124(%rsp)
    movl    %eax, 76(%rsp)

两个汇编代码都由几乎相似的块/标签一遍又一遍地重复组成。正如您所看到的，Fortran 程序集进行了两次调用fib函数，而在 C++ 汇编中，gcc可能已展开所有可能需要更多堆栈的递归调用push/pop和尾跳。

现在，如果我像这样在 C++ 代码中添加一个内联汇编注释

修改后的C++代码：

// Fib function
int fib(const int n)
{
    int r;
    if (n < 2)
        r = n;
    else
        r = fib(n-1) + fib(n-2);
    asm("");
    return r;
} // end of fib

生成的汇编代码，更改为

汇编（C++ 修改）：

.L7:
    cmpl    $1, %edx
    jle .L17
    leal    -4(%rbx), %r13d
    leal    -5(%rbx), %edx
    cmpl    $1, %r13d
    jle .L19
    leal    -5(%rbx), %r14d
    cmpl    $1, %r14d
    jle .L55
    leal    -6(%rbx), %r13d
    movl    %r13d, %edi
    call    _Z3fibi
    leal    -7(%rbx), %edi
    movl    %eax, %r15d
    call    _Z3fibi
    movl    %r13d, %edi
    addl    %eax, %r15d

您现在可以看到两个调用fib功能。给他们计时让我

Timing:

Fortran: 24991 runs, average elapsed time is 20.087 us
C++    : 25757 runs, average elapsed time is 19.412 µs

我知道效果asm没有输出并且asm volatile是为了抑制激进的编译器优化，但在这种情况下，gcc认为它太聪明了，但最终生成了效率较低的代码。

所以问题是:

Why can gcc没有看到这个“优化”，当gfortan显然可以吗？
内联装配线必须位于 return 语句之前。放在别处就没有效果了。为什么？
此行为是编译器特定的吗？例如，您可以使用 clang/MSVC 模仿相同的行为吗？
有没有安全的方法可以使递归更快C or C++（不依赖内联汇编或迭代式编码）？也许可变参数模板？

UPDATE:

上面显示的结果都是gcc 4.8.4。我也尝试过用它来编译它gcc 4.9.2 and gcc 5.2我得到相同的结果。
这个问题也可以被复制（修复？）如果不是把asm我将输入参数声明为易失性，即(volatile int n)代替(const int n)，尽管这会导致我的机器上的运行时间稍微慢一些。
As 迈克尔·凯彻已经提到过，我们可以通过-fno-optimize-sibling-calls标志来解决这个问题。由于该标志被激活于-O2级别及以上，甚至编译-O1解决了这个问题。
我已经运行了相同的示例clang 3.5.1 with -O3 -march=native尽管情况并不完全相同，clang似乎还可以生成更快的代码asm.

铿锵时间：

clang++ w/o asm    :  8846 runs, average elapsed time is 56.4555 µs
clang++ with asm   : 10427 runs, average elapsed time is 47.8991 µs

请参阅本答案末尾附近的粗体字，了解如何获得由 gcc 生成的快速程序。阅读答案以获取对四个问题的答复。

你的第一个问题假设gfortran能够看到优化的可能性gcc没能看到。事实上，情况正好相反。gcc确定了一些它认为是优化可能性的东西，同时gfortran错过了。唉，gcc是错误的，它应用的优化结果是你的系统速度损失了 100%（与我的系统相当）。

回答你的第二个问题：asm声明阻止了内部转变，使得gcc查看错误优化的可能性。如果没有asm声明，您的代码已（有效）转换为：

int fib(const int n)
{
    if (n < 2)
        return n;
    else
        return fib(n-1) + fib(n-2);
}

包含递归调用的 return 语句会触发“兄弟调用优化”，从而使您的代码变得悲观。包含 asm 语句可防止在其中移动返回指令。

目前，我手头只有 gcc，所以我无法尝试其他编译器的行为来通过证据回答你的第三个问题，但这似乎绝对依赖于编译器。您遇到了 gcc 的一个怪癖（或错误，无论您如何称呼它），它在尝试优化它时会生成错误的代码。不同编译器的优化器有很大不同，因此其他编译器很可能不会像这样错误地优化您的代码gcc做。另一方面，用于优化的代码转换是一个经过深入研究的主题，并且大多数编译器都在实现类似的优化方法，因此另一个编译器可能会陷入与以下相同的陷阱：gcc.

解决最后一个问题：这不是 C/C++ 与 Fortran 的问题，而是关于gcc这会弄乱这个示例程序（以及可能的类似生产程序）。所以没有办法使递归更快C++，但是有一种方法可以加快这个例子的速度in gcc，通过禁用有问题的优化：-fno-optimize-sibling-calls，这会导致（在我的系统上，在一次测试运行中）比仅仅插入更快的代码asm陈述。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

gcc 的 asm 易失性相当于 gfortran 的递归默认设置吗？的相关文章

XamlReader.Load 在后台线程中。是否可以？

WPF 应用程序具有从单独的文件加载用户控件的操作使用XamlReader Load method StreamReader mysr new StreamReader pathToFile DependencyObject rootOb
存储来自其他程序的事件

我想将其他应用程序的事件存储在我自己的应用程序中事件示例打开最小化 Word 或打开文件时这样的事可能吗运行程序 http msdn microsoft com en us library ms813609 aspx and 打开
在 C# 中循环遍历文件文件夹的最简单方法是什么？

我尝试编写一个程序使用包含相关文件路径的配置文件来导航本地文件系统我的问题是在 C 中执行文件 I O 这将是从桌面应用程序到服务器并返回和文件系统导航时使用的最佳实践是什么我知道如何谷歌并且找到了几种解决方案但我想知道各种功
使用 C 语言使用 strftime() 获取缩写时区

我看过this https stackoverflow com questions 34408909 how to get abbreviated timezone and this https stackoverflow com ques
获取 WPF 控件的所有附加事件处理程序

我正在开发一个应用程序在其中动态分配按钮的事件现在的问题是我希望获取按钮单击事件的所有事件因为我希望删除以前的处理程序我尝试将事件处理程序设置为 null 如下所示 Button Click null 但是我收到了一个无法分配 n
将 Excel 导入到 Datagridview

我使用此代码打开 Excel 文件并将其保存在 DataGridView 中 string name Items string constr Provider Microsoft Jet OLEDB 4 0 Data Source Dial
Rx 中是否有与 Task.ContinueWith 运算符等效的操作？

Rx 中是否有与 Task ContinueWith 运算符等效的操作我正在将 Rx 与 Silverlight 一起使用我正在使用 FromAsyncPattern 方法进行两个 Web 服务调用并且我想这样做同步地 var o1
如何编写一个同时需要请求和响应Dtos的ServiceStack插件

我需要提供本地化数据服务所有本地化的响应 Dto 都共享相同的属性 IE 我定义了一个接口 ILocalizedDto 来标记那些 Dto 在请求端有一个ILocalizedRequest对于需要本地化的请求 Using IPlugin
有人可以提供一个使用 Amazon Web Services 的 itemsearch 的 C# 示例吗

我正在尝试使用 Amazon Web Services 查询艺术家和标题信息并接收回专辑封面使用 C 我找不到任何与此接近的示例所有在线示例都已过时并且不适用于 AWS 的较新版本有一个开源项目CodePlex http www c
C++ 密码屏蔽

我正在编写一个代码来接收密码输入下面是我的代码程序运行良好但问题是除了数字和字母字符之外的其他键也被读取例如删除插入等我知道如何避免它吗特q string pw char c while c 13 Loop until Ent
为什么在setsid()之前fork()

Why fork before setsid 守护进程基本上如果我想将一个进程与其控制终端分离并使其成为进程组领导者我使用setsid 之前没有分叉就这样做是行不通的 Why 首先 setsid 将使您的进程成为进程组的领导者但它也
NASM Assembly 16bit“操作码和操作数的组合无效”

所以我正在尝试编写一个程序来创建一个文件并在其中创建我的名字但我得到了操作码和操作数的无效组合这mov handle ax 我不知道为什么我看见here https stackoverflow com questions 29569
Process.Start() 方法在什么情况下返回 false？

From MSDN https msdn microsoft com en us library e8zac0ca v vs 110 aspx 返回值 true 表示有新的进程资源开始了如果由 FileName 成员指定的进程资源 St
Server.MapPath - 给定的物理路径，预期的虚拟路径

我正在使用这行代码 var files Directory GetFiles Server MapPath E ftproot sales 在文件夹中查找文件但是我收到错误消息说给定物理路径但虚拟路径预期的我对在 C 中使用 Sys
如何在按钮单击时模拟按键 - Unity

我对 Unity 中的脚本编写非常陌生我正在尝试创建一个按钮一旦单击它就需要模拟按下 F 键要拾取一个项目这是我当前的代码在编写此代码之前我浏览了所有统一论坛但找不到任何有效的东西 Code using System Colle
线程和 fork()。我该如何处理呢？ [复制]

这个问题在这里已经有答案了可能的重复多线程程序中的fork https stackoverflow com questions 1235516 fork in multi threaded program 如果我有一个使用 fork 的
使用 GhostScript.NET 打印 PDF DPI 打印问题

我在用GhostScript NET http ghostscriptnet codeplex com打印 PDF 当我以 96DPI 打印时 PDF 打印效果很好但有点模糊如果我尝试以 600DPI 打印文档打印的页面会被极大地放大
当另一个线程可能设置共享布尔标志（最多一次）时，是否可以读取共享布尔标志而不锁定它？

我希望我的线程能够更优雅地关闭因此我尝试实现一个简单的信号机制我不认为我想要一个完全事件驱动的线程所以我有一个工作人员有一种方法可以使用关键部分优雅地停止它Monitor 相当于C lock我相信绘图线程 h class Drawi
如何使用 Word Automation 获取页面范围

如何使用办公自动化找到 Microsoft Word 中第 n 页的范围似乎没有 getPageRange n 函数并且不清楚它们是如何划分的这就是您从 VBA 执行此操作的方法转换为 Matlab COM 调用应该相当简单 Pub
在客户端系统中安装后桌面应用程序无法打开

我目前正在使用 Visual Studio 2017 和 4 6 1 net 框架我为桌面应用程序创建了安装文件安装程序在我的系统中完美安装并运行问题是安装程序在其他计算机上成功安装但应用程序无法打开 edit 在客户端系统中下载了

随机推荐

WCF 服务 netTCP 绑定

我想使用 netTCPbinding 所以我改变了我的网络配置如下所示我遇到这个错误找不到与绑定 NetTcpBinding 的终结点的方案 net tcp 相匹配的基地址注册的基地址方案是 http 如何解决这个问题
如何从 NodeJS 服务器向客户端发送信息？

例如我想向客户端发出信号表明通过 POST 方法以 HTML 表单发送的用户名已存在于我的数据库中我知道如何使用 body parser 恢复 POST 数据并且知道如何在 MySQL 数据库中查找它我知道我可以使用 Ajax 直
如何在 Java 中获得 UNIX 正常运行时间？

在 Java 中获得 UNIX 正常运行时间的最佳方法是什么是否有我可以使用的标准 Java 库函数或者我应该使用 Runtime 的 exec 或 ProcessBuilder 来执行正常运行时间谢谢你可以阅读 proc up
Azure Web 角色上的 WaitHandleCannotBeOpenedException 以 Task.Wait() 开头

以下 Web 角色入口点返回后会导致引发以下异常 public class WebRole RoleEntryPoint public override bool OnStart Task Run gt Anything can be he
javascript 错误：无法在“文档”上执行“elementsFromPoint”：提供的双精度值是非有限的

我最近将我的 chrome 版本更新到最新版本即79 0 3945 130 Official Build 64 bit 并从下载兼容的 chromedriverhere 我已经开始面临这个错误了在详细调试时我发现Select导致问题的类
python csv只写入某些字段名称，而不是全部

我一定错过了一些东西但我不明白我有一个 csv 它有 1200 个字段我只对 30 感兴趣你如何让它发挥作用我可以读写整个 shebang 这没关系但我真的很想写出 30 我有一个字段名列表我有点修改标题我将如何翻译下面以
如何清除点击时的数据列表输入？

我在 Lit Element Web 组件中有这个数据列表
C++：如何将字符串拆分为大小均匀的较小字符串？

在 C 中如何将字符串拆分为大小均匀的较小字符串例如我有一个字符串 012345678 并希望它将它分成 5 个较小的字符串这应该返回类似 01 23 45 67 8 的内容我无法确定较小字符串的长度在上一个示例中原始字符串的
调整织物矩形大小而不调整文本框大小

In this jsFiddle我有一个包含矩形和文本框的结构组我需要能够在不缩放文本的情况下缩放矩形因此我尝试在选择组时取消分组并在清除选择时再次分组还矩形和文本框被分组以便能够将它们一起移动文本需要可编辑文本需要位于矩形的
MySQL 不更新 information_schema，除非我手动运行 ANALYZE TABLE `myTable`

我需要获取表 InnoDB 的最后一个 id 主键为此我执行以下查询 SELECT SELECT AUTO INCREMENT FROM information schema TABLES WHERE TABLE SCHEMA mySch
角度键值管道排序属性/按顺序迭代

使用角度时keyvalue管道来迭代对象的属性如下所示 div item key item value div 我遇到过一个问题即属性未按预期顺序迭代此评论表明我不是唯一遇到此问题的人如何在 Angular 中使用 ngFor 循环
EditText 文本属性下方有下划线

我想更改编辑文本下方的蓝色我不知道它是什么属性我尝试为其使用不同的背景颜色但它不起作用我在下面附上了一张图片实际上以编程方式设置 EditText 的下划线颜色相当容易只需一行代码设置颜色 editText getBackg
以原子方式标记并返回数据库中的一组行

我正在编写一个后台服务需要处理一系列作业这些作业作为记录存储在 sqlserver 表中该服务需要找到最旧的 20 个需要工作的工作 where status new 标记它们 set status processing 运行它们然
java.lang.ClassNotFoundException：WebDriver API

我下载了selenium java 2 0a5 zip http code google com p selenium downloads list 并运行以下代码 package org openqa selenium example i
.gitattributes 和文件的单独合并策略

我的网络应用程序有一个主分支和一个测试分支这些项目几乎相同除了一个用于设置应用程序的文件例如 setup 每当我将一个分支合并到另一个分支时我希望该分支保留其安装版本也就是说 git 不应尝试合并对该文件的更改我跟着Pro
如何将控制台插入 pyGame 窗口？

我正在制作一个文字冒险游戏我想要 pyGame 动画和插图以及 HUD 我怎样才能插入这个控制台 Thanks 我很确定那是不可能的如果您想要 Pygame 屏幕中的控制台那么您必须编写自己的控制台或者找到其他人编写的控制台例如h
[方括号] 和 *星号之间的区别

如果你编写一个 C 函数例如 void readEmStar int arrayOfInt 与 C 函数相比例如 void readEmSquare int arrayOfInt 使用方括号与 asterisk 之间有什么区别假设
能源系统的 Python GEKKO MINLP 优化：如何构建 2D 数组的中间体

我目前正在 Python GEKKO 中实现 MINLP 优化问题以确定三联产能源系统的最佳运行策略当我将不同代表日的所有时段的能源需求作为输入数据时基本上我所有的决策变量中间变量等都是二维数组我怀疑 2D 中间体的声明是我的问题
如何使用Android的camera或camera2 API来支持新旧API版本而无需弃用注释？

新的camera2 API让我很困惑我想开发一个应用程序适用于 Android API 10 21 它使用设备的相机就像声明的那样here 我应该使用 Camera API 但是当我尝试添加 Camera API 时 android
gcc 的 asm 易失性相当于 gfortran 的递归默认设置吗？

我只是在玩递归函数C and Fortran我意识到一个简单的递归函数Fortran几乎是同类产品的两倍C 功能现在在讨论这个问题之前我知道这里也有类似的问题具体来说为什么添加汇编注释会导致生成的代码发生如此根本的变化工作的as

gcc 的 asm 易失性相当于 gfortran 的递归默认设置吗？

gcc 的 asm 易失性相当于 gfortran 的递归默认设置吗？ 的相关文章

随机推荐

热门标签

gcc 的 asm 易失性相当于 gfortran 的递归默认设置吗？的相关文章