使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令

2024-05-18

最近，我开始使用 Ubuntu 16.04 和 g++ 5.3.1 并检查我的程序是否运行慢3倍。在此之前我使用过 Ubuntu 14.04、g++ 4.8.4。我用相同的命令构建它：CFLAGS = -std=c++11 -Wall -O3.

我的程序包含循环，充满数学调用（sin、cos、exp）。你可以找到它here https://github.com/mediev/inclined_well/tree/gcc_bug.

我尝试使用不同的优化标志（O0、O1、O2、O3、Ofast）进行编译，但在所有情况下都会重现问题（Ofast 的两个变体运行速度更快，但第一个运行速度仍慢 3 倍）。

在我的程序中我使用libtinyxml-dev, libgslcblas。但在这两种情况下，它们具有相同的版本，并且在性能方面并不在程序中发挥任何重要作用（根据代码和 callgrind 分析）。

我已经进行了分析，但它并没有让我知道为什么会发生这种情况。Kcachegrind对比（左边较慢） https://i.stack.imgur.com/E19Q7.png。我只注意到现在程序使用libm-2.23相比libm-2.19使用 Ubuntu 14.04。

我的处理器是 i7-5820k，Haswell。

我不知道为什么它变得更慢。你有什么想法？

附：下面你可以找到最耗时的函数：

void InclinedSum::prepare3D()
{
double buf1, buf2;
double sum_prev1 = 0.0, sum_prev2 = 0.0;
int break_idx1, break_idx2; 
int arr_idx;

for(int seg_idx = 0; seg_idx < props->K; seg_idx++)
{
    const Point& r = well->segs[seg_idx].r_bhp;

    for(int k = 0; k < props->K; k++)
    {
        arr_idx = seg_idx * props->K + k;
        F[arr_idx] = 0.0;

        break_idx2 = 0;

        for(int m = 1; m <= props->M; m++)
        {
            break_idx1 = 0;

            for(int l = 1; l <= props->L; l++)
            {
                buf1 = ((cos(M_PI * (double)(m) * well->segs[k].r1.x / props->sizes.x - M_PI * (double)(l) * well->segs[k].r1.z / props->sizes.z) -
                            cos(M_PI * (double)(m) * well->segs[k].r2.x / props->sizes.x - M_PI * (double)(l) * well->segs[k].r2.z / props->sizes.z)) /
                        ( M_PI * (double)(m) * tan(props->alpha) / props->sizes.x + M_PI * (double)(l) / props->sizes.z ) + 
                            (cos(M_PI * (double)(m) * well->segs[k].r1.x / props->sizes.x + M_PI * (double)(l) * well->segs[k].r1.z / props->sizes.z) -
                            cos(M_PI * (double)(m) * well->segs[k].r2.x / props->sizes.x + M_PI * (double)(l) * well->segs[k].r2.z / props->sizes.z)) /
                        ( M_PI * (double)(m) * tan(props->alpha) / props->sizes.x - M_PI * (double)(l) / props->sizes.z )
                            ) / 2.0;

                buf2 = sqrt((double)(m) * (double)(m) / props->sizes.x / props->sizes.x + (double)(l) * (double)(l) / props->sizes.z / props->sizes.z);

                for(int i = -props->I; i <= props->I; i++)
                {   

                    F[arr_idx] += buf1 / well->segs[k].length / buf2 *
                        ( exp(-M_PI * buf2 * fabs(r.y - props->r1.y + 2.0 * (double)(i) * props->sizes.y)) - 
                        exp(-M_PI * buf2 * fabs(r.y + props->r1.y + 2.0 * (double)(i) * props->sizes.y)) ) *
                        sin(M_PI * (double)(m) * r.x / props->sizes.x) * 
                        cos(M_PI * (double)(l) * r.z / props->sizes.z);
                }

                if( fabs(F[arr_idx] - sum_prev1) > F[arr_idx] * EQUALITY_TOLERANCE )
                {
                    sum_prev1 = F[arr_idx];
                    break_idx1 = 0;
                } else
                    break_idx1++;

                if(break_idx1 > 1)
                {
                    //std::cout << "l=" << l << std::endl;
                    break;
                }
            }

            if( fabs(F[arr_idx] - sum_prev2) > F[arr_idx] * EQUALITY_TOLERANCE )
            {
                sum_prev2 = F[arr_idx];
                break_idx2 = 0;
            } else
                break_idx2++;

            if(break_idx2 > 1)
            {
                std::cout << "m=" << m << std::endl;
                break;
            }
        }
    }
}
}

进一步的调查。我写了下面的简单程序：

#include <cmath>
#include <iostream>
#include <chrono>

#define CYCLE_NUM 1E+7

using namespace std;
using namespace std::chrono;

int main()
{
    double sum = 0.0;

    auto t1 = high_resolution_clock::now();
    for(int i = 1; i < CYCLE_NUM; i++)
    {
        sum += sin((double)(i)) / (double)(i);
    }
    auto t2 = high_resolution_clock::now();

    microseconds::rep t = duration_cast<microseconds>(t2-t1).count();

    cout << "sum = " << sum << endl;
    cout << "time = " << (double)(t) / 1.E+6 << endl;

    return 0;
}

我真的很想知道为什么这个简单的示例程序在 g++ 4.8.4 libc-2.19 (libm-2.19) 下比在 g++ 5.3.1 libc-2.23 (libm-2.23) 下快 2.5 倍。

编译命令是：

g++ -std=c++11 -O3 main.cpp -o sum

使用其他优化标志不会改变该比率。

我如何了解谁（gcc 或 libc）减慢了程序速度？

为了获得真正精确的答案，您可能需要 libm 维护人员来查看您的问题。但是，这是我的看法 - 将其作为草稿，如果我发现其他内容，我会将其添加到此答案中。

首先看GCC生成的asm，之间海湾合作委员会 4.8.2 https://godbolt.org/g/LtwXrv and gcc 5.3 https://godbolt.org/g/BBgqso。只有4处不同：

在开始时xorpd转变为pxor，对于相同的寄存器
a pxor xmm1, xmm1在从 int 转换为 double 之前添加 (cvtsi2sd)
a movsd在转换之前被移动
加法（addsd) 在比较之前被移动 (ucomisd)

所有这些可能还不足以导致性能下降。拥有一个优秀的分析器（例如英特尔）可以让我们更有结论性，但我无法使用它。

现在，有一个依赖sin，让我们看看发生了什么变化。问题首先是确定你使用的平台... glibc 中有 17 个不同的子文件夹sysdeps（其中定义了罪），所以我选择了x86_64 one.

首先，处理器功能的处理方式发生了变化，例如glibc/sysdeps/x86_64/fpu/multiarch/s_sin.c用于在 2.19 中对 FMA / AVX 进行检查，但在 2.23 中是在外部完成的。可能存在未正确报告功能的错误，导致不使用 FMA 或 AVX。然而，我认为这个假设不太合理。

其次，在.../x86_64/fpu/s_sinf.S，唯一的修改（除了版权更新之外）更改了堆栈偏移量，将其对齐到 16 字节； sincos 同上。不确定这会产生巨大的变化。

然而，2.23 添加了许多数学函数矢量化版本的源，其中一些使用 AVX512 - 您的处理器可能不支持，因为它确实是新的。也许 libm 尝试使用此类扩展，并且由于您没有它们，因此可以回退到通用版本吗？

EDIT:我尝试使用 gcc 4.8.5 编译它，但为此我需要重新编译 glibc-2.19。目前我无法链接，因为：

/usr/lib/gcc/x86_64-linux-gnu/4.8/../../../x86_64-linux-gnu/libm.a(s_sin.o): in function « __cos »:
(.text+0x3542): undefined reference to « _dl_x86_cpu_features »
/usr/lib/gcc/x86_64-linux-gnu/4.8/../../../x86_64-linux-gnu/libm.a(s_sin.o): in function « __sin »:
(.text+0x3572): undefined reference to « _dl_x86_cpu_features »

我将尝试解决此问题，但事先请注意，该符号很可能负责根据处理器选择正确的优化版本，这可能是性能影响的一部分。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令的相关文章

C++：无法使用scoped_allocator_adaptor传播polymorphic_allocator

我有一个vector
为什么 ConcurrentHashMap::putIfAbsent 比 ConcurrentHashMap::computeIfAbsent 更快？

使用 ConcurrentHashMap 我发现computeIfAbsent 比putIfAbsent 慢两倍这是简单的测试 import java util ArrayList import java util List import
在 Xamarin Android 中将图像从 URL 异步加载到 ImageView 中

我有一个包含多个项目的 ListView 列表中的每个项目都应该有一个与之关联的图像我创建了一个数组适配器来保存每个列表项并具有我希望加载的图像的 url 我正在尝试使用 Web 请求异步加载图像并设置图像并在加载后在视图中更新它但视
嵌入式系统中的malloc [重复]

这个问题在这里已经有答案了我正在使用嵌入式系统该应用程序在 AT91SAMxxxx 和 cortex m3 lpc17xxx 上运行我正在研究动态内存分配因为它会极大地改变应用程序的外观并给我更多的力量我认为我唯一真正的路线是为
Cygwin 下使用 CMake 编译库

我一直在尝试使用 CMake 来编译 TinyXML 作为一种迷你项目尝试学习 CMake 作为补充我试图将其编译成动态库并自行安装以便它可以工作到目前为止我已经设法编译和安装它但它编译成 dll 和 dll a 让它工作的唯一
使用 Microsoft Graph API 订阅 Outlook 推送通知时出现 400 错误请求错误

我正在尝试使用 Microsoft Graph API 创建订阅以通过推送通知获取 Outlook 电子邮件 mentions 我在用本文档 https learn microsoft com en us graph api subscri
将字符串从非托管代码传递到托管

我在将字符串从非托管代码传递到托管代码时遇到问题在我的非托管类中非托管类 cpp 我有一个来自托管代码的函数指针 TESTCALLBACK FUNCTION testCbFunc TESTCALLBACK FUNCTION 接受一个字符
c 中的错误：声明隐藏了全局范围内的变量

当我尝试编译以下代码时我收到此错误消息错误声明隐藏了全局范围内的变量无效迭代器节点根我不明白我到底在哪里隐藏或隐藏了之前声明的全局变量我怎样才能解决这个问题 typedef node typedef struct node
c# Asp.NET MVC 使用FileStreamResult下载excel文件

我需要构建一个方法它将接收模型从中构建excel 构建和接收部分完成没有问题然后使用内存流导出让用户下载它不将其保存在服务器上我是 ASP NET 和 MVC 的新手所以我找到了指南并将其构建为教程项目 public File
.Net Core / 控制台应用程序 / 配置 / XML

我第一次尝试使用新的 ConfigurationBuilder 和选项模式进入 Net Core 库这里有很多很好的例子 https docs asp net en latest fundamentals configuration ht
在 ASP.Net Core 2.0 中导出到 Excel

我曾经使用下面的代码在 ASP NET MVC 中将数据导出到 Excel Response AppendHeader content disposition attachment filename ExportedHtml xls Res
Windows 窗体不会在调试模式下显示

我最近升级到 VS 2012 我有一组在 VS 2010 中编码的 UI 测试我试图在 VS 2012 中启动它们我有一个 Windows 窗体在开始时显示使用 AssemblyInitialize 属性运行测试我使用此表单允许用户
编译的表达式树会泄漏吗？

根据我的理解 JIT 代码在程序运行时永远不会从内存中释放这是否意味着重复调用 Compile 表达式树上会泄漏内存吗这意味着仅在静态构造函数中编译表达式树或以其他方式缓存它们这可能不那么简单正确的他们可能是GCed Lambda
已过时 - OpenCV 的错误模式

我正在使用 OpenCV 1 进行一些图像处理并且对 cvSetErrMode 函数它是 CxCore 的一部分感到困惑 OpenCV 具有三种错误模式叶调用错误处理程序后程序终止 Parent 程序没有终止但错误处理程序被调
在Linux中使用C/C++获取机器序列号和CPU ID

在Linux系统中如何获取机器序列号和CPU ID 示例代码受到高度赞赏 Here http lxr linux no linux v2 6 39 arch x86 include asm processor h L173Linux 内核似
更改显示的 DPI 缩放大小使 Qt 应用程序的字体大小渲染得更大

我使用 Qt 创建了一些 GUI 应用程序我的 GUI 应用程序包含按钮和单选按钮等控件当我运行应用程序时按钮内的按钮和字体看起来正常当我将显示器的 DPI 缩放大小从 100 更改为 150 或 200 时无论分辨率如何控件的
C++ 成员函数中的“if (!this)”有多糟糕？

如果我遇到旧代码if this return 在应用程序中这种风险有多严重它是一个危险的定时炸弹需要立即在应用程序范围内进行搜索和销毁工作还是更像是一种可以悄悄留在原处的代码气味我不打算writing当然执行此操作的代码相反
为什么这个函数在额外读取内存时运行速度如此之快？

我目前正在尝试了解 x86 64 上某些循环的性能属性特别是我的 Intel R Core TM i3 8145U CPU 2 10GHz 处理器具体来说在循环体内添加一条额外的指令来读取内存几乎可以使性能提高一倍而细节并不是特别重
将 viewbag 从操作控制器传递到部分视图

我有一个带有部分视图的 mvc 视图控制器中有一个 ActionResult 方法它将返回 PartialView 因此我需要将 ViewBag 数据从 ActionResult 方法传递到 Partial View 这是我的控制器
为什么 strtok 会导致分段错误？

为什么下面的代码给出了Seg 最后一行有问题吗 char m ReadName printf nRead String s n m Writes OK char token token strtok m 如前所述读取字符串打印没有问题但

随机推荐

在 C++ 中使用相同的方法调用类中的非成员函数

我有一个带有名为的实例方法的类open并且需要调用C中声明的函数也称为open 遵循示例 void SerialPort open if open return fd open portName c str O RDWR O NOCTTY
在Java中使用命令行编译多个包

您好我一直在使用 IDE 但现在我需要从命令行运行和编译问题是我有多个软件包我试图找到答案但没有任何效果所以我有 src Support java files Me java files Wrapers java files 你知
SSDT SQL Server 数据库项目中用于架构比较的命令行/API？

在 Visual Studio 2012 中我们有Schema Compare http msdn microsoft com en us library hh272690 28v vs 103 29 aspx in SSDT http
如何在通过 .ajaxForm() 提交表单之前执行一些操作？

我正在使用 ajaxForm 框架来发送我的数据而无需重新加载我的页面 ReplayForm ajaxForm success function data alert Success 现在我想在提交表单之前检查一些条件如果条件为假则
matplotlibplot_surface命令的颜色条

我修改了mplot3d示例代码 http matplotlib sourceforge net examples mplot3d surface3d demo2 html在保罗的帮助下完成我的申请代码如下 from mpl toolkit
iOS 中的 CSV 逐行解析

我正在 Objective c 中解析 CSV 文件该文件包含如下内容 line 40 Rising searches line 41 nabi avc Breakout line 42 stonewall 700 line 43 med
如何使用Python在Django for Windows中激活虚拟环境？

我被告知要在 Django for Windows 中激活虚拟环境我应该尝试 environment path Scripts activate 但是当我输入该命令时 cmd 返回此错误该系统找不到指定的路径我通过输入以下命令创建了虚
如何使用 AFNetworking 2 按严格的顺序发送请求？

我正在进行同步以将 sqlite 数据库镜像到服务器数据库我有一个主从表其中的详细信息必须尽快发送到服务器但是细节 3 可能会先于细节 2 到达我需要模仿对文档执行的步骤并尊重操作的顺序当记录保存在本地时我会发送通知然后发布
MySQL集群启动失败

这不是我第一次创建ndbcluster 但我没有收到这样的问题我正在关注本手册 https hub docker com r mysql mysql cluster by mysql团队我正在使用回显的默认配置在此 GitHub 存储库
将 Matlab 数组移植到 C/C++

我正在将 matlab 程序移植到 C C 我有几个问题但最重要的问题之一是 Matlab 将任何维度的数组都视为相同假设我们有一个这样的函数 function result f A B C result A 2 B C A B and
Alt 键快捷键在使用 Vim 的 gnome 终端上不起作用

我在 gnome 终端上运行 Vim 但 alt 键映射不起作用例如 imap
具有更改用户代理上下文的 file_get_contents 不起作用

我正在尝试获取页面的阅读数和点赞数网址是 https mp weixin qq com s NPavBeHc8VdWXeSL6kfLRg https mp weixin qq com s NPavBeHc8VdWXeSL6kfLRg 您必
将 Hibernate 对象序列化为 JSON 时抛出异常

好吧我正在使用 Hibernate 将一个小型数据库加载到一些表示表的类并与数据库交互一切都很好我真的可以看到所有结果而且我没有任何空字段所有这些都已被使用这里我展示了主类表 import javax persistenc
Angular 4 过滤器搜索自定义管道

所以我试图构建一个自定义管道来在 ngFor 循环中执行多个值的搜索过滤器我花了几个小时寻找一个好的工作示例其中大多数都是基于以前的版本并且似乎不起作用所以我正在构建管道并使用控制台为我提供值但是我似乎无法显示输入文本以下是我
使用 HttpUrlConnection Android 将 base64 编码的图像发送到服务器

我正在尝试使用 HttpUrlConnection 将 base64 编码的图像发送到服务器我遇到的问题是大多数图像均已成功发送但有些图像会生成 FileNotFound 异常我的图像编码代码可以在下面找到 public static
将 Powershell 输出转换为 Markdown 文件

我有以下代码 xmlFile C Users kraer Desktop bom xml xml xml Get Content xmlFile xml bom components component ForEach Object fin
UNIX系统调用监视器

如何监控进程的系统调用 Check strace http linux die net man 1 strace 在最简单的情况下 strace 运行指定的命令直到退出它拦截并记录进程调用的系统调用以及进程接收的信号每个系统调用的名称
Google 地图删除标记路线上下文菜单

我使用 Android Studio 的 Google 地图模板启动了一个新项目并在地图上添加了一个标记 LatLng location new LatLng lat lng Marker marker mMap addMarker ne
Angular UI select：从远程服务获取数据

我正在使用角度用户界面选择 https github com angular ui ui select https github com angular ui ui select 我查看了演示的可用位置这个笨蛋 http plnkr co
使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令

最近我开始使用 Ubuntu 16 04 和 g 5 3 1 并检查我的程序是否运行慢3倍在此之前我使用过 Ubuntu 14 04 g 4 8 4 我用相同的命令构建它 CFLAGS std c 11 Wall O3 我的程序包含循环

使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令

使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令 的相关文章

随机推荐

热门标签

使用 g++ 5.3.1 编译的程序运行速度比使用 g++ 4.8.4 编译的相同程序慢 3 倍，相同的命令的相关文章