最近,我开始使用 Ubuntu 16.04 和 g++ 5.3.1 并检查我的程序是否运行慢3倍。
在此之前我使用过 Ubuntu 14.04、g++ 4.8.4。
我用相同的命令构建它:CFLAGS = -std=c++11 -Wall -O3
.
我的程序包含循环,充满数学调用(sin、cos、exp)。
你可以找到它here https://github.com/mediev/inclined_well/tree/gcc_bug.
我尝试使用不同的优化标志(O0、O1、O2、O3、Ofast)进行编译,但在所有情况下都会重现问题(Ofast 的两个变体运行速度更快,但第一个运行速度仍慢 3 倍)。
在我的程序中我使用libtinyxml-dev
, libgslcblas
。但在这两种情况下,它们具有相同的版本,并且在性能方面并不在程序中发挥任何重要作用(根据代码和 callgrind 分析)。
我已经进行了分析,但它并没有让我知道为什么会发生这种情况。Kcachegrind对比(左边较慢) https://i.stack.imgur.com/E19Q7.png。
我只注意到现在程序使用libm-2.23
相比libm-2.19
使用 Ubuntu 14.04。
我的处理器是 i7-5820k,Haswell。
我不知道为什么它变得更慢。你有什么想法?
附:下面你可以找到最耗时的函数:
void InclinedSum::prepare3D()
{
double buf1, buf2;
double sum_prev1 = 0.0, sum_prev2 = 0.0;
int break_idx1, break_idx2;
int arr_idx;
for(int seg_idx = 0; seg_idx < props->K; seg_idx++)
{
const Point& r = well->segs[seg_idx].r_bhp;
for(int k = 0; k < props->K; k++)
{
arr_idx = seg_idx * props->K + k;
F[arr_idx] = 0.0;
break_idx2 = 0;
for(int m = 1; m <= props->M; m++)
{
break_idx1 = 0;
for(int l = 1; l <= props->L; l++)
{
buf1 = ((cos(M_PI * (double)(m) * well->segs[k].r1.x / props->sizes.x - M_PI * (double)(l) * well->segs[k].r1.z / props->sizes.z) -
cos(M_PI * (double)(m) * well->segs[k].r2.x / props->sizes.x - M_PI * (double)(l) * well->segs[k].r2.z / props->sizes.z)) /
( M_PI * (double)(m) * tan(props->alpha) / props->sizes.x + M_PI * (double)(l) / props->sizes.z ) +
(cos(M_PI * (double)(m) * well->segs[k].r1.x / props->sizes.x + M_PI * (double)(l) * well->segs[k].r1.z / props->sizes.z) -
cos(M_PI * (double)(m) * well->segs[k].r2.x / props->sizes.x + M_PI * (double)(l) * well->segs[k].r2.z / props->sizes.z)) /
( M_PI * (double)(m) * tan(props->alpha) / props->sizes.x - M_PI * (double)(l) / props->sizes.z )
) / 2.0;
buf2 = sqrt((double)(m) * (double)(m) / props->sizes.x / props->sizes.x + (double)(l) * (double)(l) / props->sizes.z / props->sizes.z);
for(int i = -props->I; i <= props->I; i++)
{
F[arr_idx] += buf1 / well->segs[k].length / buf2 *
( exp(-M_PI * buf2 * fabs(r.y - props->r1.y + 2.0 * (double)(i) * props->sizes.y)) -
exp(-M_PI * buf2 * fabs(r.y + props->r1.y + 2.0 * (double)(i) * props->sizes.y)) ) *
sin(M_PI * (double)(m) * r.x / props->sizes.x) *
cos(M_PI * (double)(l) * r.z / props->sizes.z);
}
if( fabs(F[arr_idx] - sum_prev1) > F[arr_idx] * EQUALITY_TOLERANCE )
{
sum_prev1 = F[arr_idx];
break_idx1 = 0;
} else
break_idx1++;
if(break_idx1 > 1)
{
//std::cout << "l=" << l << std::endl;
break;
}
}
if( fabs(F[arr_idx] - sum_prev2) > F[arr_idx] * EQUALITY_TOLERANCE )
{
sum_prev2 = F[arr_idx];
break_idx2 = 0;
} else
break_idx2++;
if(break_idx2 > 1)
{
std::cout << "m=" << m << std::endl;
break;
}
}
}
}
}
进一步的调查。
我写了下面的简单程序:
#include <cmath>
#include <iostream>
#include <chrono>
#define CYCLE_NUM 1E+7
using namespace std;
using namespace std::chrono;
int main()
{
double sum = 0.0;
auto t1 = high_resolution_clock::now();
for(int i = 1; i < CYCLE_NUM; i++)
{
sum += sin((double)(i)) / (double)(i);
}
auto t2 = high_resolution_clock::now();
microseconds::rep t = duration_cast<microseconds>(t2-t1).count();
cout << "sum = " << sum << endl;
cout << "time = " << (double)(t) / 1.E+6 << endl;
return 0;
}
我真的很想知道为什么这个简单的示例程序在 g++ 4.8.4 libc-2.19 (libm-2.19) 下比在 g++ 5.3.1 libc-2.23 (libm-2.23) 下快 2.5 倍。
编译命令是:
g++ -std=c++11 -O3 main.cpp -o sum
使用其他优化标志不会改变该比率。
我如何了解谁(gcc 或 libc)减慢了程序速度?