C 性能和编译选项

2024-03-21

对于像选择排序这样的简单算法，我有两个类似的实现（java 和 c++）。

public interface SortingAlgorithm {

    public void sort(int[] a);
}

public class SelectionSort implements SortingAlgorithm {

    @Override
    public void sort(int[] a) {
        for (int i = 0; i < a.length; i++) {
            int lowerElementIndex = i;
            for (int j = i + 1; j < a.length; j++) {
                if (a[j] < a[lowerElementIndex]) {
                    lowerElementIndex = j;
                }
            }
            swap(a, lowerElementIndex, i);
        }
    }

    private void swap(int[] a, int i, int j) {
        if (i == j) {
            return;
        }
        int temp = a[i];
        a[i] = a[j];
        a[j] = temp;
    }
}

和 c 一个：

inline void swap(int* a, int i, int j);

void s_sort(int* a, int size) {
  int i;
  for (i = 0; i < size; i++) {
    int lowerElementIndex = i, j;
    for (j = i + 1; j < size; j++) {
      if (a[j] < a[lowerElementIndex]) {
    lowerElementIndex = j;
      }
    }
    swap(a, lowerElementIndex, i);
  }
}

inline void swap(int* a, int i, int j) {
  if (i == j) {
    return;
  }
  int temp = a[i];
  a[i] = a[j];
  a[j] = temp;
}

现在，我尝试在大型数组（100000 个随机整数）上测试它们。一开始的结果是 java：~17秒（使用oracle jdk/jvm编译并执行） c: ~22 秒（使用 gcc v4.8 编译，未进行任何优化）

当然，我随后尝试通过cflags优化我的c版本。结果是（我只报告 cflags）： -O1：~18.4

-氧气：~18.4

-O{3-9}：~20.9

现在，我的第一个问题是我应该使用哪个 cflac 来编译？

所以我阅读了有关优化的 gnu 手册。添加 -march=native 没有帮助。经过一段时间尝试其他选项后，我进入了 -fprofile-arcs 选项。将其添加到我的标志中使我的代码在大约 11 秒内完成测试！然而，一些文件出现在我的文件夹中：分析的结果。据我了解，我应该将它们与 -fbranch-probabilities 一起使用并重新编译代码。大约 18.5 秒内再次重新编译结果。这才是我真正想问的。

如果我的程序必须写入文件并收集分析信息，那么它怎么可能运行得这么快，而在不需要写入文件和收集分析信息时，它的运行速度会慢 1.5 倍？

我忘了提及，我使用的是一台安装了 Intel Celeron @2.8GHz 处理器和 Linux（带有 xfce 的 Fedora 20）的旧 PC。如果您需要有关硬件的其他信息，请询问！ ;)

编辑：我用于测试的代码是：

Java:

public class Test {

    public static void main(String[] args) {
        int[] a = new int[100000];
        int[] a2 = new int[100000];
        for (int i = 0; i < a.length; i++) {
            a[i] = (int)(Math.random()*100000);
            a2[i] = a[i];
        }
        SelectionSort s = new SelectionSort();
        InsertionSort s1 = new InsertionSort();
        double start = System.nanoTime();
        s.sort(a);
        double end = System.nanoTime();
        double time = (end-start)/1000000000.0; 
        System.out.println("Selection: "+time);
        start = System.nanoTime();
        s1.sort(a2);
        end = System.nanoTime();
        time = (end-start)/1000000000.0;
        System.out.println("Insertion: "+time);
    }
}

还有c：

#include "insertion_sort.h"
#include "selection_sort.h"
#include <time.h>
#include <stdlib.h>
#include <stdio.h>
#include <string.h>

int main() {
  int max = 100000, i;
  srand(time(NULL));

  int array[100000], array2[100000];
  for(i=0; i<100000; i+=1) {
    array[i] = rand()%100000;
  }

  memcpy(array2, &array[0], 100000 * sizeof(int));

  clock_t inizio = clock();
  s_sort(array, max);
  clock_t fine = clock();
  float tempoEsecuzione = (float)(fine - inizio) / CLOCKS_PER_SEC;
  printf("Selection: %2.3f\n", tempoEsecuzione);

  inizio = clock();
  i_sort(array2, max);
  fine = clock();
  tempoEsecuzione = (float)(fine - inizio) / CLOCKS_PER_SEC;
  printf("Insertion: %2.3f\n", tempoEsecuzione);
  return 0;
}

该代码包含对插入排序函数的引用，我没有将其包含在问题的其余部分中，因为（如预期的那样）java 的运行速度比 c 慢。

这才是我真正想问的。

如果我的程序必须写的话怎么可能运行得这么快文件并收集分析信息，但它运行了 1.5 次没有的时候会慢一些吗？

是的，这才是真正的问题。提及所有 Java 比较的内容只会增加噪音。

我可以使用 gcc 4.7.2 在我的机器上重现奇怪的行为。毫不奇怪，代码的热路径是内部 for 循环：

for (j = i + 1; j < size; j++) {
  if (a[j] < a[lowerElementIndex]) {
    lowerElementIndex = j;
}

相应生成的汇编代码中唯一相关的区别是：

快速案例：

    cmpl    %esi, %ecx
    jge .L3
    movl    %ecx, %esi
    movslq  %edx, %rdi
.L3:

慢的情况：

cmpl    %ecx, %esi
cmovl   %edx, %edi
cmovl   %esi, %ecx

第一种情况（快）可以大大受益分支预测 http://en.wikipedia.org/wiki/Branch_predictor但另一个（慢情况）显然不能。排序或随机打乱的数组不会造成太大影响分支错误预测 http://en.wikipedia.org/wiki/Branch_misprediction。在这种情况下，第一个代码片段是最佳的。

事实证明，创建一个在选择排序中导致大量分支预测错误的数据集实际上很困难。（有人指出Yakk https://stackoverflow.com/questions/21055946/why-does-tree-vectorization-make-this-sorting-algorithm-2x-slower#comment31663387_21055946;也可以看看我的尝试 https://stackoverflow.com/questions/21055946/why-does-tree-vectorization-make-this-sorting-algorithm-2x-slower#comment31676824_21055946创建一个邪恶的数据集；到目前为止，我未能创建一个。）

The -fprofile-arcs碰巧禁用了树向量化，这似乎是生成缓慢案例代码的原因。禁用树向量化的更好方法是传递-fno-tree-vectorize flag.

clang 3.4 还生成快速案例代码，没有任何特殊标志。 Java代码without预热运行速度比 C 代码慢 2.4 倍。（因为这不是问题，所以我没有考虑提高 Java 代码性能。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

C 性能和编译选项的相关文章

iText7 将 SVG 添加到 PdfDocument 中以及可能出现的问题

关于问题的答案如何使用 iText7 将 SVG 添加到 PDF 这是一个链接点击这里 https stackoverflow com questions 50059456 how to add an svg to a pdf using
有没有办法提高linux管道的性能？

我正在尝试使用 64 位将超高速数据从一个应用程序传输到另一个应用程序CentOS http en wikipedia org wiki CentOS6 我使用以下方法进行了基准测试dd发现阻碍我的是管道而不是程序中的算法我的目标是达到
DataContractJsonSerializer 包含元素类型子类型的通用列表

我要使用DataContractJsonSerializer用于 JSON 序列化反序列化我在 JSON 数组中有两种对象类型并希望将它们都反序列化为相应的对象类型具有以下类定义 DataContract public class
不可能的事情发生了！这是什么意思？

我遇到了一个有趣的运行时错误我认为这是某种内存泄漏我写了以下程序 C Code include
如何在Phone类库项目中添加ResourceDictionary并访问它

我正在开发一个项目其中我有一个引用图书馆项目的子项目在我的库项目电话类库中如何创建 ResourceDictionary xaml 其中我需要添加一些样式并在 xaml 文件和 cs 文件中使用它我需要访问 xaml 文件中的
在 Streamreduce 方法中，求和时恒等式必须始终为 0，乘法时恒等式必须始终为 1？

我继续java 8学习我发现了一个有趣的行为让我们看一下代码示例 identity value and accumulator and combiner Integer summaryAge Person getPersons stre
如何从Java中的连接获取查询字符串？

我正在编写一个方法尝试记录数据库调用形成连接到它的连接在查询之后有很多地方调用方法 connect 来启动并调用 cleanUp 方法来结束我不能并且不想修改每个地方所以顺序是这样的 Connection con connect
如何使 gcc 为 -fpatchable-function-entry 发出多字节 NOP？

gcc确实有能力使用多字节用于对齐循环和函数的 NOP 然而当我尝试 fpatchable function entry option https gcc gnu org onlinedocs gcc Instrumentation Opt
C# 或 Windows 相当于 OS X 的 Core Data？

我迟到了现在才开始在 OS X Cocoa 中使用 Core Data 它令人难以置信并且确实改变了我看待事物的方式 C 或现代 Windows 框架中是否有等效的技术即拥有可免费保存数据管理删除搜索的托管数据类型还想知道Li
Spring Boot中服务接口类的用途

我的问题是关于接口类的使用我对 Spring 还很陌生所以如果这过于简单请耐心等待首先当您可以在 BoxService 中声明 find all 时这里拥有 IBoxService 接口有什么意义其次在控制器中如何使用IBo
从数字列表中生成所有唯一对，n 选择 2

我有一个元素列表假设是整数我需要进行所有可能的两对比较我的方法是 O n 2 我想知道是否有更快的方法这是我在java中的实现 public class Pair public int x y public Pair int x i
将华氏温度转换为摄氏度的 C 程序始终打印零

我需要一些关于用 C 语言将华氏温度转换为摄氏度的程序的帮助我的代码如下所示 include
如何从 jenkins 的现有项目生成 .hpi 插件

我正在尝试使用 jenkins 的性能插件但最新版本存在一些问题如链接中所述 https issues jenkins ci org browse JENKINS 27100 https issues jenkins ci org br
Jackson 的 ObjectMapper 和 SQL 中的 RowMapper

我们正在使用对象映射器当将 ObjectMapper 与 RowMapper 一起使用时是否应该在每个 mapRow 内部如下所示声明它还是在 mapRow 外部声明为类公共成员我认为根据本文它应该作为公共类成员在外部我应该
在标准 C 中将 int 转换为 string

我是 C 新手我正在寻找一个可以调用函数进行转换的示例int串起来我发现itoa但这不是标准 C 的一部分我还发现sprintf str d aInt 但问题是我不知道所需的 str 的大小因此我如何传递输出字符串的正确大小有多
使用 QTestLib 时抑制 qDebug

我正在向 Qt 中的项目添加单元测试并希望使用 QTestLib 我已经设置了测试并且它们运行良好问题是在项目中我们重写了 qDebug 以输出到我们自己的日志文件这在运行应用程序时效果很好问题是当我测试类时它有时会开始记录然后
用 lambda 表达式替换匿名函数

我在 Java 8 映射操作中传递一个函数 Intellij 告诉我它可以用 lambda 表达式替换但我不知道如何在不创建中间对象结构的情况下做到这一点这就是我所做的 List
在没有 ODBC 的情况下从 Java 操作 Access 数据库

我想从我的 Java 项目操作 Microsoft Access 数据库 accdb 或 mdb 文件我不想使用 Microsoft 的 JDBC ODBC Bridge 和 Access ODBC 驱动程序因为 JDBC ODBC 桥
为什么 GCC 在堆栈上压入额外的返回地址？

我目前正在学习汇编的基础知识在查看 GCC 6 1 1 生成的指令时遇到了一些奇怪的情况这是来源 include
为什么在 data.frame 中预先指定类型会比较慢？

我预先分配了一个大 data frame 以便稍后填写我通常这样做NA是这样的 n lt 1e6 a lt data frame c1 1 n c2 NA c3 NA 我想知道如果我预先指定数据类型是否会让事情变得更快所以我测试了 f1

随机推荐

缺少适用于 Windows 的远程 iOS 模拟器选项？ [复制]

这个问题在这里已经有答案了我一直在使用适用于 Windows 的 Xamarin Remote iOS Simulator 和 Visual Studio Professional 版本更新到最新版本的 Xamarin for Visu
如何对 ksh 中的变量进行精确的单词匹配？

我使用以下语法作为 ksh 脚本的一部分来验证该词是否Validation存在于LINE FROM FILE LINE FROM FILE Validation LINE FROM FILE print match Validation 这
反应本机导航给出错误“未定义不是对象”？

import Platform from react native import Navigation from react native navigation import registerScreens from screens reg
使用扩展运算符和打字进行解构

我有这个对象 const ABCD a 1 b 2 c 3 d 4 我可以对其进行解构使用扩展运算符收集其余部分然后输入如下变量 const a b restOfIt a number b number ABCD 但我该如何输入re
GitHub 如何在不重新加载页面的情况下更改 URL？

转到任意 GitHubpage https github com twitter bootstrap单击任意目录文件观察 URL 如何变化但仅更新部分页面没有整个页面重新加载我如何使用 jQuery 做类似的事情这适用于大多数浏
如何在 Python 中将 JSON 字符串转换为字典？

我已经阅读了有关从 str 到 dic 的 python 转换的不同帖子但我仍然遇到问题并且无法在字典中转换我的 str 这是我原来的字符串 faqId 1 isPrivate false question Question 1 ans
WCF 绑定配置仅作为默认值应用，但命名失败

WCF 绑定和流传输模式有一个有趣的问题我们无法解决我们有一个配置为流传输模式的 WCF 端点端点接收到的消息比默认大小 65 KB 大得多因此我们在绑定标记的 maxReceivedMessageSize 属性中指定了更大的消息
什么是“分段错误（核心转储）”？ [复制]

这个问题在这里已经有答案了我正在尝试在 Linux 中编写一个具有 sqrt 参数的 C 程序代码如下 include
更改 Javascript 警报的标题 [重复]

这个问题在这里已经有答案了如何更改 javascript 警报弹出窗口的标题你不能 https developer mozilla org en US docs DOM window alert 这是由浏览器决定的为了用户的安全例如
小吃店不显示

我继承自BaseActivity对于所有其他活动 public class BaseActivity extends AppCompatActivity public static CoordinatorLayout coordinator
Mysql：一般错误：1366 字符串值不正确

今天我在开发基于 PHP MySql 和 Zend Framework 的应用程序时遇到错误此外我正在使用phpseclib http phpseclib sourceforge net 使用加密数据AES算法 http en wik
如何获取任意矩阵的缩放值？

图像按矩阵缩放 Matrix matrix new Matrix matrix postScale matrix postTranslate matrix postRotate 我希望缩放后的图像不会小于原始图像的一半因此总缩放不应小于0
如何使用 GCC 和 Linux 子系统为 Windows 编译可执行文件？

Windows 10 周年更新包括适用于 Ubuntu 的 Linux 子系统我安装了 gccsudo apt get install gcc 我写了一些简单的 C 代码用于测试目的 include
PHP 验证复选框

我搜索了整个互联网试图找到我在这里缺少的东西或做错的事情的解决方案即使选中该复选框我的表单也不会验证其他一切都很好这是我无法正常工作的复选框我尝试了许多不同的想法但即使选中条款它也不会验证例如下面的示例这是我的 H
如果前一个请求正在运行，如何取消 $.ajax 请求？ [复制]

这个问题在这里已经有答案了我有这段简单的代码 document on input addFoodSearch function event var search this val ajax url ajax search food php
SQL Server：UNION 后的 INNER JOIN 导致哈希匹配（聚合）缓慢

这是一个会减慢整个存储过程速度的 CTE select from finalResults where intervalEnd is not null union select two startTime two endTime two i
无法让 MailChimp 使用 API 和 Curl 保存我的数据

我已经尝试过使用curl将数据发送到MailChimp但无法获取要保存在 MailChimp 中的数据任何对此的帮助将不胜感激这是我的代码 mailChimpUrl http us2 api mailchimp com 1 3 met
让 Preferences API 在 Android 和 PC 上运行

我想从在 PC 或 Android 手机上运行的草图中保存用户首选项并尽可能使用标准 Java 方式中的相同代码适合我的目的的理想候选者似乎是 java util prefs Preferences 类因此我编写了一个小测试脚本来
使用 socket.io 和 webpack-dev-server 时出错

快速问一下大家我正在尝试将 webpack dev server 与 socketio 一起使用但是在尝试了不同的操作之后我认为两个客户端都在监听相同的端口 3000 并且最终出现了某种握手错误如果我不在同一端口上使用 webpack
C 性能和编译选项

对于像选择排序这样的简单算法我有两个类似的实现 java 和 c public interface SortingAlgorithm public void sort int a public class SelectionSort im

C 性能和编译选项

C 性能和编译选项 的相关文章

随机推荐

热门标签

C 性能和编译选项的相关文章