在 C++ 中迭代链表比在 Go 中慢

2024-04-16

编辑：收到一些反馈后，我创建了一个新的例子 https://stackoverflow.com/questions/50282452/iterating-over-linked-list-in-c-is-slower-than-in-go-with-analogous-memory-ac这应该更具可重复性。

我一直在用 C++ 编写一个项目，其中涉及大量链表迭代。为了获得基准，我用 Go 重写了代码。令人惊讶的是，我发现 Go 实现的运行速度始终快了约 10%，即使在将 -O 标志传递给 clang++ 后也是如此。也许我只是错过了 C++ 中的一些明显的优化，但我已经用头撞墙一段时间了，进行了各种调整。

这是一个简化版本，在 C++ 和 Go 中具有相同的实现，其中 Go 程序运行得更快。它所做的只是创建一个包含 3000 个节点的链表，然后计算迭代该列表 1,000,000 次所需的时间（C++ 中为 7.5 秒，Go 中为 6.8 秒）。

C++:

#include <iostream>
#include <chrono>

using namespace std;
using ms = chrono::milliseconds;

struct Node {
    Node *next;
    double age;
};

// Global linked list of nodes
Node *nodes = nullptr;

void iterateAndPlace(double age) {
    Node *node = nodes;
    Node *prev = nullptr;

    while (node != nullptr) {
        // Just to make sure that age field is accessed
        if (node->age > 99999) {
            break;
        }

        prev = node;
        node = node->next;
    }

    // Arbitrary action to make sure the compiler
    // doesn't optimize away this function
    prev->age = age;
}

int main() {
    Node x = {};
    std::cout << "Size of struct: " << sizeof(x) << "\n"; // 16 bytes

    // Fill in global linked list with 3000 dummy nodes
    for (int i=0; i<3000; i++) {
        Node* newNode = new Node;
        newNode->age = 0.0;
        newNode->next = nodes;
        nodes = newNode;
    }

    auto start = chrono::steady_clock::now();
    for (int i=0; i<1000000; i++) {
        iterateAndPlace(100.1);
    }

    auto end = chrono::steady_clock::now();
    auto diff = end - start;
    std::cout << "Elapsed time is :  "<< chrono::duration_cast<ms>(diff).count()<<" ms "<<endl;
}

Go:

package main
import (
    "time"
    "fmt"
    "unsafe"
)

type Node struct {
    next *Node
    age float64
}

var nodes *Node = nil

func iterateAndPlace(age float64) {
    node := nodes
    var prev *Node = nil

    for node != nil {
        if node.age > 99999 {
            break
        }
        prev = node
        node = node.next
    }

    prev.age = age
}

func main() {
    x := Node{}
    fmt.Printf("Size of struct: %d\n", unsafe.Sizeof(x)) // 16 bytes

    for i := 0; i < 3000; i++ {
        newNode := new(Node)
        newNode.next = nodes
        nodes = newNode
    }

    start := time.Now()
    for i := 0; i < 1000000; i++ {
        iterateAndPlace(100.1)
    }
    fmt.Printf("Time elapsed: %s\n", time.Since(start))
}

我的 Mac 的输出：

$ go run minimal.go
Size of struct: 16
Time elapsed: 6.865176895s

$ clang++ -std=c++11 -stdlib=libc++ minimal.cpp -O3; ./a.out
Size of struct: 16
Elapsed time is :  7524 ms

铿锵版本：

$ clang++ --version
Apple LLVM version 8.0.0 (clang-800.0.42.1)
Target: x86_64-apple-darwin15.6.0
Thread model: posix

编辑： UKMonkey 提出了这样一个事实：在 Go 中节点可以连续分配，但在 C++ 中则不行。为了测试这一点，我在 C++ 中使用向量连续分配，这并没有改变运行时：

// Fill in global linked list with 3000 contiguous dummy nodes
vector<Node> vec;
vec.reserve(3000);
for (int i=0; i<3000; i++) {
    vec.push_back(Node());
}

nodes = &vec[0];
Node *curr = &vec[0];
for (int i=1; i<3000; i++) {
    curr->next = &vec[i];
    curr = curr->next;
    curr->age = 0.0;
}

我检查了生成的链表确实是连续的：

std::cout << &nodes << " " << &nodes->next << " " << &nodes->next->next << " " << &nodes->next->next->next << "\n";
0x1032de0e0 0x7fb934001000 0x7fb934001010 0x7fb934001020

前言：我不是C++专家或汇编专家。但我对其中的一点了解，也许足以构成危险。

所以我很生气，决定看一下为 Go 生成的汇编器，然后根据 clang++ 的输出检查它。

高层总结

稍后，我将在 x86-64 汇编器中查看两种语言的汇编器输出。本例中代码的基本“关键部分”是一个非常紧密的循环。因此，它是该计划所花费时间的最大贡献者。

紧密循环之所以重要，是因为现代 CPU 执行指令的速度通常比从内存加载要引用的代码（例如比较）的相关值要快。为了达到惊人的速度，CPU 执行了许多技巧，包括流水线、分支预测等。紧密循环通常是流水线的祸根，并且实际上，如果值之间存在依赖关系，则分支预测可能只有很小的帮助。

从根本上来说，遍历循环有四个主要块：

1. If `node` is null, exit the loop.
2. If `node.age` > 999999, exit the loop.
3a. set prev = node
3b. set node = node.next

其中每一个都由多个汇编指令表示，但 Go 和 C++ 输出的块的顺序不同。 C++ 有效地按顺序执行此操作3a, 1, 2, 3b。 Go 版本按顺序执行3, 2, 1。（它在段 2 上启动第一个循环，以避免在空检查之前发生赋值）

实际上，clang++ 输出的指令比 Go 少，并且应该执行更少的 RAM 访问（以多一个浮点寄存器为代价）。人们可能会想象，只是以不同的顺序执行几乎相同的指令，最终会花费相同的时间，但这并没有考虑流水线和分支预测。

要点如果这是一个关键但很小的循环，人们可能会想要手动优化此代码并编写汇编。忽略明显的原因（它更危险/更复杂/更容易出现错误），还需要考虑到，虽然 Go 生成的代码对于我测试的两个 Intel x86-64 处理器来说更快，但对于 AMD处理器你会得到相反的结果。使用第 N+1 代英特尔，您也可能会得到不同的结果。

我的完整调查如下：

调查

NOTE我已经剪掉了尽可能短的示例，包括截断文件名，并从程序集列表中删除多余的内容，因此您的输出可能与我的输出略有不同。但无论如何，我继续。

所以我跑了go build -gcflags -S main.go要获得此程序集列表，我只真正查看 iterateAndPlace。

"".iterateAndPlace STEXT nosplit size=56 args=0x8 locals=0x0
    00000 (main.go:16)   TEXT    "".iterateAndPlace(SB), NOSPLIT, $0-8
    00000 (main.go:16)   FUNCDATA    $0, gclocals·2a5305abe05176240e61b8620e19a815(SB)
    00000 (main.go:16)   FUNCDATA    $1, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
    00000 (main.go:17)   MOVQ    "".nodes(SB), AX
    00007 (main.go:17)   MOVL    $0, CX
    00009 (main.go:20)   JMP 20
    00011 (main.go:25)   MOVQ    (AX), DX
    00014 (main.go:25)   MOVQ    AX, CX
    00017 (main.go:25)   MOVQ    DX, AX
    00020 (main.go:20)   TESTQ   AX, AX
    00023 (main.go:20)   JEQ 44
    00025 (main.go:21)   MOVSD   8(AX), X0
    00030 (main.go:21)   MOVSD   $f64.40f869f000000000(SB), X1
    00038 (main.go:21)   UCOMISD X1, X0
    00042 (main.go:21)   JLS 11
    00044 (main.go:21)   MOVSD   "".age+8(SP), X0
    00050 (main.go:28)   MOVSD   X0, 8(CX)
    00055 (main.go:29)   RET

如果您丢失了上下文，我将在此处粘贴带有行号的原始列表：

16  func iterateAndPlace(age float64) {
17      node := nodes
18      var prev *Node = nil
19
20      for node != nil {
21          if node.age > 99999 {
22              break
23          }
24          prev = node
25          node = node.next
26      }
27
28      prev.age = age
29  }

我立即注意到一些有趣的事情：

它没有为第 24 行生成任何代码，prev = node。那是因为它意识到赋值可能会被欺骗：在遍历中得到node.next它使用 CX 寄存器，其值为prev。这可能是 SSA 编译器可以实现的一个很好的优化，但它是多余的。
检查node.age的if语句被重新排序为after the node = node.next东西，在第一次迭代时被跳过。在这种情况下，您可以将其视为更像 do..while 循环。总体来说很小，因为它只真正改变了第一次迭代。但也许这就足够了？

那么让我们跳到 C++ 程序集，您可以从中获得clang++ -S -mllvm --x86-asm-syntax=intel -O3 minimal.cpp.

.quad   4681608292164698112     ## double 99999
# note I snipped some stuff here
__Z15iterateAndPlaced:                  ## @_Z15iterateAndPlaced
## BB#0:
    push    rbp
Lcfi0:
    .cfi_def_cfa_offset 16
Lcfi1:
    .cfi_offset rbp, -16
    mov rbp, rsp
Lcfi2:
    .cfi_def_cfa_register rbp
    mov rcx, qword ptr [rip + _nodes]
    xor eax, eax
    movsd   xmm1, qword ptr [rip + LCPI0_0] ## xmm1 = mem[0],zero
    .p2align    4, 0x90
LBB0_2:                                 ## =>This Inner Loop Header: Depth=1
    mov rdx, rax
    mov rax, rcx
    movsd   xmm2, qword ptr [rax + 8] ## xmm2 = mem[0],zero
    ucomisd xmm2, xmm1
    ja  LBB0_3
## BB#1:                                ##   in Loop: Header=BB0_2 Depth=1
    mov rcx, qword ptr [rax]
    test    rcx, rcx
    mov rdx, rax
    jne LBB0_2
LBB0_3:
    movsd   qword ptr [rdx + 8], xmm0
    pop rbp
    ret

这真的很有趣。生成的程序集总体上相当相似（忽略汇编程序列出语法的细微差别）-它对不分配进行了类似的优化prev。此外，C++ 似乎已经消除了每次比较时加载 99999 的需要（Go 版本在每次比较之前加载它）。

出于复制目的，我使用的版本（在 OSX High Sierra 上的 x86-64 darwin mac 上）

$ go version
go version go1.9.3 darwin/amd64

$ clang++ --version
Apple LLVM version 9.0.0 (clang-900.0.39.2)
Target: x86_64-apple-darwin17.4.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 C++ 中迭代链表比在 Go 中慢的相关文章

OpenCv读/写视频色差

我试图简单地使用 openCV 打开视频处理帧并将处理后的帧写入新的视频文件我的问题是即使我根本不处理帧只是打开视频使用 VideoCapture 读取帧并使用 VideoWriter 将它们写入新文件输出文件看起来比输入更绿
向 ExpandoObject 添加方法时，“关键字 'this' 在静态属性、静态方法或静态字段初始值设定项中无效”

我尝试向 ExpandoObject 添加一个动态方法该方法将返回属性动态添加给它但它总是给我错误我在这里做错了什么吗 using System using System Collections Generic using Sys
32 位应用程序的特征最大矩阵大小

所以我正在寻找Eigen http eigen tuxfamily org index php title Main Page当我尝试声明大于 10000x10000 的矩阵时包崩溃我需要声明一个像这样的矩阵可靠地大约有 13000
对齐 GridView 中的行值

我需要在 asp net 3 5 中右对齐 gridview 列中的值我怎样才能做到这一点
如何使用recv()检测客户端是否仍然连接（并且没有挂起）？

我写了一个多客户端服务器程序C on SuSE Linux 企业服务器 12 3 x86 64 我为每个客户端使用一个线程来接收数据我的问题是我使用一个终端来运行服务器并使用其他几个终端来运行服务器telnet到我的服务器作为客户端
暂停下载线程

我正在用 C 编写一个非常简单的批量下载程序该程序读取要下载的 URL 的 txt 文件我已经设置了一个全局线程和委托来更新 GUI 按下开始按钮即可创建并启动该线程我想要做的是有一个暂停按钮使我能够暂停下载直到点击恢复
IronPython：没有名为 json 的模块

我安装了 IronPython 我的 python 文件如下所示 import sys print sys version import json 运行它的代码 var p Python CreateEngine var scope p C
基于xsd模式生成xml（使用.NET）

我想根据我的 xsd 架构 cap xsd 生成 xml 文件我找到了这篇文章并按照说明进行操作使用 XSD 文件生成 XML 文件 https stackoverflow com questions 6530424 generatin
C# 中条件编译符号的编译时检查（参见示例）？

在 C C 中你可以这样做 define IN USE 1 define NOT IN USE 1 define USING system 1 system 1 IN USE 进而 define MY SYSTEM IN USE if US
为什么我不应该对不是由 malloc() 分配的变量调用 free() ？

我在某处读到使用它是灾难性的free删除不是通过调用创建的对象malloc 这是真的为什么这是未定义的行为永远不要尝试它让我们看看当您尝试时会发生什么free 自动变量堆管理器必须推断出如何获取内存块的所有权为此它要么必须使
当模板类不包含可用的成员函数时，如何在编译时验证模板参数？

我有以下模板struct template
获取 2 个数据集 c# 中的差异

我正在编写一个简短的算法它必须比较两个数据集以便可以进一步处理两者之间的差异我尝试通过合并这两个数据集并将结果更改放入新的数据集来实现此目标我的方法如下所示 private DataSet ComputateDiff DataSet
是否可以有一个 out ParameterExpression？

我想定义一个 Lambda 表达式out范围有可能做到吗下面是我尝试过的 C Net 4 0 控制台应用程序的代码片段正如您在 procedure25 中看到的我可以使用 lambda 表达式来定义具有输出参数的委托但是当我想使
耐用功能是否适合大量活动？

我有一个场景需要计算 500k 活动都是小算盘由于限制我只能同时计算 30 个想象一下下面的简单示例 FunctionName Crawl public static async Task
结构体指针的动态数组

我必须使用以下代码块来完成学校作业严格不进行任何修改 typedef struct char firstName char lastName int id float mark pStudentRecord pStudentRecord
使用 C# 从 DateTime 获取日期

愚蠢的问题给定日期时间中的日期我知道它是星期二例如我如何知道它的 tue 2 和 mon 1 等 Thanks 您正在寻找星期几 http msdn microsoft com en us library system datetim
双精度类型二维多维数组的 pinvoke 编组作为 c# 和 c++ 之间的输入和输出

我有以下我正在尝试解决的双物质类型的 2d 多维数组的 c 和 c pinvoke 编组我已经查看了以下热门内容以获得我目前拥有的内容使用双精度数组进行 P Invoke 在 C 和 C 之间编组数据 https stackoverflo
带重定向标准流的 C# + telnet 进程立即退出

我正在尝试用 C 做一个脚本化 telnet 项目有点类似于Tcl期望 http expect nist gov 我需要为其启动 telnet 进程并重定向和处理其 stdin stdout 流问题是生成的 telnet 进程在
实例化 Microsoft.Office.Interop.Excel.Application 对象时出现错误：800700c1

实例化 Microsoft Office Interop Excel Application 以从 winforms 应用程序生成 Excel 时出现以下错误这之前是有效的但突然间它停止工作了尽管代码和 Excel 版本没有变化我
匿名结构体作为返回类型

下面的代码编译得很好VC 19 00 23506 http rextester com GMUP11493 标志 Wall WX Za 与VC 19 10 25109 0 标志 Wall WX Za permissive 这可以在以下位置检

随机推荐

SSL 会话票证与会话 ID

为了提高不保留短连接的 SSL 握手性能有两个广为人知的独立功能 TLS 会话 ID TLS 会话票证如果有很多短连接会话就性能开销而言哪种机制更可取并且应该使用我知道服务器需要缓存会话 ID 并且在负载平衡的情况下会话票证也
不在 In SQL 语句中？

我在Excel中有一组大约5000个ID 在表中我有大约30000个ID 如果我在SQL语句中使用 In 条件我将从Excel中拥有的ID中获得大约4300个ID 但是如果我将 Not In 与 Excel id 一起使用我已经获得了大
node.js axios 下载文件流和 writeFile

我想下载一个 pdf 文件axios并保存在磁盘服务器端上fs writeFile 我努力了 axios get https xxx my pdf responseType blob then response gt fs writeF
四元数到欧拉角算法 - 如何转换为“Y = Up”和旋手性之间的转换？

我有一个在四元数和欧拉角之间转换的算法 public static Vector3 ToEulerAngles this Quaternion q Store the Euler angles in radians Vector3 pitc
在不同的数据集上运行经过训练的机器学习模型

我是机器学习的新手正在尝试在另一个相同格式的数据集上运行一个简单的分类模型该模型是我使用 pickle 训练和保存的我有以下 python 代码 Code Training set features pd read csv Data
从 std::string 中提取（第一个）UTF-8 字符

我需要使用一个PHP mb strtoupper 函数的 C 实现 http www zedwood com article cpp utf8 mb strtoupper function模仿维基百科的行为我的问题是我只想喂一个sing
如何在 Android Canvas 上使用大量图元绘制游戏

我在游戏的每一帧中画了很多线条矩形这是老式手持电子游戏的娱乐那些具有用于主游戏的原始点阵显示和用于文本或某些图像的自定义图像的内容我在虚拟点阵屏幕上有 20x20 大像素我还在屏幕上绘制了一些 7 段显示和其他一些东西根据Tra
更改“corrplot()”中有意义的 pch 符号的位置？

下面的脚本生成一个图其中表示重要性的 pch 符号与 r 值重叠如何移动 pch 符号的位置以使它们不与这些值重叠 library corrplot ex mat lt matrix c 1 00 0 46 0 75 1 00 0 46
Fluent NHibernate BinaryBlobType

今天我正在研究 MySQL 数据库我不知道如何将 Byte 映射到 BLOB 列我的表看起来是这样的 CREATE TABLE images Id INT NOT NULL AUTO INCREMENT imgText VARCHAR
函数数组的替代方案？

我正在编写一个应用程序 php 它需要一个很长的列表相似但不同的功能由一组按键调用 functions do this gt function does this do that gt function does that etc 我选择
使用 Java API 制作 ePub

我对 ePub 格式比较陌生但如果我理解得很好以编程方式从 XHTML 或 PDF 内容开始制作 ePub 可能意味着选择 HTML 或 XHTML 内容并使用 XHTML 验证器验证它们或使用 Tydy 清理它们选择要插入 eP
在 jQuery datepicker buttonImage 属性中引用 Bootstrap 图标？

我应该为 jQuery 日期选择器使用什么值buttonImage属性我想将 Bootstrap 日历图标与 jQuery 日期选择器一起使用当像这样引用时我可以在 html 页面中使用图标图像 i class icon calend
Identity 3 SignInManager.PasswordSignInAsync() 不返回任何结果

我正在使用 Identity 3 0 创建 Web 应用程序但 SignInManager PasswordSignInAsync 方法有问题我像在文档中一样使用它但它不会返回任何内容应用程序代码就停在那里这是我的控制器代码 pu
pygame.display.update 更新整个屏幕

我正在创建一个分屏多人游戏我首先在左侧绘制第一个玩家宇宙飞船燃烧弹背景中的星星以半速滚动最后是背景然后为第一个玩家更新屏幕的第一部分然后我在屏幕的另一部分为第二个玩家做同样的事情但大多数图像在两个半屏幕上重叠见下图所以
协助创建名为“(FundingResource(Balance))”的子过程 Visual Basic

我正在开发一个由三个事件过程组成的程序换句话说三个不同的任务按钮选择媒体和估计资金添加机构和生成报告当点击选择媒体和预估资金按钮时会弹出输入框并要求用户输入余额该余额将通过余额余额 1 利率的公式计算用户输入不
Python 的“open()”针对“文件未找到”抛出不同的错误 - 如何处理这两个异常？

我有一个脚本提示用户输入文件名要打开的文件的文件名如果当前目录中不存在该文件则会再次提示用户这是简短的版本 file input Type filename try fileContent open filename r exce
为什么 Ruby 2.0 优化后 `send` 会失败？

为什么这不起作用 module StringRefinement refine String do def bar length end end end using StringRefinement abcdefghijklmnopqrst
从 SamlResponse 读取继电器状态

我们将 SustainSys Saml2 与 IdentityServer4 结合使用我们在这个问题中概述了以下工作流程收到 OneLogin 的 SAML 响应后如何维护 returnurl https stackoverflow co
带下拉列表的循环引用

MS 中可以吗 Excel 或 VBA 具有带下拉列表的循环引用这就是我想要的我想在两张表表 1 表 2 上生成一个下拉列表其中显示完整或不完整如果我将工作表 1 从完整更改为不完整我希望工作表 2 说同样的事情但我也希
在 C++ 中迭代链表比在 Go 中慢

编辑收到一些反馈后我创建了一个新的例子 https stackoverflow com questions 50282452 iterating over linked list in c is slower than in go wi

在 C++ 中迭代链表比在 Go 中慢

在 C++ 中迭代链表比在 Go 中慢 的相关文章

随机推荐

热门标签

在 C++ 中迭代链表比在 Go 中慢的相关文章