在 C++ 中迭代链表比在 Go 中慢

2024-04-16

编辑:收到一些反馈后,我创建了一个新的例子 https://stackoverflow.com/questions/50282452/iterating-over-linked-list-in-c-is-slower-than-in-go-with-analogous-memory-ac这应该更具可重复性。

我一直在用 C++ 编写一个项目,其中涉及大量链表迭代。为了获得基准,我用 Go 重写了代码。令人惊讶的是,我发现 Go 实现的运行速度始终快了约 10%,即使在将 -O 标志传递给 clang++ 后也是如此。也许我只是错过了 C++ 中的一些明显的优化,但我已经用头撞墙一段时间了,进行了各种调整。

这是一个简化版本,在 C++ 和 Go 中具有相同的实现,其中 Go 程序运行得更快。它所做的只是创建一个包含 3000 个节点的链表,然后计算迭代该列表 1,000,000 次所需的时间(C++ 中为 7.5 秒,Go 中为 6.8 秒)。

C++:

#include <iostream>
#include <chrono>

using namespace std;
using ms = chrono::milliseconds;

struct Node {
    Node *next;
    double age;
};

// Global linked list of nodes
Node *nodes = nullptr;

void iterateAndPlace(double age) {
    Node *node = nodes;
    Node *prev = nullptr;

    while (node != nullptr) {
        // Just to make sure that age field is accessed
        if (node->age > 99999) {
            break;
        }

        prev = node;
        node = node->next;
    }

    // Arbitrary action to make sure the compiler
    // doesn't optimize away this function
    prev->age = age;
}

int main() {
    Node x = {};
    std::cout << "Size of struct: " << sizeof(x) << "\n"; // 16 bytes

    // Fill in global linked list with 3000 dummy nodes
    for (int i=0; i<3000; i++) {
        Node* newNode = new Node;
        newNode->age = 0.0;
        newNode->next = nodes;
        nodes = newNode;
    }

    auto start = chrono::steady_clock::now();
    for (int i=0; i<1000000; i++) {
        iterateAndPlace(100.1);
    }

    auto end = chrono::steady_clock::now();
    auto diff = end - start;
    std::cout << "Elapsed time is :  "<< chrono::duration_cast<ms>(diff).count()<<" ms "<<endl;
}

Go:

package main
import (
    "time"
    "fmt"
    "unsafe"
)

type Node struct {
    next *Node
    age float64
}

var nodes *Node = nil

func iterateAndPlace(age float64) {
    node := nodes
    var prev *Node = nil

    for node != nil {
        if node.age > 99999 {
            break
        }
        prev = node
        node = node.next
    }

    prev.age = age
}

func main() {
    x := Node{}
    fmt.Printf("Size of struct: %d\n", unsafe.Sizeof(x)) // 16 bytes

    for i := 0; i < 3000; i++ {
        newNode := new(Node)
        newNode.next = nodes
        nodes = newNode
    }

    start := time.Now()
    for i := 0; i < 1000000; i++ {
        iterateAndPlace(100.1)
    }
    fmt.Printf("Time elapsed: %s\n", time.Since(start))
}

我的 Mac 的输出:

$ go run minimal.go
Size of struct: 16
Time elapsed: 6.865176895s

$ clang++ -std=c++11 -stdlib=libc++ minimal.cpp -O3; ./a.out
Size of struct: 16
Elapsed time is :  7524 ms

铿锵版本:

$ clang++ --version
Apple LLVM version 8.0.0 (clang-800.0.42.1)
Target: x86_64-apple-darwin15.6.0
Thread model: posix

编辑: UKMonkey 提出了这样一个事实:在 Go 中节点可以连续分配,但在 C++ 中则不行。为了测试这一点,我在 C++ 中使用向量连续分配,这并没有改变运行时:

// Fill in global linked list with 3000 contiguous dummy nodes
vector<Node> vec;
vec.reserve(3000);
for (int i=0; i<3000; i++) {
    vec.push_back(Node());
}

nodes = &vec[0];
Node *curr = &vec[0];
for (int i=1; i<3000; i++) {
    curr->next = &vec[i];
    curr = curr->next;
    curr->age = 0.0;
}

我检查了生成的链表确实是连续的:

std::cout << &nodes << " " << &nodes->next << " " << &nodes->next->next << " " << &nodes->next->next->next << "\n";
0x1032de0e0 0x7fb934001000 0x7fb934001010 0x7fb934001020

前言:我不是C++专家或汇编专家。但我对其中的一点了解,也许足以构成危险。

所以我很生气,决定看一下为 Go 生成的汇编器,然后根据 clang++ 的输出检查它。

高层总结

稍后,我将在 x86-64 汇编器中查看两种语言的汇编器输出。本例中代码的基本“关键部分”是一个非常紧密的循环。因此,它是该计划所花费时间的最大贡献者。

紧密循环之所以重要,是因为现代 CPU 执行指令的速度通常比从内存加载要引用的代码(例如比较)的相关值要快。为了达到惊人的速度,CPU 执行了许多技巧,包括流水线、分支预测等。紧密循环通常是流水线的祸根,并且实际上,如果值之间存在依赖关系,则分支预测可能只有很小的帮助。

从根本上来说,遍历循环有四个主要块:

1. If `node` is null, exit the loop.
2. If `node.age` > 999999, exit the loop.
3a. set prev = node
3b. set node = node.next

其中每一个都由多个汇编指令表示,但 Go 和 C++ 输出的块的顺序不同。 C++ 有效地按顺序执行此操作3a, 1, 2, 3b。 Go 版本按顺序执行3, 2, 1。 (它在段 2 上启动第一个循环,以避免在空检查之前发生赋值)

实际上,clang++ 输出的指令比 Go 少,并且应该执行更少的 RAM 访问(以多一个浮点寄存器为代价)。人们可能会想象,只是以不同的顺序执行几乎相同的指令,最终会花费相同的时间,但这并没有考虑流水线和分支预测。

要点如果这是一个关键但很小的循环,人们可能会想要手动优化此代码并编写汇编。忽略明显的原因(它更危险/更复杂/更容易出现错误),还需要考虑到,虽然 Go 生成的代码对于我测试的两个 Intel x86-64 处理器来说更快,但对于 AMD处理器你会得到相反的结果。使用第 N+1 代英特尔,您也可能会得到不同的结果。

我的完整调查如下:


调查

NOTE我已经剪掉了尽可能短的示例,包括截断文件名,并从程序集列表中删除多余的内容,因此您的输出可能与我的输出略有不同。但无论如何,我继续。

所以我跑了go build -gcflags -S main.go要获得此程序集列表,我只真正查看 iterateAndPlace。

"".iterateAndPlace STEXT nosplit size=56 args=0x8 locals=0x0
    00000 (main.go:16)   TEXT    "".iterateAndPlace(SB), NOSPLIT, $0-8
    00000 (main.go:16)   FUNCDATA    $0, gclocals·2a5305abe05176240e61b8620e19a815(SB)
    00000 (main.go:16)   FUNCDATA    $1, gclocals·33cdeccccebe80329f1fdbee7f5874cb(SB)
    00000 (main.go:17)   MOVQ    "".nodes(SB), AX
    00007 (main.go:17)   MOVL    $0, CX
    00009 (main.go:20)   JMP 20
    00011 (main.go:25)   MOVQ    (AX), DX
    00014 (main.go:25)   MOVQ    AX, CX
    00017 (main.go:25)   MOVQ    DX, AX
    00020 (main.go:20)   TESTQ   AX, AX
    00023 (main.go:20)   JEQ 44
    00025 (main.go:21)   MOVSD   8(AX), X0
    00030 (main.go:21)   MOVSD   $f64.40f869f000000000(SB), X1
    00038 (main.go:21)   UCOMISD X1, X0
    00042 (main.go:21)   JLS 11
    00044 (main.go:21)   MOVSD   "".age+8(SP), X0
    00050 (main.go:28)   MOVSD   X0, 8(CX)
    00055 (main.go:29)   RET

如果您丢失了上下文,我将在此处粘贴带有行号的原始列表:

16  func iterateAndPlace(age float64) {
17      node := nodes
18      var prev *Node = nil
19
20      for node != nil {
21          if node.age > 99999 {
22              break
23          }
24          prev = node
25          node = node.next
26      }
27
28      prev.age = age
29  }

我立即注意到一些有趣的事情:

  1. 它没有为第 24 行生成任何代码,prev = node。那是因为它意识到赋值可能会被欺骗:在遍历中得到node.next它使用 CX 寄存器,其值为prev。这可能是 SSA 编译器可以实现的一个很好的优化,但它是多余的。
  2. 检查node.age的if语句被重新排序为after the node = node.next东西,在第一次迭代时被跳过。在这种情况下,您可以将其视为更像 do..while 循环。总体来说很小,因为它只真正改变了第一次迭代。但也许这就足够了?

那么让我们跳到 C++ 程序集,您可以从中获得clang++ -S -mllvm --x86-asm-syntax=intel -O3 minimal.cpp.

.quad   4681608292164698112     ## double 99999
# note I snipped some stuff here
__Z15iterateAndPlaced:                  ## @_Z15iterateAndPlaced
## BB#0:
    push    rbp
Lcfi0:
    .cfi_def_cfa_offset 16
Lcfi1:
    .cfi_offset rbp, -16
    mov rbp, rsp
Lcfi2:
    .cfi_def_cfa_register rbp
    mov rcx, qword ptr [rip + _nodes]
    xor eax, eax
    movsd   xmm1, qword ptr [rip + LCPI0_0] ## xmm1 = mem[0],zero
    .p2align    4, 0x90
LBB0_2:                                 ## =>This Inner Loop Header: Depth=1
    mov rdx, rax
    mov rax, rcx
    movsd   xmm2, qword ptr [rax + 8] ## xmm2 = mem[0],zero
    ucomisd xmm2, xmm1
    ja  LBB0_3
## BB#1:                                ##   in Loop: Header=BB0_2 Depth=1
    mov rcx, qword ptr [rax]
    test    rcx, rcx
    mov rdx, rax
    jne LBB0_2
LBB0_3:
    movsd   qword ptr [rdx + 8], xmm0
    pop rbp
    ret

这真的很有趣。生成的程序集总体上相当相似(忽略汇编程序列出语法的细微差别)-它对不分配进行了类似的优化prev。此外,C++ 似乎已经消除了每次比较时加载 99999 的需要(Go 版本在每次比较之前加载它)。


出于复制目的,我使用的版本(在 OSX High Sierra 上的 x86-64 darwin mac 上)

$ go version
go version go1.9.3 darwin/amd64

$ clang++ --version
Apple LLVM version 9.0.0 (clang-900.0.39.2)
Target: x86_64-apple-darwin17.4.0
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 C++ 中迭代链表比在 Go 中慢 的相关文章

随机推荐

  • SSL 会话票证与会话 ID

    为了提高不保留 短 连接的 SSL 握手性能 有两个广为人知的独立功能 TLS 会话 ID TLS 会话票证 如果有很多短连接会话 就性能开销而言 哪种机制更可取并且应该使用 我知道服务器需要缓存会话 ID 并且在负载平衡的情况下会话票证也
  • 不在 In SQL 语句中?

    我在Excel中有一组大约5000个ID 在表中我有大约30000个ID 如果我在SQL语句中使用 In 条件 我将从Excel中拥有的ID中获得大约4300个ID 但是如果我将 Not In 与 Excel id 一起使用 我已经获得了大
  • node.js axios 下载文件流和 writeFile

    我想下载一个 pdf 文件axios并保存在磁盘 服务器端 上fs writeFile 我努力了 axios get https xxx my pdf responseType blob then response gt fs writeF
  • 四元数到欧拉角算法 - 如何转换为“Y = Up”和旋手性之间的转换?

    我有一个在四元数和欧拉角之间转换的算法 public static Vector3 ToEulerAngles this Quaternion q Store the Euler angles in radians Vector3 pitc
  • 在不同的数据集上运行经过训练的机器学习模型

    我是机器学习的新手 正在尝试在另一个相同格式的数据集上运行一个简单的分类模型 该模型是我使用 pickle 训练和保存的 我有以下 python 代码 Code Training set features pd read csv Data
  • 从 std::string 中提取(第一个)UTF-8 字符

    我需要使用一个PHP mb strtoupper 函数的 C 实现 http www zedwood com article cpp utf8 mb strtoupper function模仿维基百科的行为 我的问题是 我只想喂一个sing
  • 如何在 Android Canvas 上使用大量图元绘制游戏

    我在游戏的每一帧中画了很多线条矩形 这是老式手持电子游戏的娱乐 那些具有用于主游戏的原始点阵显示和用于文本或某些图像的自定义图像的内容 我在虚拟点阵屏幕上有 20x20 大 像素 我还在屏幕上绘制了一些 7 段显示和其他一些东西 根据Tra
  • 更改“corrplot()”中有意义的 pch 符号的位置?

    下面的脚本生成一个图 其中表示重要性的 pch 符号与 r 值重叠 如何移动 pch 符号的位置以使它们不与这些值重叠 library corrplot ex mat lt matrix c 1 00 0 46 0 75 1 00 0 46
  • Fluent NHibernate BinaryBlobType

    今天我正在研究 MySQL 数据库 我不知道如何将 Byte 映射到 BLOB 列 我的表看起来是这样的 CREATE TABLE images Id INT NOT NULL AUTO INCREMENT imgText VARCHAR
  • 函数数组的替代方案?

    我正在编写一个应用程序 php 它需要一个很长的列表相似但不同的功能 由一组按键调用 functions do this gt function does this do that gt function does that etc 我选择
  • 使用 Java API 制作 ePub

    我对 ePub 格式比较陌生 但如果我理解得很好 以编程方式从 XHTML 或 PDF 内容开始制作 ePub 可能意味着 选择 HTML 或 XHTML 内容并使用 XHTML 验证器验证它们 或使用 Tydy 清理它们 选择要插入 eP
  • 在 jQuery datepicker buttonImage 属性中引用 Bootstrap 图标?

    我应该为 jQuery 日期选择器使用什么值buttonImage属性 我想将 Bootstrap 日历图标与 jQuery 日期选择器一起使用 当像这样引用时 我可以在 html 页面中使用图标图像 i class icon calend
  • Identity 3 SignInManager.PasswordSignInAsync() 不返回任何结果

    我正在使用 Identity 3 0 创建 Web 应用程序 但 SignInManager PasswordSignInAsync 方法有问题 我像在文档中一样使用它 但它不会返回任何内容 应用程序代码就停在那里 这是我的控制器代码 pu
  • pygame.display.update 更新整个屏幕

    我正在创建一个分屏多人游戏 我首先在左侧绘制第一个玩家 宇宙飞船 燃烧弹 背景中的星星 以半速滚动 最后是背景 然后为第一个玩家更新屏幕的第一部分 然后我在屏幕的另一部分为第二个玩家做同样的事情 但大多数图像在两个半屏幕上重叠 见下图 所以
  • 协助创建名为“(FundingResource(Balance))”的子过程 Visual Basic

    我正在开发一个由三个事件过程组成的程序 换句话说 三个不同的任务按钮 选择媒体和估计资金 添加机构 和 生成报告 当点击 选择媒体和预估资金 按钮时 会弹出输入框并要求用户输入余额 该余额将通过 余额 余额 1 利率 的公式计算 用户输入不
  • Python 的“open()”针对“文件未找到”抛出不同的错误 - 如何处理这两个异常?

    我有一个脚本 提示用户输入文件名 要打开的文件的文件名 如果当前目录中不存在该文件 则会再次提示用户 这是简短的版本 file input Type filename try fileContent open filename r exce
  • 为什么 Ruby 2.0 优化后 `send` 会失败?

    为什么这不起作用 module StringRefinement refine String do def bar length end end end using StringRefinement abcdefghijklmnopqrst
  • 从 SamlResponse 读取继电器状态

    我们将 SustainSys Saml2 与 IdentityServer4 结合使用 我们在这个问题中概述了以下工作流程收到 OneLogin 的 SAML 响应后如何维护 returnurl https stackoverflow co
  • 带下拉列表的循环引用

    MS 中可以吗 Excel 或 VBA 具有带下拉列表的循环引用 这就是我想要的 我想在两张表 表 1 表 2 上生成一个下拉列表 其中显示 完整 或 不完整 如果我将工作表 1 从完整更改为不完整 我希望工作表 2 说同样的事情 但我也希
  • 在 C++ 中迭代链表比在 Go 中慢

    编辑 收到一些反馈后 我创建了一个新的例子 https stackoverflow com questions 50282452 iterating over linked list in c is slower than in go wi