为什么执行指针追踪时该跳转指令的开销如此之大？

2024-01-28

我有一个程序可以执行指针追逐 https://en.wikichip.org/wiki/pointer_chasing我正在尝试尽可能优化指针追逐循环。我注意到perf record检测到函数中约 20% 的执行时间myFunction()用于执行跳转指令（用于在读取特定值后退出循环）。

需要注意的一些事项：

指针追踪路径可以轻松地放入 L1 数据缓存中
using __builtin_expect避免分支错误预测的成本没有明显效果

perf record有以下输出：

Samples: 153K of event 'cycles', 10000 Hz, Event count (approx.): 35559166926                                                                                                                                                               
myFunction  /tmp/foobar [Percent: local hits]                                                                                                                                                                            
Percent│      endbr64                                                                                                                                                                                                                       
      ...
 80.09 │20:   mov     (%rdx,%rbx,1),%ebx                                                                                                                                                                                                    
  0.07 │      add     $0x1,%rax                                                                                                                                                                                                             
       │      cmp     $0xffffffff,%ebx                                                                                                                                                                                                      
 19.84 │    ↑ jne     20                                                                                                                                                                                                                    
      ...

我预计此循环中花费的大部分周期都用于从内存中读取值，这已由 perf 确认。我还希望剩余的周期能够均匀地执行循环中的剩余指令。相反，perf 报告剩余周期的大部分用于执行跳转。

我怀疑通过了解用于执行这些指令的微操作可以更好地理解这些成本，但我有点不知道从哪里开始。

请记住，cycles事件必须选择一条指令来归咎，即使两者都mov-加载和宏融合cmp-and-branch uops 正在等待结果。这不是运行时一个或另一个“成本周期”的问题；而是一个问题。他们都在并行等待. (现代微处理器 90 分钟指南！ http://www.lighterra.com/papers/modernmicroprocessors/ and https://agner.org/optimize/ https://agner.org/optimize/)

但是当“cycles”事件计数器溢出时，它必须选择一条特定的指令来“责备”，因为您使用的是统计抽样。这就是具有数百个正在运行的微指令的 CPU 必须发明不准确的现实图景的地方。通常，等待缓慢输入的那个会受到指责，我认为因为它通常是 ROB 或 RS 中最旧的，并且阻止前端分配新的微指令。

到底选择哪条指令的细节可能会告诉我们有关 CPU 内部结构的一些信息，但只是非常间接的。也许与它如何退休 4(?) 个 uop 组有关，而这个循环有 3 个 uop，所以当发生 perf 事件异常时哪个 uop 是最旧的。

出于某种原因，4:1 分割可能很重要，可能是因为采用非简单寻址模式的负载的 4+1 = 5 个周期延迟。（我假设这是一个 Intel Sandybridge 系列 CPU，也许是 Skylake 衍生的？）就像，如果数据在与 perf 事件溢出（并选择采样）相同的周期从缓存到达，则mov不会受到指责，因为它实际上可以执行并摆脱困境？

IIRC、BeeOnRope 或其他人通过实验发现 Skylake CPU 倾向于在异常到达后让最旧的未退休指令退休，至少如果不是缓存未命中的话。在你的情况下，那就是cmp/jne位于循环的底部，按程序顺序出现在下一次迭代顶部的加载之前。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么执行指针追踪时该跳转指令的开销如此之大？的相关文章

汇编器8086将32位数字除以16位数字

我尝试将 32 位数字除以 16 位数字例如 10000000h 除以 2000h 根据我尝试做的设计除以右 4 位数字除以除数然后左 4 位数字除以除数这是我的代码 DATA num dd 10000000h divisor dw
为什么这个二维指针表示法有效，而另一个则无效[重复]

这个问题在这里已经有答案了这里我编写了一段代码来打印 3x3 矩阵的对角线值之和这里我必须将矩阵传递给函数矩阵被传递给指针数组代码可以工作但问题是我必须编写参数的方式如下 int mat 3 以下导致程序崩溃 int mat 3
Grub 和进入实模式（低级汇编语言编程）

我一直在开发一个玩具操作系统并一直使用 grub 作为我的引导加载程序最近尝试使用 VGA 时我发现无法使用硬件中断我发现这是因为我被 grub 置于保护模式有人知道如何在不删除 grub 的情况下回到实模式吗如果您使用 GRU
Clang 编译器 (x86)：80 位长双精度

我正在尝试在 x86 Windows 平台上使用本机 80 位长双精度海湾合作委员会选项 mlong double 80 https gcc gnu org onlinedocs gcc x86 Options html似乎不适用于 cl
Intel：序列化指令和分支预测

英特尔架构开发人员手册 http www intel com content www us en architecture and technology 64 ia 32 architectures software developer v
当前的 x86 架构是否支持非临时加载（来自“正常”内存）？

我知道有关此主题的多个问题但是我没有看到任何明确的答案或任何基准测量因此我创建了一个处理两个整数数组的简单程序第一个数组a非常大 64 MB 第二个数组b很小无法放入 L1 缓存程序迭代a并将其元素添加到相应的元素中b在模块化
在 Go to 函数中通过引用和值传递

我对 Go 中通过引用和值传递有点困惑我已经看到过对类型前面的的解释在类型名称前面表示声明的变量将存储该类型的另一个变量的地址而不是该类型的值类型这对我来说毫无意义在Java中如果我将数据库实例传递给函数我会这样做 da
如何在 GCC C++ 中编写多行内联汇编代码？

这看起来不太友好 asm command 1 command 2 command 3 我真的必须在每一行加上双引号吗另外由于多行字符串文字在 GCC 中不起作用我也无法欺骗它我总是在互联网上找到一些例子该人手动插入制表符和换行符而
多维数组 (C++)

我正在尝试将指针存储在数组中我指向类对象的指针是 classType ClassObject 所以我知道我可以使用 new 运算符来分配它如下所示 ClassObject new classType 100 我正在阅读一个带有标点符号的
标志寄存器中保留/未定义位的用途是什么？

在 Z80 8080 8085 和 8086 处理器的标志寄存器中被记录为保留或未定义的位 1 3 5 的用途是什么这些位未使用也就是说没有指令明确地将它们设置为任何值设计人员认为 5 6 个标志就足够了他们只是将标志寄
删除对象时指针自动指向空

假设我有一个对象和其他几个不同类类型的对象中的 10 个指向它的指针如果对象被删除这些指针必须设置为空通常我会将对象的类与具有指向它的指针的类互连以便它可以通知它们它正在被删除并且它们可以将它们的指针设置为空但这也有一个负担即
什么时候返回结构体指针是个好主意？

我正在学习 Go 我对何时使用指针有点困惑具体来说当返回一个struct从函数中什么时候适合返回结构体实例本身什么时候适合返回指向结构体的指针示例代码 type Car struct make string model strin
ARM Cortex-M3 启动代码

我试图了解 STM32 微控制器的 Keil realview v4 附带的初始化代码是如何工作的具体来说我试图了解堆栈是如何初始化的 In the 文档 http infocenter arm com help index jsp t
每个 mmap/access/munmap 两次 TLB 未命中

for int i 0 i lt 100000 i int page mmap NULL PAGE SIZE PROT READ PROT WRITE MAP ANONYMOUS MAP PRIVATE 1 0 page 0 0 munma
在 x86 程序集中打印寄存器值的简单方法

我需要在 8086 Assembly 中编写一个程序接收来自用户的数据进行一些数学计算并在屏幕上打印答案我已经编写了程序的所有部分并且一切正常但我不知道如何打印号码显示到屏幕上在我所有计算结束时答案是 AX 它被视为无符号 16
ICC 中的 -O3 会扰乱内在函数，使用 -O1 或 -O2 或相应的手动汇编即可

这是后续这个问题 http stackoverflow com questions 49791664 o2 in icc messes up assembler fine with o1 in icc and all optimizatio
对将英特尔傲腾 DC SSD 用作 IMDT 的额外 RAM 感到困惑吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我对英特尔傲腾 DC 有点困惑我希望我的 Optane DC 能够同时充当 DRAM 和存储一方面我了解到只有英特尔傲腾 DC 持
64 位 Windows 汇编器

我想对 64 位 Windows 程序集进行编程最好使用 NASM 我在 google 上查了一下但似乎找不到 64 位 Windows 编译器有些网站提到了ml64 但它似乎不再包含在VC 中我尝试过 32 位程序集但显然它在我
如何在 MacOS 上使用 nasm 进行编译

我正在尝试在汇编器上编译并链接我的第一个程序我尝试编译以下代码 include stud io inc global main section text main xor eax eax again PRINT Hello PUTCHAR
使用 ACPI 在 MS-DOS 中关闭计算机

我在基于 Pentium 的计算机上运行 MS DOS 6 22 主板支持 ACPI 并且想知道是否有一个可以用来关闭计算机的汇编语言例程或者它是否比那个更难即主板具体的基本上我想创建一个小程序来从命令行关闭计算机这是专门为此编

随机推荐

服务重启后 Docker 节点宕机

我的服务器似乎空间不足并且某些已部署的 Docker 堆栈出现了一些问题我花了一段时间才弄清楚但最终我做到了并删除了一些容器和图像以释放一些空间我能够跑service docker restart它起作用了然而也存在一些问题
通过java应用程序发送附有excel文件的电子邮件 - 不起作用

我试图通过Java应用程序发送一封邮件其中包含excel文件作为附件而不实际创建该文件 excel文件中的数据来自数据库我可以发送带有附件的邮件但文件是文本制表符分隔格式但我希望该文件仅为 Excel 格式请帮忙以下是代码
在 Java 调试器中，如何忽略从未通过我的代码的异常

我目前正在使用 IntelliJ IDEA 进行 Java 开发但我也对针对其他 IDE 的答案或调试 Java 代码的一般概念感兴趣因为我在许多 IDE 中都错过了这个功能所以我不确定在从其他语言转移我的调试习惯时是否错过了工作流程
Google Dataflow（Apache Beam）JdbcIO批量插入mysql数据库

我正在使用 Dataflow SDK 2 X Java API Apache Beam SDK 将数据写入 mysql 我创建了基于管道Apache Beam SDK 文档 https beam apache org documentati
使用 window.open() 的多个窗口

众所周知如果您单击嵌入其中的提交按钮onClick windown open 这将打开一个新窗口其中包含您指定的所有可爱属性但是如果继续单击父窗口并再次单击提交按钮而不关闭先前的弹出窗口则同一窗口将被新数据覆盖现在我需要一种
词汇量和嵌入维度之间的首选比例是多少？

例如使用时gensim word2vec或用于训练嵌入向量的类似方法我想知道什么是好的比率或者嵌入维度与词汇量之间是否有首选比率随着更多数据的出现这种情况会如何变化由于我仍在讨论这个主题因此在训练嵌入向量时如何选择合适的窗口大小
哪些 OpenGL ES 2.0 纹理格式可进行颜色、深度或模板渲染？

From OpenGL ES 2 0 规范 http www khronos org registry gles specs 2 0 es full spec 2 0 25 pdf第 4 4 5 节表 4 5 中未列出的格式包括压缩的内
如何将两个日期列表合并为一系列日期间隔？

我有开始日期列表和结束日期列表他们已经排序了 start dates datetime date 2009 11 5 datetime date 2009 11 13 datetime date 2009 11 25 datetime d
实体框架：如何在提交之前检查值是否存在

我正在使用存储库模式我有一个国家地区存储库我正在使用服务来提交该存储库我应该在哪里检查该国家地区是否已存在于数据库中我会抛出异常吗有没有一种方法可以在一次数据库调用中做到这一点如果不存在则检查并插入如果可以的话可以在服务
使用区域设置来检测是否使用英制单位

我正在开发一个应用程序想要以厘米 cm 或英寸为单位显示长度有没有办法从区域设置中选择正确的单位无论如何我还将输入一个选项以便用户可以覆盖区域设置美国利比里亚和缅甸应使用英制单位而世界其他国家应使用正常单位一种方法是将此
将 CSV 转换为 RDF，其中一列是一组值

我想将 CSV 转换为 RDF 事实上该 CSV 的一列是一组用分隔符在我的例子中为空格符连接的值以下是 CSV 示例带标题 col1 col2 col3 A B C D John M X Y Z Jack 我希望转换过程创建一个
使用T4模板基于POCO生成多个类

当我向数据库添加表时我正在寻找一种提高工作效率的方法一般来说当我添加新表时我必须执行以下步骤将表添加到数据库简单创建相应的 EF Code First 类我不使用数据库迁移创建一个与 2 中创建的 EF 类匹配的 POCO
需要帮助了解 Firebase Storage CDN

我正在构建一个有声读物应用程序并将音频文件上传到 Firebase 存储上我的问题是我在旧金山和多伦多经历了不同的表现我的印象是 Firebase Storage 具有内置 CDN 如果是这样我需要在某处启用它吗如果没有如何将
Breeze：EFContextProvider/Breeze 控制器和服务层

使用 Breeze 时我想知道如何将其与处理电子邮件通知审核日志业务验证即客户必须存在等事务的服务层集成例如假设有以下场景 public class SalesAppRepository private readonly EF
单个 APN 是一个组织中多个应用程序的关键

我的组织维护多个应用程序并且对于如何使用 APN 密钥存在困惑我们正在使用 firebase 发送推送通知 So far we have two apple keys for two different applications But
到 .accdb 文件的 ODBC 连接

我正在尝试从我一直在处理的统一项目中访问 Microsoft Access 数据库文件但它不断抛出异常因为它无法找到该文件并且没有选择标准河流代码 using UnityEngine using UnityEngine UI usin
DynamoDB 预配的写入容量单位经常意外超出

我相信我了解写入读取容量单位它们的工作原理以及在 DynamoDB 中的计算方式证明就是我明白this https linuxacademy com howtoguides posts show topic 20310 how to
从 Clojure Repl 和 Leiningen 运行测试

作为 clojure 的新手我使用 leiningen 创建了一个示例项目 lein new app first project 这给了我这个目录 doc intro md LICENSE project clj README md re
Android 将 Drawable 和 Shape 合并为一个 Drawable（以编程方式）

我正在设置android drawable单选按钮的编程方式如下 Drawable unchecked getResources getDrawable R drawable ic room car Drawable d getResour
为什么执行指针追踪时该跳转指令的开销如此之大？

我有一个程序可以执行指针追逐 https en wikichip org wiki pointer chasing我正在尝试尽可能优化指针追逐循环我注意到perf record检测到函数中约 20 的执行时间myFunction 用于执行

为什么执行指针追踪时该跳转指令的开销如此之大？

为什么执行指针追踪时该跳转指令的开销如此之大？ 的相关文章

随机推荐

热门标签

为什么执行指针追踪时该跳转指令的开销如此之大？的相关文章