使用 rdmsr/rdpmc 提高分支预测精度

2024-04-03

我试图了解分支预测单元在 CPU 中如何工作。

我用过papi还有linux的perf-events但他们都没有给出准确的结果（对于我的情况）。

这是我的代码：

void func(int* arr, int sequence_len){
  for(int i = 0; i < sequence_len; i++){
      // region starts
      if(arr[i]){
          do_sth();
      }
      // region ends
  }
}

我的数组由 0 和 1 组成。它有一个大小为sequence_len。例如，如果我的尺码是 8，那么它的图案为0 1 0 1 0 0 1 1或类似的东西。

Trial 1:

我试图了解 CPU 如何预测这些分支。因此，我使用 papi 并为错误预测的分支预测设置了性能计数器（我知道它也计算间接分支）。

int func(){
  papi_read(r1);
  for(){
    //... same as above
  }
  papi_read(r2);
  return r2-r1;
}

int main(){
   init_papi();
   for(int i = 0; i < 10; i++)
     res[i] = func();

   print(res[i]);
}

我看到的输出是（序列长度为 200）

100 #iter1
40  #iter2
10  #iter3
3
0
0
#...

所以，一开始，CPU 盲目地预测顺序，只能成功一半。在接下来的迭代中，CPU 的预测能力会越来越好。经过一定次数的迭代后，CPU 可以完美地猜测出来。

Trial 2

我想看看 CPU 在哪个数组索引处发生了错误预测。

int* func(){
  int* results;
  for(){
    papi_read(r1);
    if(arr[i])
        do_sth();   
    papi_read(r2);
    res[i] = r2-r1;
  }
  return res;
}

int main(){
   init_papi();
   for(int i = 0; i < 10; i++)
     res[i] = func();

   print(res[i]);
}

预期结果：

#1st iteration, 0 means no mispred, 1 means mispred
1 0 0 1 1 0 0 0 1 1 0... # total of 200 results
Mispred: 100/200
#2nd iteration
0 0 0 0 1 0 0 0 1 0 0... # total of 200 results
Mispred: 40/200 # it learned from previous iteration
#3rd iteration
0 0 0 0 0 0 0 0 1 0 0... # total of 200 results
Mispred: 10/200 # continues to learn
#...

收到结果：

#1st iteration
1 0 0 1 1 0 0 0 1 1 0... # total of 200 results
Mispred: 100/200
#2nd iteration
1 0 0 0 1 1 0 1 0 0 0... # total of 200 results
Mispred: 100/200 # it DID NOT learn from previous iteration
#3rd iteration
0 1 0 1 0 1 0 1 1 0 0... # total of 200 results
Mispred: 100/200 # NO LEARNING
#...

我的观察

当我在 for 循环之外测量错误预测时，我可以看到 CPU 从其错误预测中学习。然而，当我尝试测量单分支指令错误预测时，CPU 要么无法学习，要么我错误地测量了它。

我的解释

我给出的序列长度是 200。 CPU 有一个小的分支预测器（如 Intel 中的 2-3 位饱和计数器）和一个大的全局分支预测器。当我在环路外部进行测量时，测量中引入的噪声较少。我所说的噪音较小，是指papi calls.

考虑一下：循环外测量

全球历史是：papi_start, branch_outcome1, branch_outcome2, branch_outcome3, ..., papi_end, papi_start (2nd loop of main iteration), branch_outcome1, ...

因此，分支预测器以某种方式在同一分支中找到模式。

但是，如果我尝试测量单分支指令，则全局历史记录是：papi_start, branchoutcome1, papiend, papistart, branchoutcome2, papiend...

因此，我正在向全球历史介绍越来越多的分支。我假设全局历史记录无法容纳许多分支条目，因此，它无法在所需的 if 语句（分支）中找到任何相关性/模式。

因此

我需要测量单个分支的预测结果。我知道如果我不过多介绍papi的话CPU是可以学习200模式的。我查看了 papi 调用，看到了很多 for 循环和 if 条件。

这就是为什么我需要更好的测量。我试过Linuxperf-event但这使得ioctl调用，这是一个系统调用，我用系统调用污染了全局历史记录，因此，这不是一个好的测量方法。

我读过rdpmc and rdmsr指令，我假设因为它们只是指令，所以我不会污染全局历史，并且我可以一次测量单个分支指令。

但是，我不知道如何做到这一点。我有 AMD 3600 CPU。这些是我在网上找到的链接，但我不知道如何做到这一点。除此之外，我还缺少什么吗？

英特尔rdpmc https://software.intel.com/en-us/forums/software-tuning-performance-optimization-platform-monitoring/topic/595214

AMD 性能手册 https://www.amd.com/system/files/TechDocs/56255_OSRR.pdf

您假设 PAPI 和/或 perf_events 代码的占用量相对较小。这是不正确的。如果将性能计数器事件更改为“指令退休”或“CPU 周期未停止”之类的内容，您将能够看到此操作在您的软件环境中包含多少开销。详细信息取决于您的操作系统版本，但我预计开销将达到数百条指令/数千个周期，因为读取 perf_events（由 PAPI 使用）中的计数器需要内核交叉。代码路径肯定会包含它自己的分支。

如果您的内核支持“用户模式 RDPMC”(CR4.PCE=1)，则可以使用单条指令读取性能计数器。示例可在https://github.com/jdmccalpin/low-overhead-timers https://github.com/jdmccalpin/low-overhead-timers.

即使将测量代码限制为本机 RDPMC 指令（以及保存结果的周围代码），测量也会破坏处理器管道。 RDPMC 是微编码指令。在 Ryzen 核心上，指令执行 20 个微操作，每 20 个周期具有一条指令的吞吐量。（参考：https://www.agner.org/optimize/instruction_tables.pdf https://www.agner.org/optimize/instruction_tables.pdf)

任何细粒度的测量都具有挑战性，因为现代处理器的无序功能与用户代码交互的方式记录很少且难以预测。有关此主题的更多说明（也与 AMD 处理器相关）位于http://sites.utexas.edu/jdm4372/2018/07/23/comments-on-timing-short-code-sections-on-intel-processors/ http://sites.utexas.edu/jdm4372/2018/07/23/comments-on-timing-short-code-sections-on-intel-processors/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 rdmsr/rdpmc 提高分支预测精度的相关文章

在动态事件处理程序中引用“this”

在我的 myClass 类中我使用 Reflection Emit 为 myClass 类成员之一动态编写事件处理程序我已经成功地做到了这一点现在我想修改事件处理程序以调用 myClass 类中的实例方法之一但是我无法弄清楚如何
如何将包含 5000 条记录的 Excel 文件插入到 documentDB 中？

我有一个 Excel 文件最初约有 200 行我能够将 Excel 文件转换为数据表并且所有内容都正确插入到 documentdb 中 Excel 文件现在有 5000 行在插入 30 40 条记录后不会插入其余所有行不会插入到
SharpZipLib - 将文件夹/目录添加到 zip 存档

通过示例我很好地掌握了如何提取 zip 文件几乎在每个示例中识别 ZipEntry 是否为目录的方法如下 string directoryName Path GetDirectoryName theEntry Name string
键盘加速器在 UWP 应用中停止工作

我正在尝试将键盘加速器添加到 UWP 应用程序中的 CommandBar 菜单项当应用程序启动时这工作正常但在我第一次打开溢出菜单后加速器停止工作这似乎不会发生在主要命令菜单之外上只有溢出菜单内的辅助命令才会发生此外单击
C# 中四舍五入到偶数

我没有看到 Math Round 的预期结果 return Math Round 99 96535789 2 MidpointRounding ToEven returning 99 97 据我了解 MidpointRounding ToE
为什么这个函数指针赋值在直接赋值时有效，但在使用条件运算符时无效？

本示例未使用 include 在 MacOS10 14 Eclipse IDE 上编译使用 g 选项 O0 g3 Wall c fmessage length 0 假设这个变量声明 int fun int 这无法通过 std touppe
访问“if”语句之外的变量

我怎样才能使insuranceCost以外可用if陈述 if this comboBox5 Text Third Party Fire and Theft double insuranceCost 1 在 if 语句之外定义它 double
如何在编译C代码时禁用警告？

我正在使用 32 位 Fedora 14 系统我正在使用编译我的源代码gcc 有谁知道如何在编译c代码时禁用警告 EDIT 是的我知道最好的办法是修复这些警告以避免任何未定义未知的行为但目前在这里我第一次编写了巨大的代码并且在
序列化和反序列化 Visual Studio 解决方案文件 - 或以编程方式编辑？

我想以编程方式添加和删除项目解决方案文件夹和其他项目例如解决方案的资源文件但我不确定最好的方法是什么对于那些不知道的人高度简化解决方案文件 sln 通常如下所示 Microsoft Visual Studio Solution
“rep stos”x86 汇编指令序列有什么作用？

我最近偶然发现了以下汇编指令序列 rep stos dword ptr edi For ecx重复存储内容eax到哪里edi指向递增或递减edi 取决于方向标志每次 4 个字节通常这用于memset型操作通常该指令简单地写成r
编译器错误“错误：在文件范围内可变地修改了‘字符串’”

考虑 include
更改 IdentityServer4 实体框架表名称

我正在尝试更改由 IdentityServer4 的 PersistedGrantDb 和 ConfigurationDb 创建的默认表名称并让实体框架生成正确的 SQL 例如而不是使用实体IdentityServer4 EntityF
C#中Enum中定义的value__是什么

What value 可能在这里 value MSN ICQ YahooChat GoogleTalk 我运行的代码很简单 namespace EnumReflection enum Messengers MSN ICQ YahooChat
使用 AdHocWorkspace 会导致“不支持语言‘C#’”。

在VS2015中使用Microsoft CodeAnalysis CSharp Workspaces的RC2 这段代码会抛出异常 var tree CSharpSyntaxTree ParseText var workspace new A
正确使用“extern”关键字

有一些来源书籍在线材料解释了extern如下 extern int i declaration has extern int i 1 definition specified by the absence of extern 并且有支
从 C 线程调用 Python 代码

我对从 C 或 C 线程调用 Python 代码时如何确保线程安全感到非常困惑 The Python 文档 http docs python org c api init html non python created threads似乎是
C++ [Windows] 可执行文件所在文件夹的路径[重复]

这个问题在这里已经有答案了我需要访问一些文件fstream在我的 Windows 上的 C 应用程序中这些文件都位于我的exe文件所在文件夹的子文件夹中获取当前可执行文件的文件夹路径的最简单且更重要的最安全的方法是什么 Use 获取
如何设置 CMake 与 clang 交叉编译 Windows 上的 ARM 嵌入式系统？

我正在尝试生成 Ninja makefile 以使用 Clang 为 ARM Cortex A5 CPU 交叉编译 C 项目我为 CMake 创建了一个工具链文件但似乎存在错误或缺少一些我无法找到的东西当使用下面的工具链文件调用 CM
c# 模拟 IFormFile CopyToAsync() 方法

我正在对一个异步函数进行单元测试该函数将 IFormFile 列表转换为我自己的任意数据库文件类列表将文件数据转换为字节数组的方法是 internal async Task
新的 .NET 6 控制台模板中的 C# 函数重载不起作用

我在尝试重载该函数时遇到错误Print object in the 新的 NET 6 C 控制台应用程序模板 https learn microsoft com en us dotnet core tutorials top level t

随机推荐

如何在 Flutter 中添加图标的增加/配置粗细/粗体（FontWeight）

我的 Flutter 应用程序中有一个图标具体是后退图标它看起来更轻我想出于某种原因让它变得大胆增加重量 Container child Icon Icons arrow back color Color 0xffffffff pa
在jquery中获取选定tr的td值

下面是我的桌子 table tr class chargeTR td charge1 td td charge2 td tr table 下面是我的 jQuery 调用 chargeTR each function this line wo
跨域ajax请求后保留cookie

一个 JavaScript 应用程序运行在10 0 0 1尝试通过跨域 ajax 调用来验证其用户该请求如下所示 function test again ajax type GET url http example com userinf
简单框架：重复注释（不同的命名空间）

我有一个 Rss 提要我想使用简单框架在 Java 中解析它我遇到了两个同名元素的问题但其中一个元素分配了命名空间下面是一个 xml 示例
ActionScript 3 分析器和内存分析工具

我正在使用 Adob e Flash CS 4 想知道是否有可用的分析器或内存分析工具动作脚本 3 我知道有适用于 Flex 的工具但是有适用于 Flash CS 4 的工具吗谢谢我确信那里有一个程序仍在寻找我自己但我大多数
如何从 Angular2 和 ng-bootstrap 组件中的 NgbTabSet 访问“select”方法？

使用 Angular 2 3 1 和 ng bootstrap 1 0 0 alpha 18 我正在尝试以编程方式根据组件中的 ID 而不是模板内的 ID 选择选项卡目标是从 url 中提取参数并使用它来选择 ngOnInit 中的选项卡
在 Javascript 中从本地数据保存文件

场景如下用户来到我的网站并打开一个带有一些 JavaScript 功能的网页用户通过javascript编辑数据用户单击保存按钮来保存数据事情是他们似乎不需要下载这些数据因为它已经在本地计算机上的 JavaScript 中是否
用于检测 .NET CF 3.5 并安装它的 Windows Mobile Cab 设置

我使用 NET CF 3 5 等目标框架和 professional 6 SDK 开发了 windows mobile 6 professional 应用程序还创建了其 SmartDeviceCab 文件当我将其安装在没有 CF 3 5
如何控制.NET SoapFormatter中的命名空间？

我正在编写一些需要向后兼容使用 SOAP 序列化某些对象的现有远程处理代码的代码我的困难是我必须将一些对象移动到新程序集因此远程处理被破坏例如我使用 NET SoapFormatter 序列化一个对象如下所示 Person p n
vim 正则表达式用于替换引号内的空格

我有以下格式的文本 ERR OUT OF MEM ERR OUT OF MEM ERR SOMETHING BAD ERR SOMETHING BAD 我想用下划线替换文本中引号内的所有空格 ERR OUT OF MEM ERR OUT O
MVVM 最佳实践：视图模型之间的通信

我的简化程序结构如下所示 public class Manager public Item MyItem get set public void Recalculate public class Item public string Som
每对观测值的马氏距离

我正在尝试计算数据集的每个观测值之间的马哈拉诺比斯距离dat 其中每行是一个观察值每列是一个变量该距离定义为我写了一个函数来做到这一点但我觉得它很慢在 R 中是否有更好的方法来计算它生成一些数据来测试该功能 generateDa
这个正则表达式不应该发生灾难性的回溯

有人可以解释为什么 Java 的正则表达式引擎会在此正则表达式上进入灾难性的回溯模式吗据我所知每个交替都与其他每个交替相互排斥 s s Text p o de a car itaucard mastercard platinum SUS
如何在Python 3.6中执行2个协程

我无法让两个协程在我的 Python 3 6 程序中并行执行这是一个例子 import asyncio time def main loop asyncio get event loop loop run until complete s
查找C++静态初始化顺序问题

我们遇到了一些问题静态初始化顺序惨败 http www parashift com c faq lite static init order html 并且我正在寻找方法来梳理大量代码以查找可能发生的情况关于如何有效地做到这一点有什么建议
Cypher 查询 JSON 格式的结果

在演员电影演示图上 cypher 在单独的数组中返回列名称 MATCH n Person RETURN n name as Name n born as Born ORDER BY n born LIMIT 5 results colum
Mysql查询查找具有相同列值的字段之和

我有一张这样的桌子 id invent id order 1 95948214 70 2 46018572 30 3 46018572 20 4 46018572 50 5 36025764 60 6 36025764 70 7 95948
Java音乐播放器：歌曲信息和播放[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案在Android中我们可以使用媒体播放器在设备上播放歌曲并使用光标来获取曲目信息操作系统跟踪的信
简单登录返回空白页

我正在学习 PHP 并且制作了一个简单的登录脚本但问题是它仅将我重定向到空白页面如果用户凭据正确它的意思是重定向到index php 但情况显然并非如此还有验证如果用户输入空白则会返回错误这似乎没有被执行登录 php
使用 rdmsr/rdpmc 提高分支预测精度

我试图了解分支预测单元在 CPU 中如何工作我用过papi还有linux的perf events但他们都没有给出准确的结果对于我的情况这是我的代码 void func int arr int sequence len for int

使用 rdmsr/rdpmc 提高分支预测精度

使用 rdmsr/rdpmc 提高分支预测精度 的相关文章

随机推荐

热门标签

使用 rdmsr/rdpmc 提高分支预测精度的相关文章