测量 x86-64 中的 TLB 未命中处理成本

2024-03-19

我想估计运行 Linux 的 x86-64 (Intel Nehalem) 计算机上由于 TLB 未命中而导致的性能开销。我希望通过使用一些性能计数器来获得这个估计。有人知道估计这个的最佳方法是什么吗？

谢谢阿尔卡

如果您可以访问基于“Westmere”的系统，那么您的代码的性能特征应该与“Nehalem”上的性能特征非常相似，但是您将可以访问一个新的硬件性能计数器事件，该事件几乎可以准确测量您的性能想。

在 Westmere 上，等待处理 TLB 未命中时性能损失的最佳估计可能来自硬件性能计数器事件 08H、掩码 04H“DTLB_LOAD_MISSES.WALK_CYCLES”，它被描述为计数“循环页面丢失处理程序正忙于页面”由于二级 TLB 中的负载未命中而行走”。《英特尔® 64 和 IA-32 架构软件开发人员手册》中对此进行了描述第 3B 卷：系统编程指南，第 2 部分”（文档编号：253669），可在线获取http://www.intel.com/content/www/us/en/architecture-and-technology/64-ia-32-architectures-software-developer-vol-3b-part-2-manual.html http://www.intel.com/content/www/us/en/architecture-and-technology/64-ia-32-architectures-software-developer-vol-3b-part-2-manual.html

该事件之所以必要，是因为 TLB 未命中处理时间主要由读取包含页表条目的高速缓存行所需的时间决定。如果该高速缓存行位于 L2 高速缓存中，则 TLB 未命中的开销将非常小（大约 10 个周期）。如果该行位于 L3 高速缓存中，则可能是 25 个周期。如果该行位于内存中，则约为 200 个周期。

如果上层页转换缓存中也存在未命中，则需要多次访问内存来查找和检索所需的页表条目（例如，https://stackoverflow.com/a/9674980/1264917 https://stackoverflow.com/a/9674980/1264917).
在某些处理器上，L2 缓存计数器可以告诉您 L2 中命中和错过的表遍历数量，但 Nehalem 上则不然。（在这种情况下，这不会有太大帮助，因为在 L3 中命中的 TLB 遍历也相当快，而您真正想要的是必须进入内存的 TLB 遍历。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

测量 x86-64 中的 TLB 未命中处理成本的相关文章

“类别不存在。”为 MSMQ 队列创建性能计数器

我正在尝试这样做 using System Diagnostics var queueCounter new PerformanceCounter MSMQ Queue Messages in Queue machinename priva
性能计数器与 ETW

性能计数器是 ETW 的一部分吗如果不是两者有什么区别性能计数器和 ETW 是不同的技术性能计数器不通过 ETW 公开基本区别性能计数器提供有关系统行为的高级指标例如计时器读取的字节和分配的对象而 ETW 是一种诊断跟踪和
使用 C# 以编程方式确定计算机的最大硬盘数据传输速率

我使用 C 编写了一个小型 WPF 小部件以三个小百分比类型条显示当前的 CPU 活动使用的 RAM 和磁盘活动为此我使用了以下 PerformanceCounters diskCounter PerformanceCounter
Mac OS 的 Perf stat 等效项？

Mac OS 上有等效的性能统计吗我想对 CLI 命令做同样的事情但谷歌搜索没有产生任何结果 Mac OS X 中有 Instruments 工具来分析应用程序包括硬件 PMU 默认是对 CPU 使用情况进行采样分析器一些文档 ht
PHP Profiler 具有方法执行计数、次数等，无需扩展

除了 CI 的默认分析器之外是否有任何类或库可以在我的本地 php 环境中用于分析查找瓶颈查看不必要的执行时间等我要远程使用它我的主机没有安装任何调试扩展我不想要求他们安装如果有任何 PHP 解决方案那就太好了如果可能请
使用 ARM TrustZone 防止从非安全世界访问内存区域

Context 我想拥有一个有钱人GNU Linux操作系统运行在正常的世界和一个带有集成的小型操作系统Monitor运行在安全世界要求我们必须绝对避免 the 正常的世界访问安全世界内存区域 Question 具有哪些特征信任区我们需
测量 Java 程序内存使用情况的最佳方法？

我目前正在使用VisualVM 但我遇到的问题是我无法保存它生成的图表我需要报告一些有关其内存使用情况和运行时间的数据尽管运行时间很容易获得System nanoTime 我也尝试过NetBeans 分析器但这不是我想要的因为我不是在
ContentPresenter 布局传递

我正在尝试分析 wpf 应用程序以加快ListView显示复杂的多列数据模板项我无法理解申请时间表报告中的数字描述说这是此列模板 xaml
以独立于区域设置的方式访问 Windows 性能计数器

我有一组混合服务器一些运行英语 Windows 另一些运行意大利语 Windows 有没有一种方法可以在不使用与区域设置相关的字符串的情况下读取性能计数器的值我读到Zabbix 文档 http www zabbix com docume
如何获取 .NET 中的资源监视器值？

我需要获取 Windows 7 资源监视器中的一些值特别是每个进程的内存使用情况 CPU 和带宽我研究了 PerformanceCounter 类但没有找到深入到进程级别的方法资源监视器正是我正在寻找的东西在你问之前我知道这是重
为什么 React devtools Profiler 不向我显示组件属性？

我开始学习React的优化并看到一些学习资源在它们上我可以在探查器中看到组件道具但在我的 Profiler 中我没有看到任何道具为什么如何在 Profiler 中查看当前渲染组件的 props A make screensho
从 eclipse 运行 Visual VM

我正在尝试在 Eclipse kepler 中使用 Visual VM 调试 java 应用程序我正在执行具有选择 Visual VM 作为启动器的主要方法的类我已经按照中给出的说明配置了 Visual VMhttp blog idrs
list.count() 与 Counter() 性能

在尝试查找字符串中一堆字符的频率时为什么对 4 个不同的字符运行 string count character 4 次会比使用 collections Counter string 产生更快的执行时间使用 time time 背景给定
DRAM 访问的性能计数器

我想找回DRAM 存取次数在我的应用程序中准确地说我需要区分数据和代码访问之间该处理器是一个Intel R Core TM i7 4720HQ CPU 2 60GHz Haswell 基于英特尔软件开发人员手册第 3 卷 https
线程的cpu使用率

如何在c 中获取 net中线程的cpu使用率 Check 如何获取Windows上每个线程的CPU使用率 win32 https stackoverflow com questions 1393006 how to get the cpu
Haswell 微架构在性能中没有停滞周期后端

我在 Haswell CPU Intel Core i7 4790 上安装了 perf 但性能列表不包括 stalled cycles frontend 或 stalled cycles backend 我检查了http www int
造成这种性能下降的原因是什么？如何调查它？

Context 我正在使用 NEON SIMD 指令为 ARM64 编写一些高性能代码我正在尝试进一步优化我只使用整数运算不使用浮点数此代码完全受 CPU 或内存限制它不执行任何类型的系统调用或 I O 文件系统网络或其他任何内
如果分析器不是答案，我们还有什么其他选择？

看完Joshua Bloch的演讲绩效焦虑后我读了他在演讲中建议的论文评估 Java 分析器的准确性 http www plan cs colorado edu klipto mytkowicz pldi10 pdf 引用结论我们
C#/.NET 分析器应具有哪些功能？

这可能是一则边缘广告更不用说主观了但这个问题是诚实的在过去的两个月里我一直在为 NET 开发一个新的开源分析器称为 SlimTune Profiler http code google com p slimtune http co
什么是 Linux 上易于使用的 C++ 分析器？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我需要分析一些在 Linux 上运行 C 的代码你们能推荐一些分析器吗使用 gprof 只需编译 pg标志我认为但不确定你必须关

随机推荐

$_SERVER['REQUEST_URI'] 和 header('location: ...') 的任何安全问题；

我的网站有页眉页脚和主要内容如果用户未登录则对于主要内容可能会显示登录表单而不是实际内容在该登录表单上我写了 SERVER REQUEST URI 在会话变量中 SESSION redirect 我的登录表单后处理程序将登录用户
Lucene中的geohash索引是如何工作的

在 lucene space 4 中我想知道 geohash 索引在幕后是如何工作的我理解 geohash 的概念它基本上需要 2 个点纬度经度并创建一个字符串哈希索引只是一个字符串索引 r 树或四叉树还是类似的东西
如何捕获 lambda 表达式内外部变量的值？

我刚刚遇到以下行为 for var i 0 i lt 50 i Task Factory StartNew gt Debug Print Error i ToString 会导致一系列 Error x 其中大多数x等于50 相似地 var
memcpy 在 Linux 中移动 128 位

我正在 Linux 中为 PCIe 设备编写设备驱动程序该设备驱动程序执行多次读取和写入来测试吞吐量当我使用 memcpy 时最大有效负载TLP https en wikipedia org wiki PCI Express Data
Kotlin 是否支持类似于 Swift 中的协议组合的接口组合或未来有计划吗？

到目前为止我发现的答案可能是否定的但我想知道未来是否有任何计划支持此功能这是 Swift 中的样子协议组合的形式为 SomeProtocol AnotherProtocol 您可以根据需要列出任意多个协议并用与号分隔它们除了协议
在 Entity Framework Core 中使用两列的一对多关系

在我的项目中我有一张桌子Translation可以有任何模型的翻译为了实现这一点该表有两个字段 Model and ModelId The Model属性保存一个整数指示模型的类型和ModelId有这个模型的id 因此例如 Prod
删除ggplot2中geom_boxplot中的边框

这看起来应该相对简单但我找不到允许我这样做的论点并且我已经在 Google 和 Stack 中搜索了答案示例代码 library ggplot2 library plotly dat lt data frame cond factor
Dagger 2.15：AppComponent - 无法处理此接口

我无法构建我的应用程序并出现以下错误 Task app kaptDebugKotlin debug AppComponent java 7 error ComponentProcessor MiscError dagger interna
使用转换器从 System.Windows.SystemParameters.PrimaryScreenWidth 进行 WPF 绑定

我试图将 System Windows SystemParameters PrimaryScreenWidth 绑定到 ColumnDefinition 的来自 Grid 内宽度属性并使用转换器将 PrimaryScreenWidth
webpack 包中的导出功能

我正在使用需要回调的谷歌地图 API 如何从 webpack 包导出回调以供外部脚本例如 Google Maps API 使用 HTML X d 输出键 div div map js var require jquery function
Eclipse：“系统”无法解析

首先我安装了java 7 0 update 25 然后安装了eclipse 后来根据要求我卸载了这个java版本并安装了早期版本5 0 现在在每个 Eclipse 程序中都会显示 System 一词的错误解决办法是将java exe
UIPageControl - 如何使背景透明？

我在用UIPageControl并试图使背景透明 UIPageControl pageControl UIPageControl appearance pageControl pageIndicatorTintColor UIColor l
CSS 在打印时指定整页宽度？

我有一个 html 页面由于打印特定的样式打印得很好除了一件事它不使用页面的整个宽度换句话说我希望缩放页面以填充页面是否可以使用 css 样式获得该结果实际上你可以用 pagecss 规则尽管它可以在浏览器实现之间进行一
itextsharp：如果未设置行底部边框，如何显示具有属性 HeaderRows=1 的表格的底线？

我使用 itextsharp 的最新版本我使用属性 HeaderRows 1 这样如果有分页符标题行将再次出现在下一页中然后我们的内容行具有边框样式没有底线如下所示 PdfPCell cell1 null cell1 new Pd
在 Cython 中使用半精度 NumPy 浮点数

我正在尝试从一些 Cython 代码将 float16 数据发送到 Nvidia P100 卡当我使用 float32 时我可以在 Cython 中定义我的类型如下所示 DTYPE np float32 ctypedef np flo
将 ES7 静态 propTypes 与 React-Native 结合使用

当我使用 React Native 默认打包程序启动项目时出现以下错误 Unexpected token在这一行 static propTypes 我查看了 GitHub 上的 React Native issues 但没有找到解决方案
mongodb+srv URI 不能有端口号

我有注意用户名和密码是组成的 const CONNECTION URL mongodb srv smith bob email protected cdn cgi l email protection T llyHo cluster0
如何获取 TensorFlow 中估算器的默认会话？

我创建了一个估算器并使用估算器将其导出到 SavedModel 文件export savedmodel 功能出于可重复性的原因我希望能够重新创建估算器加载 SavedModel 文件中的变量然后调用evaluate 并得到相同的结果
在启用 SuperTab 的情况下，如何使用 Tab 键在 vim 中缩进？

我刚刚在 vim 中启用了 SuperTab 如果我尝试缩进空行 SuperTab 会尝试插入字符串我想我想要的是让 SuperTab 提供补全功能only如果光标左侧有非空白我不想使用 Ctrl V 或 Ctrl Q 或其他任何东西
测量 x86-64 中的 TLB 未命中处理成本

我想估计运行 Linux 的 x86 64 Intel Nehalem 计算机上由于 TLB 未命中而导致的性能开销我希望通过使用一些性能计数器来获得这个估计有人知道估计这个的最佳方法是什么吗谢谢阿尔卡如果您可以访问基于 West

测量 x86-64 中的 TLB 未命中处理成本

测量 x86-64 中的 TLB 未命中处理成本 的相关文章

随机推荐

热门标签

测量 x86-64 中的 TLB 未命中处理成本的相关文章