PERF_TYPE_HARDWARE 和 PERF_TYPE_HW_CACHE 并发监控

2024-01-16

我正在研究一个自定义实现perf_event_open系统调用。

该实施旨在支持各种PERF_TYPE_HARDWARE, PERF_TYPE_SOFTWARE and PERF_TYPE_HW_CACHE活动为任何核心上的特定线程.

In 英特尔® 64 和 IA-32 架构软件开发人员手册第 3B 卷我在测试 CPU (Kaby Lake) 中看到以下内容：

据我所知，到目前为止，人们可以（理论上）无限地监控PERF_TYPE_SOFTWARE事件并发但有限（无复用）PERF_TYPE_HARDWARE and PERF_TYPE_HW_CACHE因为每个事件都是由 CPU 的 PMU 的有限数量的计数器（如上面的手册中所示）来测量的。

因此，对于启用超线程的四核 Kaby Lake CPU，我假设最多 4 个PERF_TYPE_HARDWARE/PERF_TYPE_HW_CACHE可以同时监视事件（如果仅使用 4 个线程，则最多可监视 8 个事件）。

对上述假设进行实验后，我发现虽然我可以成功监控最多 4 个PERF_TYPE_HARDWARE事件（对于 8 个线程）情况并非如此PERF_TYPE_HW_CACHE最多只能同时监控 2 个事件的事件！

我还尝试仅使用 4 个线程，但并发监视的“PERF_TYPE_HARDWARE”事件的上限仍然是 4。超线程也会发生同样的情况disabled!

有人可能会问：为什么需要避免多路复用。首先，实现需要尽可能准确，避免复用的潜在盲点，其次，当超过“上限”时，所有事件值均为 0...

The PERF_TYPE_HW_CACHE我的目标事件是：

CACHE_LLC_READ(PERF_HW_CACHE_TYPE_ID.PERF_COUNT_HW_CACHE_LL.value  | PERF_HW_CACHE_OP_ID.PERF_COUNT_HW_CACHE_OP_READ.value << 8 | PERF_HW_CACHE_OP_RESULT_ID.PERF_COUNT_HW_CACHE_RESULT_ACCESS.value << 16),
CACHE_LLC_WRITE(PERF_HW_CACHE_TYPE_ID.PERF_COUNT_HW_CACHE_LL.value  | PERF_HW_CACHE_OP_ID.PERF_COUNT_HW_CACHE_OP_WRITE.value << 8 | PERF_HW_CACHE_OP_RESULT_ID.PERF_COUNT_HW_CACHE_RESULT_ACCESS.value << 16),
CACHE_LLC_READ_MISS(PERF_HW_CACHE_TYPE_ID.PERF_COUNT_HW_CACHE_LL.value  | PERF_HW_CACHE_OP_ID.PERF_COUNT_HW_CACHE_OP_READ.value << 8 | PERF_HW_CACHE_OP_RESULT_ID.PERF_COUNT_HW_CACHE_RESULT_MISS.value << 16),
CACHE_LLC_WRITE_MISS(PERF_HW_CACHE_TYPE_ID.PERF_COUNT_HW_CACHE_LL.value  | PERF_HW_CACHE_OP_ID.PERF_COUNT_HW_CACHE_OP_WRITE.value << 8 | PERF_HW_CACHE_OP_RESULT_ID.PERF_COUNT_HW_CACHE_RESULT_MISS.value << 16),

所有这些都按照提供的公式实现：

(perf_hw_cache_id) | (perf_hw_cache_op_id << 8) |
(perf_hw_cache_op_result_id << 16)

并作为一个团体进行操纵（第一个是团体领导者等）。

所以，我的问题如下：

PMU的哪些计数器用于PERF_TYPE_HARDWARE以及对于PERF_TYPE_HW_CACHE活动以及在哪里可以找到这些信息？
两者有什么区别PERF_TYPE_HARDWARE预定义的事件（例如PERF_COUNT_HW_CACHE_MISSES）和PERF_TYPE_HW_CACHE events?
有关如何在不复用所有列出的情况下进行监控的任何建议PERF_TYPE_HW_CACHE events?
关于如何在不复用最多 8 个的情况下进行监控的任何建议PERF_TYPE_HARDWARE or/and PERF_TYPE_HW_CACHE events?

提前致谢！

The PERF_TYPE_HARDWARE and PERF_TYPE_HW_CACHE事件被映射到涉及性能监控的两组寄存器。第一组 MSR 称为IA32_PERFEVTSELx其中 x 的范围为 0 到 N-1，N 是可用通用计数器的总数。这PERFEVTSEL是“性能事件选择”的缩写，它们指定了发生事件计数的各种条件。第二组 MSR 称为IA32_PMCx，其中 x 的变化类似于PERFEVTSEL。这些 PMC 寄存器存储性能监控事件的计数。每个PERFEVTSEL寄存器与相应的配对PMC登记。

映射发生如下 -

在内核的体系结构特定部分初始化时，会注册一个用于测量硬件特定事件的 pmuhere https://elixir.bootlin.com/linux/v5.6.15/source/arch/x86/events/core.c#L1908与类型PERF_TYPE_RAW. All PERF_TYPE_HARDWARE and PERF_TYPE_HW_CACHE事件被映射到PERF_TYPE_RAW事件来识别pmu，可以看出here https://elixir.bootlin.com/linux/v5.6.15/source/kernel/events/core.c#L10511.

if (type == PERF_TYPE_HARDWARE || type == PERF_TYPE_HW_CACHE)
        type = PERF_TYPE_RAW;

相同的架构特定初始化负责设置上述每组性能监控事件寄存器的第一/基址寄存器的地址，here https://elixir.bootlin.com/linux/v5.6.15/source/arch/x86/events/intel/core.c#L3950

    .eventsel       = MSR_ARCH_PERFMON_EVENTSEL0,
    .perfctr        = MSR_ARCH_PERFMON_PERFCTR0,

The event_init特定于PMU识别的功能，负责设置和“保留”两组性能监控寄存器，以及检查事件约束等，here https://elixir.bootlin.com/linux/v5.6.15/source/arch/x86/events/core.c#L2350。预订发生here https://elixir.bootlin.com/linux/v5.6.15/source/arch/x86/events/core.c#L148.

for (i = 0; i < x86_pmu.num_counters; i++) {
        if (!reserve_perfctr_nmi(x86_pmu_event_addr(i)))
            goto perfctr_fail;
    }

    for (i = 0; i < x86_pmu.num_counters; i++) {
        if (!reserve_evntsel_nmi(x86_pmu_config_addr(i)))
            goto eventsel_fail;
    }

价值num_counters= 通用计数器的数量CPUID操作说明。

除此之外，还有一些额外的寄存器 https://elixir.bootlin.com/linux/v5.6.15/source/arch/x86/events/intel/core.c#L232监视核心外事件（例如 LLC 缓存特定事件）。

在架构性能监控的更高版本中，一些硬件事件是借助固定用途寄存器来测量的，如下所示here https://elixir.bootlin.com/linux/v5.6.15/source/arch/x86/events/intel/core.c#L193。这些都是固定目的的寄存器 https://elixir.bootlin.com/linux/v5.6.15/source/arch/x86/include/asm/perf_event.h#L158 -

#define MSR_ARCH_PERFMON_FIXED_CTR0 0x309
#define MSR_ARCH_PERFMON_FIXED_CTR1 0x30a
#define MSR_ARCH_PERFMON_FIXED_CTR2 0x30b

The PERF_TYPE_HARDWARE预定义的events https://elixir.bootlin.com/linux/v5.6.15/source/arch/x86/events/intel/core.c#L30都是建筑学性能监控事件。这些事件是架构性的，因为每个架构性能事件的行为预计在支持该事件的所有处理器上保持一致。全部PERF_TYPE_HW_CACHE事件是非建筑，这意味着它们是特定于型号的，并且可能因处理器系列而异。
对于我拥有的 Intel Kaby Lake 机器，总共 20PERF_TYPE_HW_CACHE事件是预先定义的。事件约束involved https://elixir.bootlin.com/linux/v5.6.15/source/arch/x86/events/intel/core.c#L192，确保 3 个可用的固定功能计数器映射到 3 个PERF_TYPE_HARDWARE建筑事件。每个固定功能计数器只能测量一个事件，因此我们可以在分析时丢弃它们。另一个限制是只能同时测量两个针对 LLC 缓存的事件，因为只有两个事件OFFCORE RESPONSE寄存器。另外，nmi-watchdog可以将事件固定到通用计数器系列中的另一个计数器。如果nmi-watchdog被禁用后，我们只剩下 4 个通用计数器。

考虑到所涉及的限制以及可用计数器的数量有限，如果同时测量所有 20 个硬件缓存事件，则无法避免复用。测量所有事件而不引起多路复用及其错误的一些解决方法是 -

3.1.将所有的PERF_TYPE_HW_CACHE事件分成 4 个一组，这样所有 4 个事件都可以同时安排在 4 个通用计数器中的每一个上。确保组中的 LLC 缓存事件不超过 2 个。运行相同的配置文件并分别获取每个组的计数。

3.2.如果所有的PERF_TYPE_HW_CACHE要同时监视多个事件，则可以通过减小的值来减少多路复用的一些错误perf_event_mux_interval_ms。它可以通过名为的 sysfs 条目进行配置/sys/devices/cpu/perf_event_mux_interval_ms。该值不能降低超过一个点，可以看出here https://elixir.bootlin.com/linux/v5.6.15/source/kernel/events/core.c#L1112.

监视最多 8 个硬件或硬件缓存事件需要禁用超线程。请注意，有关可用通用计数器数量的信息是使用以下命令检索的：CPUID指令和此类计数器的数量在内核启动的体系结构初始化部分通过early_initcall功能。这个可以看到here https://elixir.bootlin.com/linux/v5.6.15/source/kernel/events/core.c#L1112。初始化完成后，内核知道只有 4 个计数器可用，以后超线程功能的任何更改都不会产生任何影响。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PERF_TYPE_HARDWARE 和 PERF_TYPE_HW_CACHE 并发监控的相关文章

测试使用 perf 进行性能分析时如何获取准确的调用栈

测试使用 perf 进行性能分析时如何获取准确的调用栈 ifonly 2020年02月27日 101 次阅读目录 perf 是 Linux 下重要的性能分析工具 xff0c perf 可以通过采样获取很多性能指标 xff0c 其中最常用
Use Perf on Odroid XU3/XU4

Because the Odroid is using a minor kernel version which does not support apt get to install Perf directly so users need
BCOS区块链性能分析工具的安装和使用perf+火焰图

安装Perf perf的全称是Performance Event 在2 6 31版本后的Linux内核中均有集成是Linux自带的强力性能分析工具使用现代处理器中的特殊硬件PMU Performance Monitor Unit 性能监
在linux中定期读取性能计数器

有没有办法在Linux中定期读取性能计数器就像是perf stat我正在寻找能够对每个 X 周期进行采样的能力基本上我希望能够读取某些程序的每 X 个 CPU 周期的指令计数器执行的指令数好消息在下一个内核 Linux 3 9 中
Perf 显示没有内存访问的块中的 L1-dcache-load-misses

下面是一个代码块 perf record 标记为导致所有 L1 dcache 未命中的 10 但该块完全是 zmm 寄存器之间的移动这是 perf 命令字符串 perf record e L1 dcache load misses c 1
如何更改 perf_event_open 最大采样率

我正在使用 perf event open 来获取样本我试图让每个人都切中要害但 perf event open 不够快我尝试使用以下命令更改采样率 echo 10000000 gt proc sys kernel perf even
如何计算进程id的执行指令数，包括所有未来的子线程

前段时间我问了以下问题如何统计进程id 包括子进程的执行指令数 M Iduoad 提供了一个解决方案pgrep捕获所有子 PID 并将其与 perf stat 中的 p 一起使用效果很好然而我遇到的一个问题是多线程应用程序以及当
即使 RS 未完全满，是否也可能发生 RESOURCE_STALLS.RS 事件？

的描述RESOURCE STALLS RSIntel Broadwell 的硬件性能事件如下此事件对由于缺少合格条目而导致的停顿周期进行计数在保留站 RS 这可能是由于 RS 溢出造成的或者由于 RS 阵列写入端口分配而导致 RS
为什么在 BIOS 中禁用超线程的 Broadwell CPU 上，perf stat 不计算周期：u？

鉴于 BIOS 中禁用超线程的 Broadwell CPU root ny4srv03 lscpu Architecture x86 64 CPU op mode s 32 bit 64 bit Address sizes 46 bits
rdpmc：令人惊讶的行为

我试图理解 rdpmc 指令因此我有以下 asm 代码 segment text global start start xor eax eax mov ebx 10 loop dec ebx jnz loop mov ecx 1 lt l
L2 取指未命中率远高于 L1 取指未命中率

我正在生成一个综合 C 基准测试旨在通过以下 Python 脚本导致大量指令获取丢失 usr bin env python import tempfile import random import sys if name main fun
基于 Linux 内核头文件中的功能的条件编译

考虑一下我正在使用导出到用户空间的 Linux 标头中的某些功能的情况例如perf event open http man7 org linux man pages man2 perf event open 2 html from
当 KVM-QEMU 打开时，Intel-PT 不记录任何数据包

我尝试在主机上使用 Intel PT 同时在客户机上运行通用软件程序所以我期望主机中运行的 Intel PT 将记录所有相关数据包如 PIP FUP TSC 等以及所有基于 VM 的数据包如 VMCS 我使用以下命令 perf kv
perf 可以在内核中找到符号，但在我的程序中找不到符号。如何修复它？

你可能读过这个问题我怎样才能在程序中找到符号 https stackoverflow com questions 10933408 how can i get perf to find symbols in my program 1 我的
PERF_TYPE_HARDWARE 和 PERF_TYPE_HW_CACHE 并发监控

我正在研究一个自定义实现perf event open系统调用该实施旨在支持各种PERF TYPE HARDWARE PERF TYPE SOFTWARE and PERF TYPE HW CACHE活动为任何核心上的特定线程 In 英特
PubNub最佳实践：如何管理私人房间？

我正在学习 pubnub 并阅读了他们的文档但我只是找不到如何管理多房间聊天框默认情况下任何人都可以收听某个频道订阅和发布都很容易我想要的是拥有一个主要的公共房间到目前为止一切都很好但任何人都应该能够与其他人私下交谈而不会有
为什么执行指针追踪时该跳转指令的开销如此之大？

我有一个程序可以执行指针追逐 https en wikichip org wiki pointer chasing我正在尝试尽可能优化指针追逐循环我注意到perf record检测到函数中约 20 的执行时间myFunction 用于执行
了解 lfence 对具有两个长依赖链的循环的影响，以增加长度

我正在玩代码这个答案 https stackoverflow com a 50496379 5801661 稍微修改一下 BITS 64 GLOBAL start SECTION text start mov ecx 1000000 loo
C++ UDP Socket端口复用

如何在 C 中创建客户端 UDP 套接字以便它可以侦听另一个应用程序正在侦听的端口换句话说如何在 C 中应用端口复用我只想监听一个端口您可以使用嗅探器来做到这一点只需忽略来自不同端口的数据包即可我可能需要阻止它发送一些特定的数
perf stat中的cycles注释是什么意思

8 014196 task clock 0 004 CPUs utilized 204 context switches 0 025 M sec 32 cpu migrations 0 004 M sec 0 page faults 0 0

随机推荐

用于在 Internet Explorer 7 中打开多个页面的 Windows 控制台命令

如何使用单个 DOS 命令在 Internet Explorer 7 中打开多个页面批处理文件是执行此操作的唯一方法吗 Thanks 批处理文件将作为一种快速但肮脏的解决方案 echo off setlocal openurl set u
Jenkins Pipeline 有“多个候选版本”并且正在选择旧版本

我配置了一个 Jenkins 多分支管道它应该从远程 GIT 存储库获取源代码以进行构建詹金斯似乎随机选择一个旧的提交来构建并在构建日志文件中显示消息多个候选修订我的管道看起来像 checkout class GitSCM b
XML：如何将一个文件读入另一个文件

我有一个文件 A xml 包含如下内容
嵌入或引用关系

我使用 mongodb 和 mongoid gem 我想得到一些建议我有一个应用程序其中用户has many市场与市场has many产品我需要在属于用户的所有或任何市场中搜索特定价格范围内的产品哪种关系更适合这种情况嵌入关系
ActiveRecord :includes - 如何使用带有加载关联的地图？

我有一个小型 Rails 应用程序我正在尝试获取一些订单统计信息所以我有一个管理模型和一个订单模型具有一对多关联 class Admin lt ActiveRecord Base attr accessible name has ma
多线程将对象引用传递给静态帮助器方法

我只是 Java 的初学者偶然发现了多线程应用程序我知道这个问题与这里的一些帖子类似但我找不到更好的答案来回答我的问题基本上我想将对象传递给静态方法该方法将仅根据对象的值属性返回输出对于每次调用我都会创建该对象的一个新实
视图控制器可以访问传入 Segue 的标识符吗？

视图控制器可以访问用于转换到它的 Segue 的标识符吗例如我使用带有标识符 mySegue 的 Segue 从视图控制器 A 转换到视图控制器 B 无论如何视图控制器 B 是否可以获取 segue 的标识符我不相信有这样的财产这
JAX-RS 中的 @Produces 注释

我的服务方法产生其中之一MediaTypes它可能会产生pdf or excel文件或其他 Produces application pdf application vnd ms excel 我的问题我的服务返回响应类型applicati
在 Swift 中使用实时滤镜录制视频

我是 swift 的新手试图构建一个相机应用程序它可以应用实时滤镜并使用应用的滤镜进行保存到目前为止我可以使用应用的滤镜实时预览但当我保存视频时它全黑了 import UIKit import AVFoundation imp
发布模式出错，但调试模式下不出错

我的代码在调试模式下运行良好但在发布模式下失败这是我失败的代码片段 LOADER gt AllocBundle m InitialContent while m InitialContent isReady this gt Loadin
带 Plotly 的树形图：空白屏幕？

我正在使用 R 编程语言我正在尝试遵循此处提供的答案 R 中使用plotly 绘制树形图 https stackoverflow com questions 72179306 treemap plot with plotly in r 我
“索引签名参数类型不能是联合类型。” – 我应该用什么来代替？

当我尝试编译此 Typescript 代码时 interface Foo foo hello world string 我收到此错误消息索引签名参数类型不能是联合类型考虑改用映射对象类型什么是映射对象类型如何使用它映射的对象类型对
检查变量是否是字符串的简单方法？

这个问题是一个衍生问题是 Array 的实例但不是 String 的实例 https stackoverflow com questions 12254658 is an instance of array but isnt of s
使用 Microsoft Graph 客户端创建日历事件

我正在尝试弄清楚如何使用 Microsoft Graph JavaScript 客户端创建日历事件我已经设法找回必要的accessToken并且可以与 API 交互即检索事件日历前 10 封电子邮件但我不确定如何使用 API 来创
Laravel 4：如何更新 Eloquent 模型中的多个字段？

如何更新 Eloquent 模型中的多个字段假设我是这样得到的 user User where username rok 然后我就有了所有这些模型参数 new user data array email gt email protecte
ZF2 - Zend Framework 2，了解路由

我正在尝试了解 ZF2 中的模块路由目前我只能为单个操作创建一个控制器并且正在努力找出这个路由我查看了其他模块和插件我有点明白了只需要一点点推动就可以得到它在此示例中我尝试路由到两个操作 indexAction 和 cmst
粘贴前检查剪贴板的内容

在Excel VBA中粘贴之前是否可以检查剪贴板的内容我今天有这个 Sheets Add After Sheets Sheets Count Create new sheet ActiveSheet Paste Paste from Cl
Android 按钮位置编程

我的应用程序中有一个按钮我想以编程方式更改其位置我在 XML 中创建了一个按钮如下所示
如何使用 phinx 编写迁移来插入记录？

我在用着phinx http docs phinx org 为了处理新项目的迁移现在我需要创建一个新表并向其中插入一些行我有 tableStatus this gt table status tableStatus gt addColu
PERF_TYPE_HARDWARE 和 PERF_TYPE_HW_CACHE 并发监控

我正在研究一个自定义实现perf event open系统调用该实施旨在支持各种PERF TYPE HARDWARE PERF TYPE SOFTWARE and PERF TYPE HW CACHE活动为任何核心上的特定线程 In 英特

PERF_TYPE_HARDWARE 和 PERF_TYPE_HW_CACHE 并发监控

PERF_TYPE_HARDWARE 和 PERF_TYPE_HW_CACHE 并发监控 的相关文章

随机推荐

热门标签

PERF_TYPE_HARDWARE 和 PERF_TYPE_HW_CACHE 并发监控的相关文章