Perf 显示没有内存访问的块中的 L1-dcache-load-misses

2023-11-29

下面是一个代码块，perf record 标记为导致所有 L1-dcache 未命中的 10%，但该块完全是 zmm 寄存器之间的移动。这是 perf 命令字符串：

perf record -e L1-dcache-load-misses -c 10000 -a -- ./Program_to_Test.exe

代码块：

Round:
vmulpd zmm1,zmm0,zmm28
VCVTTPD2QQ zmm0{k7},zmm1
VCVTUQQ2PD zmm2{k7},zmm0
vsubpd zmm3,zmm1,zmm2
vmulpd zmm4,zmm3,zmm27
VCVTTPD2QQ zmm5{k7}{z},zmm4

VPCMPGTQ k2,zmm5,zmm26
VPCMPEQQ k3 {k7},zmm5,zmm26
KADDQ k1,k2,k3

VCVTQQ2PD zmm2{k7},zmm0
VDIVPD zmm1{k7},zmm2,zmm28 ; Divide by 100
VPXORQ zmm2{k7},zmm2,zmm2
vmovupd zmm2,zmm1
VADDPD zmm2{k1},zmm1,zmm25

对于该代码块，我使用其他 L1 度量（例如 l1d.replacement）得到了类似的结果。

我的问题是，一个仅是 zmm 寄存器移动的块如何会产生 L1 缓存未命中？我认为寄存器根本不会进入内存。事实上，最后一次内存访问是在该代码块之上的10条指令；其他9条指令都是寄存器到寄存器指令。

事件L1-dcache-load-misses被映射到L1D.REPLACEMENT在桑迪桥和后来的微架构上（或映射到旧微架构上的类似事件）。此事件不支持精确采样，这意味着样本可能指向无法生成采样事件的指令。（注意L1-dcache-load-misses当前任何 Atom 均不支持。）

从在 Haswell+ 或 Silvermont+ 微架构上运行的 Linux 3.11 开始，可以通过指定满足以下两个条件的采样事件，使用事件指令指针捕获样本：

该事件支持精确采样。例如，您可以使用代表内存微指令或指令退休的任何事件。事件的确切名称和含义取决于微体系结构。有关详细信息，请参阅英特尔 SDM 第 3 卷。不存在支持精确采样且具有相同确切含义的事件L1D.REPLACEMENT。在支持扩展 PEBS 的处理器上，只有 PEBS 事件的子集支持精确采样。
事件上启用精确采样级别。在 Linux perf 中，这可以通过在事件名称或原始事件编码后附加“:pp”或在 PMU 语法中指定的原始事件的终止斜杠后附加“pp”来完成。例如，在 Haswell 上，事件mem_load_uops_retired.l1_miss:pp可以指定给 Linux perf。

发生此类事件时，当事件计数器溢出时，PEBS 硬件就会启动，这意味着它现在正在寻找尽早收集精确样本的机会。当至少有一条指令会在此时间窗口期间引发事件时，PEBS 硬件最终将由这些指令之一触发，并且偏向于高延迟指令。当触发PEBS的指令退出时，PEBS微码例程将执行并捕获PEBS记录，其中包含触发PEBS的指令的IP（与架构IP不同）等。 perf 用于显示结果的指令指针 (IP) 就是该事件 IP。（我注意到，指向不可能导致该事件的指令的样本数量可以忽略不计。）

在较旧的微架构（Haswell 和 Silvermont 之前）上，还支持“pp”精确采样级别。这些处理器上的 PEBS 将仅捕获架构事件，该事件指向按程序顺序紧随 PEBS 触发指令之后的静态指令。如果可能的话，Linux perf 使用 LBR，其中包含源-目标 IP 对来确定捕获的 IP 是否是跳转的目标。如果是这种情况，它会将源 IP 作为事件 IP 添加到示例记录中。

一些微体系结构支持一个或多个具有更好采样分布的事件（更好的程度取决于微体系结构、事件、计数器以及计数器即将溢出时正在执行的指令）。在 Linux perf 中，如果支持，可以通过指定精确级别“ppp”来启用精确分发。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Perf 显示没有内存访问的块中的 L1-dcache-load-misses 的相关文章

php exec 返回的结果比直接进入命令行要少

我有一个 exec 命令它的行为与通过 Penguinet 给 linux 的相同命令不同 res exec cd mnt mydirectory zcat log file gz echo res 当将命令直接放入命令行时我在日志文件
Linux：如何设置进程的时区？

我需要设置在 Linux 机器上启动的各个进程的时区我尝试设置TZ变量在本地上下文中但它不起作用有没有一种方法可以使用与系统日期不同的系统日期从命令行运行应用程序这可能听起来很愚蠢但我需要一种sandbox系统日期将被更改的地方
我的用例可以合并到单个查询中而不影响性能吗？

我主要着眼于改善表现查询的内容以及是否能够解决单一查询对于我的用例之一解释如下涉及到2张表 Table 1 EMPLOYEE column1 column2 email1 email2 column5 column6 Table 2 E
我如何知道 C 程序的可执行文件是在前台还是后台运行？

在我的 C 程序中我想知道我的可执行文件是否像这样在前台运行 a out 或者像这样 a out 如果你是前台工作 getpgrp tcgetpgrp STDOUT FILENO or STDIN FILENO or STDERR FIL
如何将 Browserify 与外部依赖项一起使用？

我正在尝试慢慢地将 Browserify 引入我的网站但我不想重写所有 js 也不希望 jquery 和其他库的重复实例与我的 Browserify 版本捆绑在一起如果我构建将 jquery 列为外部依赖项的模块那么如何将其指向我的全
要做或不做：将图像存储在数据库中[重复]

这个问题在这里已经有答案了在 Web 应用程序的上下文中我的前老板总是说在数据库中放置对图像的引用而不是图像本身我倾向于同意在数据库中存储 url 与图像本身是一个好主意但在我现在工作的地方我们在数据库中存储大量图像我能想到的
如何对单个 TypoSript 对象生成进行基准测试？

我想对单个 TypoScript 对象生成进行基准测试以控制性能是否可以使用某些 stdWrap 方法我想要对其进行基准测试的 TS 对象示例 Test 1 page 10 RECORDS page 10 tables pages so
Urwid：使光标不可见

我正在使用 urwid 它是一个用于在 ncurses 中设计终端用户界面的 Python 框架但有一件事我在 urwid 中无法做到而这在 Curses 中很容易做到使光标不可见现在选择按钮时光标是可见的而且看起来很丑有办法
性能：cakephp-mysql 中的 UUID 与自动递增

我正在搜索 cakePHP 生成的 UUID 32 个字符长是否比自动增量在性能上更快插入和选择操作的比较我应该使用 cakePHP 生成的 UUID 还是使用 MySQL 的简单自动增量生成的 UUID 这是我发现的一个案例研究但
SSL 速度：128 位与 256 位

我决定使用 SSL 加密我的整个网站即使实际上只有部分网站是必要的最终结果是该网站现在有点慢所以我的问题是我是否应该只加密网站的会员部分请记住我在首页上有登录表单我是否应该将加密降低到 128 位如果站点总体较小速度差异是
PyQt5 - 无法使用 QVideoWidget 播放视频

from PyQt5 QtWidgets import from PyQt5 QtMultimedia import from PyQt5 QtMultimediaWidgets import from PyQt5 QtCore impor
改进C++逐行读取文件的能力？

我正在解析大约 500GB 的日志文件我的 C 版本需要 3 5 分钟我的 Go 版本需要 1 2 分钟我正在使用 C 的流来流式传输文件的每一行以进行解析 include
IN 运算符对 SQL 查询性能的影响有多大？

我的 SQL 查询需要 9 个小时才能执行见下文 Select Field1 Field2 From A Where Field3 IN 45 unique values here 当我将此查询拆分为 3 个完全相同的查询仅每个 IN
在生产代码/服务器上运行测试

我在单元测试自动化测试方面相对缺乏经验所以如果这个问题没有任何意义请原谅我当前正在处理的代码库耦合如此紧密以至于我需要重构大部分代码才能对其运行单元测试所以我阅读了一些帖子并发现了 Selenium 我认为它确实是一个很酷的程序
Linux 上的基准测试程序

对于一项任务我们需要使用不同的优化和参数来对我们的实现进行基准测试有没有一种可行的方法可以在Linux命令行我知道时间上使用不同的参数对小程序进行基准测试从而为我提供CSV或类似内容的时间数据输出可能类似于 Implementa
Python 脚本作为 Linux 服务/守护进程

Hallo 我试图让 python 脚本作为服务守护进程在 ubuntu linux 上运行网络上存在多种解决方案例如 http pypi python org pypi python daemon http pypi python
警告：请求的映像平台 (linux/amd64) 与检测到的主机平台 (linux/arm64/v8) 不匹配

警告请求的映像平台 linux amd64 与检测到的主机平台 linux arm64 v8 不匹配并且未请求特定平台 docker 来自守护程序的错误响应无法选择具有功能的设备驱动程序 gpu 我在 mac 上尝试运行此命令时遇到此
使用 plistBuddy 获取值数组

var keychain access groups declare a val usr libexec PlistBuddy c Print var sample plist echo val echo val 0 Ouput Array
vagrant ssh -c 并在连接关闭后保持后台进程运行

我正在编写一个脚本来启动和后台流浪机器内的进程似乎每次脚本结束和 ssh 会话结束时后台进程也会结束这是我正在运行的命令 vagrant ssh c cd vagrant src nohup python hello py gt he
索引在 NOT IN 或 <> 子句中起作用吗？

我读过至少 Oracle 数据库中的普通索引基本上是 B 树结构因此存储处理适当根节点的记录小于根的记录被迭代地存储在树的左侧部分而大于根的记录被存储在右侧部分正是这种存储方法有助于通过树遍历实现更快的扫描因为深度和广度都

随机推荐

正确的 xs:ID 允许的 ID 名称是什么？

我正在尝试定义一个IDid标签之一的属性文档和 xsd 模式要求确认 id 设置xs id I tried ID 123 那行得通但是当我尝试时 123 它没我在谷歌上搜索了很多选项和一些例子但除了所写的文字之外找不到任何东西her
在微调器中设置键和值

我有一个微调器我想在其上设置一个键和一个值我使用 HashMap 它可以工作但显示一行如下所示 Code final View rootView inflater inflate R layout fragment photos c
将数据从一个路线视图传递到另一个路线视图

我想使用 ui Router 将一些值从 Angularjs 中的一个视图传递到另一个视图我不想使用 rootScope 来保存数据或创建新服务因为我有许多视图传递少量数据因此为几行代码创建新的 jsfile 并不有趣我想做的一个超
如何使用 ARcore 在没有 arFragment 的情况下在平面上的锚点之间绘制一条线

我正在围绕这个构建我的应用程序Agora ARcore 演示基于Google 的 hello ar java 示例应用程序该应用程序捕获用户的点击并检查是否找到场景中的任何飞机如果是这样请在该点创建一个锚点我想在各个锚点之间画一条线
单击元素外部（但不在内部）时关闭/隐藏元素

我有一个 div 存在于页面上我需要这样做以便当用户单击该元素外部时它将隐藏但如果用户单击元素内的某个位置那么它应该保留我尝试使用 e stopPropagation and e preventDefault 将其添加到该特定 D
在两个 Python 进程之间交换数据

我有一个 Arduino 它将 JSON 数据包发送到 Python 进程 PP1 这个Python进程会持续运行但是这个进程必须邀请并接收 JSON 数据包到另一个 Python 进程 PP2 基本上 PP1 必须将从 Arduino
如何动态创建一个asp按钮并向其添加事件

我正在尝试在 asp net 上动态创建一个按钮但无法向其中添加事件下面有什么问题或缺失吗提前致谢 Button btn2 new Button btn2 ID btnEdit btn2 Text Edit Member btn2 C
集群环境中的 ASP.Net Core 数据保护 API

我很难理解数据保护 API 我想在集群环境服务结构中设置一些网络核心 Web 应用程序以前您要做的只是确保每台计算机的 web config 中具有相同的密钥简单的使用新的数据保护 API 似乎有点 lottle 更多地参与从文
保存凭据以供 powershell 重用并出现错误 ConvertTo-SecureString：密钥在指定状态下使用无效

我正在做类似这篇文章中描述的事情将凭据保存在安全文件中以便我们的自动化进程可以使用它通过 Invoke 命令运行远程 PS 脚本 http blogs technet com b robcost archive 2008 05 01 p
如何在 MATLAB 中获取 voronoi 图的边及其关联位置？

I created a voronoi diagram Now what I want to do is to store every edge and its two associated sites For example I got
c++0x 模板中继承的构造函数

这是 foo 类 template
如何在 JavaScript 中从 URL 中提取 TLD

我想从 URL 中提取 TLD 但它却给了我整个 URL 例如https www google com uk gt com uk document on click a function var href this attr href al
使用 RequireJS 时出现 Mustache 的 AMD 模块加载错误

我正在遵循这里的教程 http backbonetutorials com organizing backbone using modules 我想做的就是在 Backbone 视图中使用 Mustache 而不是 underscore j
无法将类型“double”隐式转换为“int”。 -错误

以下是尝试编写 C 代码来求圆的面积 using System namespace DataTypeApplication class Program static void Main string args double area con
执行命令时如何避免在 Bash 脚本的控制台中打印错误？

如何避免在 Bash 中打印错误我想做这样的事情如果用户输入错误的参数例如它只会退出程序而不是在终端上显示错误我没有在这里发布完整的代码这有点长 if n 1 then sleep time 1 it doesn t work
Chrome webRequest 仅监听用户输入的网址

我正在制作一个 Chrome 扩展程序只允许用户访问给定白名单上的网站 chrome webRequest onBeforeRequest非常适合拦截和检查 URL 但我遇到的问题是它会检查所有传入的 URL 包括网页尝试加载资源时的情况
Google-services.json ：“api_key”部分中包含哪些内容来启用 Firebase 推送通知？

我想为我的 Android 应用程序启用 Firebase Cloud Messaging 推送通知在推送通知所需的 google services json 文件中有一个名为 api key 的字段现在我有 api key curr
查找二叉树中特定级别的所有节点（采访查询）

我的意思是在特定水平上而不是达到该特定水平有人可以检查一下我修改后的 BFS 算法吗大部分内容摘自维基百科 Queue levelorder root levelRequested int currentLevel 0 q empty
Android GCM 发送和 MismatchSenderId

奇怪的是通知之前是有效的所以我不确定发生了什么我尝试将应用程序重新安装到设备上但没有任何变化 multicast id xxxxxxxxxxxxxxxxxxx success 0 failure 1 canonical ids 0 r
Perf 显示没有内存访问的块中的 L1-dcache-load-misses

下面是一个代码块 perf record 标记为导致所有 L1 dcache 未命中的 10 但该块完全是 zmm 寄存器之间的移动这是 perf 命令字符串 perf record e L1 dcache load misses c 1

Perf 显示没有内存访问的块中的 L1-dcache-load-misses

Perf 显示没有内存访问的块中的 L1-dcache-load-misses 的相关文章

随机推荐

热门标签