Linux perf 中的运行时间和报告的周期计数

2024-03-11

我在 4 核 Intel CPU（每个核心 1 个线程）上运行了单线程矩阵乘法，但 perf 中的数字没有意义。

 Performance counter stats for 'system wide':

    31,728,397,287      cpu-cycles                #    0.462 GHz                    
   131,661,730,104      ref-cycles                # 1916.425 M/sec                  
         68,701.58 msec cpu-clock                 #    4.000 CPUs utilized          
         68,701.90 msec task-clock                #    4.000 CPUs utilized          
    31,728,553,882      cpu/cpu-cycles/           #  461.830 M/sec                  

      17.176244725 seconds time elapsed

我已将 cpu 频率设置为最低并观察，所有核心都以 800MHz 运行。这意味着 1 个周期为 1.25ns。总 CPU 周期为 31,728,397,287，执行时间应为 39.66 秒，但运行时间为 17.1 秒。

我也不知道为什么 0.462 GHz 写在 cpu-cycles 前面。

有关处理器的更多信息：

Thread(s) per core:              1
Core(s) per socket:              4
Socket(s):                       1
NUMA node(s):                    1
Vendor ID:                       GenuineIntel
CPU family:                      6
Model:                           94
Model name:                      Intel(R) Core(TM) i5-6600 CPU @ 3.30GHz
Stepping:                        3
CPU MHz:                         800.022
CPU max MHz:                     3900,0000
CPU min MHz:                     800,0000

对此有什么想法吗？

UPDATE:

我使用 root 访问权限重新运行实验并指定用户代码。

# perf stat -a -e cycles:u,cycles,cpu-clock  ./mm_double_omp 1
Using 1 threads
Total execution Time in seconds: 15.4839418610
MM execution Time in seconds: 15.3758427450

 Performance counter stats for 'system wide':

    14,237,521,876      cycles:u                  #    0.230 GHz                    
    17,470,220,108      cycles                    #    0.282 GHz                    
         61,974.41 msec cpu-clock                 #    4.000 CPUs utilized          

      15.494002570 seconds time elapsed

正如你所看到的，频率仍然不是800MHz。但是，如果我不指定-a结果是有意义的，因为 Cycles:u * (1/800MHz) 几乎与经过的时间相同。

# perf stat -e cycles:u,cycles,cpu-clock  ./mm_double_omp 1
Using 1 threads
Total execution Time in seconds: 16.5347361100
MM execution Time in seconds: 16.4267430900
 Performance counter stats for './mm_double_omp 1':

    13.135.516.694      cycles:u                  #    0,794 GHz                    
    13.201.778.987      cycles                    #    0,798 GHz                    
         16.541,22 msec cpu-clock                 #    1,000 CPUs utilized          

      16,544487905 seconds time elapsed

      16,522146000 seconds user
       0,019997000 seconds sys

我已经运行了单线程矩阵乘法

但后来你数了一下全系统运行时跨所有 4 个核心。就是这样perf -a是的，以及为什么你得到了Performance counter stats for 'system wide':在你的输出中。

所以内核的task-clock只要进程处于活动状态，“事件”就会计算所有 4 个核心的时间：

68,701.90 毫秒任务时钟#使用 4.000 个 CPU

那是 68.7 CPU 秒，几乎正好是 4x 17.17 秒，这是有道理的。

我也不知道为什么 0.462 GHz 写在 cpu-cycles 前面。

这是代码处于活动状态期间所有 4 个核心的平均周期/时间。对于处于睡眠状态的 CPU，时钟不会滴答作响，因此平均负载似乎是4 * 462/800 = 2.31当您的代码保持 1 个核心忙碌时，CPU 未处于睡眠状态。

因此，您在系统平均运行另外 1.3 个线程时进行基准测试。（包括中断唤醒的CPU时间）

我假设您的测量不仅限于用户空间（不包括在内核模式下花费的滴答声）；这是另一种可能的影响。

如果你没有使用过-a，如果仅计算用户空间周期，而不计算内核中花费的周期，仍然可能会出现低于硬件运行频率的情况。（例如。perf stat --all-user，或者与你的kernel.perf_event_paranoid设置得足够高，以免您分析有效应用的内核中的硬件事件:u到硬件事件，但不将它们打印为cycles:u.)

如果你改变你的kernel.perf_event_paranoidsysctl 设置为 0，或运行perf作为 root，您应该看到 800 MHz 作为周期/任务时钟，因为这是线程运行时 CPU 运行的速度。

在用户空间之外花费大量周期表明您的代码在内核中花费了大量时间，如果您使用大数组，则可能会处理页面错误。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux perf 中的运行时间和报告的周期计数的相关文章

setInterval() 如何影响性能？

我们正在使用 Twitter Bootstrap 作为框架构建一个 Web 应用程序但在显示隐藏工具提示时遇到问题除了尝试找到实际问题的解决方案之外我还有一个关于我们同时使用的解决方法的问题从性能角度来看使用 setInterv
为单个方法引用大 DLL

我想在 C 中使用大型类库 dll 中的单个方法是否有性能或其他方面的缺点我应该使用反射工具读取方法代码并将其复制粘贴到我的项目中吗更新硬盘空间不是问题我的应用程序是网络应用程序是否有性能或其他方面的缺点唯一真正重要的是可
C# 中单个 & 符号的第二个含义是什么？

我在 C 中使用了单个与号来表示检查second条件语句即使第一个是false 但以下似乎是不同的意思 of 总而言之谁能解释一下如何i 1在下面的例子中有效吗 List
SQL Server 不使用索引将日期时间与非空进行比较

我有一个与其他任何表都不相关的简单表它有一个非 PK 列它是一个日期我已经为该列创建了一个非聚集索引如果我提出这个查询 select from table where datecolumn is not null 但如果我删除 no
node-mongodb-native的插入性能

我正在使用 MongoDB 测试 Node js 的性能我知道其中每一个都很好彼此独立但我正在尝试一些测试来感受它们我遇到了这个问题但无法确定来源问题我正在尝试在单个 Node js 程序中插入 1 000 000 条记录它
循环内的局部变量会被垃圾收集吗？

我想知道将循环内引用的任何变量放在循环外是否更有效或者它们可以像函数内的变量一样被垃圾收集吗 var obj key val for var i 0 i lt 10 i console log obj or for var i 0 i l
在所有浏览器中启用我的网站的平滑滚动

我正在开发一个视差滚动网站Stellar http markdalgleish com projects stellar js and Skrollr https github com Prinzhorn skrollr图书馆该网站在 F
JavaFX 中 WebView 的性能

我有一个 HTML5 UI 和一个 Java 后端并且希望避免在纯 java 中重建 HTML ui 所以我的想法是运行本地 Web 服务器并使用 WebView 在本机窗口中呈现它解决方案似乎是使用可以嵌入到 swing 中的 J
当我使用可变参数而不是常量参数时，为什么我的内联表 UDF 慢得多？

我有一个表值内联 UDF 我想过滤该 UDF 的结果以获得一个特定值当我使用常量参数指定过滤器时一切都很好并且性能几乎是瞬时的当我使用可变参数指定过滤器时它会花费明显更大的时间块大约是逻辑读取的 500 倍和持续时间的 20 倍
即使在急切加载之后，belongs_to 关联也会单独加载

我有以下关联 class Picture lt ActiveRecord Base belongs to user end class User lt ActiveRecord Base has many pictures end 在我的
在 x86 汇编中将 64 位常量移至内存

我正在使用 Intel x64 程序集 NASM 编译器尝试将 0x4000000000000000 常量移至内存该常量在 ieee 754 标准双精度中应等于 2 0 我正在使用的代码是 define two 0x4000000000
错误 LNK2019：函数 main 中引用的外部符号无法解析

我正在尝试在 C 中运行我的简单汇编代码我只有两个文件 cpp 文件和 asm 文件编译时出现错误见下文如果有人可以提供帮助我将不胜感激这是我的 main cpp 文件 include
使用 APDU 命令的有效 NFC 读取比特率是多少？

我目前正在使用 Android IsoDep trancieve 函数发送和接收累计 1628 字节的数据该函数分布在 35 个 APDU 命令选择应用程序身份验证读取中字节计数包括返回的 MAC 校验和以及由 transcie
在 C 中复制两个相邻字节的最快方法是什么？

好吧让我们从最明显的解决方案开始 memcpy Ptr const char a b 2 调用库函数的开销相当大编译器有时不会优化它我不会依赖编译器优化但即使 GCC 很聪明如果我将程序移植到带有垃圾编译器的更奇特的平台上我也不
文件修改时间检查的成本

对于Linux下包含少量字节的文件我只需要处理自上次处理以来发生更改的时间我通过调用 PHP 检查文件是否被更改clearstatcache filemtime 定期由于整个文件总是很小因此删除对 filemtime 的调用并通过将
使用 FileInputStream 时如何确定理想的缓冲区大小？

我有一个从文件创建 MessageDigest 哈希的方法我需要对很多文件 gt 100 000 执行此操作用于读取文件的缓冲区应该设置多大才能最大限度地提高性能大多数人都熟悉基本代码为了以防万一我将在这里重复一遍 Messag
为 PostgreSQL 查询选择正确的索引

简化表 CREATE TABLE products product no integer PRIMARY KEY sales integer status varchar 16 category varchar 16 CREATE INDE
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
linux perf：如何解释和查找热点

我尝试了linux perf https perf wiki kernel org index php Main Page今天很实用但在解释其结果时遇到了困难我习惯了 valgrind 的 callgrind 这当然是与基于采样的 pe
为什么在展开的 ADD 循环内重新初始化寄存器会使其运行速度更快，即使循环内有更多指令？

我有以下代码 include

随机推荐

根据外键选择填充 django-admin 中的值

我有一个带有外键引用的模型看起来像这样 class Plan models Model template models ForeignKey PlanTemplate throttle models IntegerField defaul
设置 Java 应用程序的全局字体

我需要为我的应用程序设置默认字体有没有一种不依赖 LaF 的方法可以做到这一点弄清楚了致电 setUIFont new javax swing plaf FontUIResource new Font MS Mincho Font P
CloudFoundry 时区

我开发了一个非常以 JodaTime 日期时间为中心的应用程序日历等在我的本地计算机上一切正常我已在 cloudfoundry 部署了我的应用程序但日历中没有可见的日期我猜这和cloudfoundry的时区有关我已将本地运行的应
在谷歌应用程序脚本中以 HTML 形式获取谷歌文档[重复]

这个问题在这里已经有答案了如何在谷歌应用程序脚本中获取 HTML 形式的谷歌文档例如我可以像这样获取文档正文 DocumentApp getActiveDocument getBody 但是当我登录时什么也没有 function do
如何从 iOS SDK 中的 Facebook 对象获取 Facebook 用户 ID？

我看到 Facebook 对象中提供了访问令牌但我没有看到 Facebook 用户 ID 我可以向我发出图形请求以获取 Facebook Id 但我不想进行额外的 api 调用现在有一种简单的方法可以做到这一点假设你已经有一个FB
将图像转换为 pdf php

我在用csxi http www chestysoft com ximage twainupload asp将文档扫描为图像但我必须将 pdf 文件上传到服务器如何在 php 中将图像转换为 PDF 或者有什么方法可以让 csxi 将文
用于应用程序本地部署的 MSVC 2015 通用 CRT

据宣布通用 CRT 将是一个可重新分发的 DLL 这样应用程序本地部署仍然是可能的我已经安装了 Visual Studio 2015 Express Edition 并且在 SDK 目录中查找 ucrtbase dll 但找不到任何内容
如何添加第三方 Java JAR 文件以在 PySpark 中使用

我有一些 Java 第三方数据库客户端库我想通过访问它们 java gateway py 例如要使客户端类不是 JDBC 驱动程序通过 Java 网关可供 Python 客户端使用 java import gateway jvm o
将压缩半字节组合成压缩字节

给定一个或多个 m128i or m256i每个 16 位元素包含一个半字节将它们组合并打包为每个 8 位元素一个字节的最快方法是什么即 hi lt lt 4 lo对于相邻的 16 位元素这是我想出的最好方法不幸的是它与标量代码相当
如果内容太宽，请在 HTML 标记中插入省略号 (...)

我有一个具有弹性布局的网页如果调整浏览器窗口的大小该网页会更改其宽度在这个布局中有标题 h2 其长度可变实际上是我无法控制的博客文章的标题目前如果它们比窗口宽它们会分成两行是否有一个优雅的经过测试的跨浏览器解决方案例
如何在IOS的UIView中仅使文本/标题覆盖的部分透明

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在尝试创建一个UIView with text the text可能会不断变化在其之上我只想要text其中的一部分UIView透明
模拟对象上的异步回调不等待

我试图模拟单元测试的复杂情况 mockController new Mock
无法连接到 (LocalDB)\MSSQLLocalDB -> 用户“User-PC\User”登录失败

当我尝试通过 SQL Server Management Studio 连接 LocalDB MSSQLLocalDB 时出现错误我还尝试使用默认数据库作为 master 登录错误是相同的 Here is the Server det
JavaScript 中的嵌套层数是否有限制？

假设您有一个非常复杂的算法需要数十个 for 循环 JavaScript 对循环的嵌套深度有限制还是没有限制深层嵌套 for 循环的最佳实践是什么我尝试在 MDN 上搜索但找不到我要找的内容 Edit 我正在寻找是否有内置限制例如
Java - 接口扩展自身

我已经使用这个网站大约 6 个月了是时候问我的第一个问题了因为我找不到这个问题的答案至少不是我能理解的答案在这段代码中为什么这个接口要扩展自身 public interface PositionedVertex
DecorView子框架布局

有人可以向我解释一下为什么我的布局上的 DecorView 的子级是 FrameLayout 而我还没有定义它这是xml布局
观察者模式是否违反了单一责任原则？

如果使用观察者设计模式的应用程序具有subject具有以下职责的类 1 管理和通知观察者即提供注册和注销函数并调用所有观察者通知函数和 2 它最初的责任即班级在成为班级之前正在做什么subject 这个类是否违反了单一职责原则它显然
jsPDF 不完整或损坏的 PNG 文件

使用 jsPDF 添加常规 png 图像没有问题但现在我从服务器发送生成的图像并且浏览器控制台在渲染 PDF 文件时显示此错误 PNG 文件不完整或损坏显然图像不是不完整或损坏的因为我可以看到服务器的响应并且图像很好另外为了避免
函数参数列表中的三个点是什么意思？

我遇到了这样的函数定义 char abc char f 三个点是什么意思这些类型的函数称为可变参数函数维基百科链接 https en wikipedia org wiki Variadic function 他们使用省略号即三个点来
Linux perf 中的运行时间和报告的周期计数

我在 4 核 Intel CPU 每个核心 1 个线程上运行了单线程矩阵乘法但 perf 中的数字没有意义 Performance counter stats for system wide 31 728 397 287 cpu cyc

Linux perf 中的运行时间和报告的周期计数

Linux perf 中的运行时间和报告的周期计数 的相关文章

随机推荐

热门标签

Linux perf 中的运行时间和报告的周期计数的相关文章