基准测试 - 如何计算发送到 CPU 的指令数以查找消耗的 MIPS

2024-01-07

假设我有一个软件并想使用黑盒子 https://en.wikipedia.org/wiki/Black-box_testing方法。我有一个 3.0GHz CPU，有 2 个插槽和 4 个核心。如您所知，为了找出每秒指令数 (IPS)，我们必须使用以下公式：

IPS = sockets*(cores/sockets)*clock*(instructions/cycle)

首先，我想找到我的特定算法每个周期的指令数。然后我意识到使用块盒方法几乎不可能计算它，我需要对算法进行深入分析。

但现在，我有两个问题：无论我的机器上运行什么类型的软件及其CPU使用情况，有没有办法计算每秒发送到CPU的指令数（每秒百万条指令（MIPS））？是否可以找到指令集的类型（添加、比较、输入、跳转等）？

任何脚本或工具推荐都将受到赞赏（任何语言）。

perf stat --all-user ./my_programLinux上的CPU会使用CPU性能计数器来记录它运行了多少个用户空间指令，以及它花费了多少个核心时钟周期。它使用了多少 CPU 时间，并将为您计算每个核心时钟周期的平均指令，例如

3,496,129,612      instructions:u            #    2.61  insn per cycle

它为你计算IPC；这通常比每个说明更有趣second. uops不过，就您距离最大化前端的程度而言，每个时钟通常更有趣。您可以手动计算 MIPSinstructions and task-clock.对于大多数其他事件，perf 以每秒的速率打印一条评论。

（如果你不使用--all-user，您可以使用perf stat -e task-clock:u,instructions:u，...让这些特定事件仅在用户空间中计数，而其他事件可以始终计数，包括内部中断处理程序和系统调用。）

But see 如何使用 perf stat 计算 MIPS https://stackoverflow.com/questions/53363242/how-to-calculate-mips-using-perf-stat欲了解更多详细信息instructions / task-clock vs. instructions / elapsed_time如果您确实想要跨核心的总或平均 MIPS，以及是否计算睡眠。

有关在静态可执行文件中的小型微基准循环上使用它的示例输出，请参阅x86的MOV真的可以“免费”吗？为什么我根本无法重现这个？ https://stackoverflow.com/questions/44169342/can-x86s-mov-really-be-free-why-cant-i-reproduce-this-at-all

如何在运行时获取实时信息

您的意思是从程序内部仅分析其中的一部分吗？有一个 perf API 你可以做perf_event_open或者其他的东西。或者使用不同的库直接访问硬件性能计数器。

perf stat非常适合对已隔离到仅运行热循环一秒钟左右的独立程序中的循环进行微基准测试。

或者也许你的意思是别的。perf stat -I 1000 ... ./a.out将每 1000 毫秒（1 秒）打印一次计数器值，以查看程序行为如何实时变化无论您想要什么时间窗口（低至 10 毫秒间隔）。

sudo perf top是系统范围的，有点像 Unixtop

还有perf record --timestamp记录每个事件样本的时间戳。perf report -D可能与此一起有用。看http://www.brendangregg.com/perf.html http://www.brendangregg.com/perf.html，他提到了一些关于-T (--timestamp）。我还没有真正使用过这个；我主要隔离单个循环，我正在调整为可以在其下运行的静态可执行文件perf stat.

是否有可能找到指令集的类型（添加、比较、输入、跳转等）？

Intel x86 CPU 至少有一个用于分支指令的计数器，但除了 FP 指令之外，其他类型没有区别。这对于大多数具有性能计数器的架构来说可能很常见。

对于 Intel CPU，有ocperf.py https://github.com/andikleen/pmu-tools，一个包装器perf具有更多微建筑事件的象征性名称。（更新：普通perf现在知道大多数 uarch 特定计数器的名称，因此您不需要ocperf.py不再了。）

perf stat -e task_clock,cycles,instructions,fp_arith_inst_retired.128b_packed_single,fp_arith_inst_retired.scalar_double,uops_executed.x87 ./my_program

它并不是为了告诉您正在运行哪些指令，您已经可以通过跟踪执行来判断。大多数指令都是完全流水线化的，因此有趣的是哪些端口的压力最大。除法/平方单位是个例外：有一个计数器arith.divider_active: "除法单元忙于执行除法或平方根运算时的循环。考虑整数和浮点运算“。分配器没有完全流水线化，所以一个新的divps or sqrtps即使没有旧的微指令准备在端口 0 上执行，也无法始终启动。（http://agner.org/optimize/ http://agner.org/optimize/)

有关的：linux perf：如何解释和查找热点 https://stackoverflow.com/questions/7031210/linux-perf-how-to-interpret-and-find-hotspots用于使用perf来识别热点。特别是使用自上而下的分析perf对调用堆栈进行采样以查看哪些函数进行了大量昂贵的子调用。（我提到这一点是为了以防万一你就是这样really我想知道，而不是混合指令。）

Related:

如何确定 C 程序中执行的 x86 机器指令数？ https://stackoverflow.com/questions/54355631/how-do-i-determine-the-number-of-x86-machine-instructions-executed-in-a-c-progra
如何通过获取指令类型细分来表征工作负载？ https://stackoverflow.com/questions/58243626/how-to-characterize-a-workload-by-obtaining-the-instruction-type-breakdown
如何监控 SIMD 指令的使用量 https://stackoverflow.com/questions/60104698/how-do-i-monitor-the-amount-of-simd-instruction-usage

为了获得精确的动态指令计数，如果您使用的是 x86，您可以使用 Intel PIN 等检测工具. https://software.intel.com/en-us/articles/pin-a-dynamic-binary-instrumentation-tool https://software.intel.com/en-us/articles/pin-a-dynamic-binary-instrumentation-tool.

perf stat计为instructions:u硬件甚至也应该或多或少地精确，并且实际上在执行相同工作的同一程序的运行中非常可重复。

在最新的 Intel CPU 上，硬件支持记录条件/间接分支的走向，因此您可以准确地重建哪些指令按顺序运行，假设没有自修改代码并且您仍然可以读取任何 JIT 缓冲区。Intel PT https://software.intel.com/en-us/blogs/2013/09/18/processor-tracing.

抱歉，我不知道 AMD CPU 上的等效项是什么。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基准测试 - 如何计算发送到 CPU 的指令数以查找消耗的 MIPS 的相关文章

MikeOS 引导加载程序中的堆栈段

我不明白这段代码 mov ax 07C0h Set up 4K of stack space above buffer add ax 544 8k buffer 512 paragraphs 32 paragraphs loader cli
java - 简单计算在多线程中比在单线程中花费更长的时间

我试图了解如何利用多线程我写了一个简单的程序来增加i 比方说使用两种方式 400 000 次单线程方式 0 到 400 000 和多线程方式在我的例子中 4 次 0 到 100 000 线程数等于Runtime getRuntime
渲染 ThreeJS 应用程序第一帧时的性能问题

目前当我渲染以下内容时我的 ThreeJS 应用程序的性能受到很大影响第一帧它会导致 Edge 和 IE 11 浏览器冻结 5 秒并弹出窗口指示此窗口没有响应这可能会吓到我的用户使用 Chrome 的性能分析器问题似乎来自几
设置 IRQ 映射

我正在遵循一些教程和参考文献来尝试设置我的内核我在教程中遇到了一些不熟悉的代码但根本没有解释它这是我被告知映射的代码16 IRQs 0 15 到 ISR 地点32 47 void irq remap void outportb 0x2
这个反斜杠在这段汇编代码中起什么作用？

我不确定这些推线有什么区别修剪下来来自 Linux 的 x86 entry calling h https github com torvalds linux blob 241e39004581475b2802cd63c111fec43b
SQL Server 不使用索引将日期时间与非空进行比较

我有一个与其他任何表都不相关的简单表它有一个非 PK 列它是一个日期我已经为该列创建了一个非聚集索引如果我提出这个查询 select from table where datecolumn is not null 但如果我删除 no
如何仅使用单个数组在 JavaScript 中模拟调用堆栈

我正在看维基百科页面 https en wikipedia org wiki Call stack在调用堆栈上并尝试理解这个图像据我所知哈哈 const memory memory 0 3 top of stack pointer m
就 size_t 而言，“目标平台上最大可能对象的大小”是多少

我正在阅读有关的文章size t在 C C 中http web archive org web 20081006073410 http www embedded com columns programmingpointers 2009001
为什么对于小数组，for-of 循环比标准 for 循环快，而对于大数组则慢？

在 JavaScript 中我注意到 ES6for of循环的性能与传统的有很大不同for start stop step loop 基准 const n 10000 const arr Array n fill map e i gt i
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
在所有浏览器中启用我的网站的平滑滚动

我正在开发一个视差滚动网站Stellar http markdalgleish com projects stellar js and Skrollr https github com Prinzhorn skrollr图书馆该网站在 F
降低Python中的浮点精度以提高性能[重复]

这个问题在这里已经有答案了我正在树莓派上使用 python 我使用互补滤波器从陀螺仪中获得更好的值但它消耗了太多树莓派的电量大约为 70 我认为可以通过降低浮点精度来提高性能现在结果大约有 12 位小数这超出了我的需要有什么办
linq2sql，存储库模式 - 如何从两个或多个表查询数据？

我使用存储库模式和 linq2sql 作为数据访问并拥有例如 ProductsRep 和 CustomersRep 在非常简单的场景中数据库有两个表产品产品 ID 客户 ID 产品名称日期和顾客客户 ID 名字姓氏每个存
在 x86 程序集中存储大量布尔值的最佳方法是什么？

最近我一直在处理充满布尔值的大型数组目前我将它们存储在 bss部分有一个 space指令它允许我创建字节数组但是由于我只需要存储布尔值因此我希望从数组中逐位读取和写入数据目前我能想到的最好方法是有一个 space指令所需存储
.pdbs 会减慢发布应用程序的速度吗？

如果 dll 中包含 pdb 程序调试文件则行号将出现在引发的任何异常的堆栈跟踪中这会影响应用程序的性能吗这个问题与发布与调试即优化无关这是关于拥有 pdb 文件的性能影响每次抛出异常时都会读取 pdb 文件吗加载程序集时
是否可以在Linux上将C转换为asm而不链接libc？

测试平台为Linux 32位但也欢迎 Windows 32 位上的某些解决方案这是一个c代码片段 int a 0 printf d n a 如果我使用 gcc 生成汇编代码 gcc S test c 然后我会得到 movl 0 28 e
LC3 LEA指令和存储的值

我对这个问题感到困惑指令后寄存器0中存储的值是多少 LEA R0 A 被处决了吗为什么答案是x370C 我认为应该将A的地址加载到R0中如果是这样我们怎么知道地址有人可以帮忙吗非常感谢 ORIG X3700 LEA R0 A LD
IIS7 上的 ASP.NET 应用程序 - iisreset 后启动速度非常慢

我有一个在 Windows 2008 上的 IIS7 下运行的 ASP NET 3 5 网站当我重新启动 IIS iisreset 然后点击一个页面时初始启动非常慢我在 Process Explorer 中看到以下活动 w3wp ex
使用 APDU 命令的有效 NFC 读取比特率是多少？

我目前正在使用 Android IsoDep trancieve 函数发送和接收累计 1628 字节的数据该函数分布在 35 个 APDU 命令选择应用程序身份验证读取中字节计数包括返回的 MAC 校验和以及由 transcie
在 C 中复制两个相邻字节的最快方法是什么？

好吧让我们从最明显的解决方案开始 memcpy Ptr const char a b 2 调用库函数的开销相当大编译器有时不会优化它我不会依赖编译器优化但即使 GCC 很聪明如果我将程序移植到带有垃圾编译器的更奇特的平台上我也不

随机推荐

ddply 中抛出的错误导致 R 崩溃

我遇到了一个问题当提供的函数抛出错误时 plyr 始终崩溃 gt require plyr Loading required package plyr Warning message package plyr was built unde
为新项目选择“更好”或更熟悉的技术？

我希望开始一个全新的项目作为我的第一个独立可销售项目我已经考虑了一段时间了从广义上讲它是一个基于 Web 的服务应用程序而我的第一选择服务器语言非常简单我过去在 Java Web 应用程序上工作对 Java 非常了解然而
使用 Jquery $.get() 逐行检索文本文件

是否可以逐行检索txt文件内容现在我正在使用这段代码 var file http plapla com pla txt function getFile get file function txt save txt responseTex
geom_wordcloud ：这是一个白日梦吗

我处理一些跨各种分组变量的文本数据我正在考虑创建一种使用 Ian Fellows 制作多面文字云图的方法wordcloud包裹我喜欢这种方式ggplot2方面的社会变量我正在决定如何解决这个问题多面词云图是否可以使用 Fellow
为什么使用隐藏字段？

我经常看到 Web 应用程序中使用了很多隐藏字段我所编写的代码是为了使用大量隐藏字段以及来回发送给它们的可见字段的数据值而编写的虽然我不明白为什么使用隐藏字段我几乎总能想出在不使用隐藏字段的情况下解决相同问题的方法隐藏字段如何帮助设
Java 进程挂在 IOUtils 上。疑似死锁

我有一个 java 进程挂在调用中IOUtils toString使用以下代码 String html try html IOUtils toString someUrl openStream utf 8 process hangs on
Vue.js 动态类名？

我需要根据评论等级进行颜色降级我希望在 Vue js 中完成一些事情如下所示 div class review 在我的方法中我有这样的东西 reviewColor return green 不幸的是这并没有为我提供 green 班级
将解决方案中的所有项目重新定位到 .NET 4.5.2

我在 Visual Studio 2012 中有一个解决方案其中包含 170 个 C 项目我需要将所有项目从 NET Framework 4 0 重新定位到 4 5 2 我更喜欢让 Visual Studio 通过进入每个项目的属性更
将 JSON 日期转换为 MM/DD/YYYY 格式？

我的客户收到一个包含多列的电子表格其中一列是日期只有日期被格式化为Date 1292291582263 0700 看起来是一个 JSON 日期我需要在此电子表格代码 VBA 的其他位置转换并使用 MM DD YYYY 格式的 JSO
Bootstrap 3 - 带侧边栏的 Scrollspy

我正在使用 Bootstrap 3 我想重新创建与侧边栏相同的功能Bootstrap 站点上的文档 http getbootstrap com javascript 下面是我的代码它也在这里 http bootply com 82119
使用带有信任证书的 ClickOnce 进行 WPF 应用程序部署

我已使用测试证书将 WPF 应用程序部署到生产环境现在我必须更改测试证书并购买新证书我浏览了 MSDN 网站但无法得出结论该怎么办所以我需要澄清以下内容在哪里购买这些证书文件以及它是什么类型的证书我们必须在客户端系统上安装这
MSBuild 无法使用临时密钥签署 ClickOnce 清单（错误 MSB3326 和 MSB3321）

我正在尝试构建 ClickOnceWindows 窗体 http en wikipedia org wiki Windows FormsWindows Server 计算机上的项目 NET 3 5 Visual Studio 2010 为了
create_proc_entry() 的替代方法是什么

As create proc entry函数已被弃用它的替代品是什么我试图使用创建一个简单的过程条目create proc entry但得到了这个错误错误函数 create proc entry 的隐式声明我摸索着create p
如何创建支持空值的结构？

我是 C 新手在 C 中我无法将结构的值设置为 null 如何创建支持 null 值的结构通过使用 Generic Nullable 类来包装结构和值类型可以使其可为空例如 Nullable
如何将字符串转换为字母数字并将空格转换为破折号？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我想获取一个字符串去掉所有非字母数字字符并将所有空格转换为破折号每当我想将标题或其他字符串转换为 URL slug
Javascript - 带蓝牙键盘的 iPad Tab 键检测

我有一个文本字段用户可以在其中输入数据他们可以使用 Tab 键然后字段会缩进除了带有蓝牙键盘的 ios 之外这对所有设备都适用如果我访问http www rapidtables com tools notepad htm htt
nmake：构建 OpenSSL 时未找到命令

我正在尝试使用 git bash 上的此说明来遵循 Windows 上 OpenSSL 的安装说明在 Windows 上仅选择一个目标进行配置 perl Configure VC WIN32 VC WIN64A VC WIN64I VC
怎样才能让Jasmine等待一个promise被解决或者被拒绝呢？

我有一个特定的函数我正在尝试使用 Angular 来测试它该函数返回一个承诺尽管在我的测试中我对 Promise 结果设定了期望但 Jasmine 不会等待 Promise 得到解决或拒绝警告错误规格 test 没有任何期望
如何让JavaFX Chart NumberAxis只显示Integer值，而不是double值

我正在尝试创建一个图表其轴旨在显示员工人数因此它必须仅显示整数但我发现这并不像我已经尝试过的那么容易yAxis setTickUnit 1 但当值很小时它就不起作用等等最大值是3 它仍然会显示0 5 1 5 我只想要刻度值如1
基准测试 - 如何计算发送到 CPU 的指令数以查找消耗的 MIPS

假设我有一个软件并想使用黑盒子 https en wikipedia org wiki Black box testing方法我有一个 3 0GHz CPU 有 2 个插槽和 4 个核心如您所知为了找出每秒指令数 IPS 我们必须使用

基准测试 - 如何计算发送到 CPU 的指令数以查找消耗的 MIPS

基准测试 - 如何计算发送到 CPU 的指令数以查找消耗的 MIPS 的相关文章

随机推荐

热门标签