使用 perf 查找线程瓶颈并优化挂机时间

2024-05-04

对 cpu 周期进行采样perf record如果核心利用率大致恒定，则对于寻找优化候选非常有用。但对于具有并行性不同的多个阶段的代码，计算 cpu 周期将重点强调并行阶段，而低估影响挂机时间的顺序或有限并行阶段。简而言之，天真的 perf 使用可能会突出显示错误的肢体阿姆达尔定律 https://en.wikipedia.org/wiki/Amdahl%27s_law

所以问题是如何得到perf record/perf report找到减少挂机时间的优化候选者，挂机时间可以是从一致并行代码中最热的循环、中等并行瓶颈到长单线程阶段的任何内容。

已知的解决方法还有待改进：

在单个核心上执行工作负载，以便实际运行时间≅ cpu 周期
分别分析各个组件

^{meta: this is a perf-specific followup to a more general question https://stackoverflow.com/questions/45251182/thread-utilization-profiling-on-linux}

KDAB 热点 https://github.com/KDAB/hotspot是一个可以分析的GUIperf record输出，如果配置文件已记录，还显示上下文切换和核心利用率-e sched:sched_switch --switch-events --sample-cpu

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 perf 查找线程瓶颈并优化挂机时间的相关文章

报告线程进度的最佳方式

我有一个程序它使用线程顺序执行耗时的进程我希望能够监视每个线程的进度类似于BackgroundWorker ReportProgress ProgressChanged模型确实如此我不能使用ThreadPool or Backgro
是否有 java.lang.String 的内存高效替代品？

看完之后这篇旧文章 http www javaworld com javaworld javatips jw javatip130 html page 2测量几种对象类型的内存消耗我惊讶地发现有多少内存String在Java中的使用 le
按进程名称过滤并记录 CPU 使用情况

Linux 下有选项吗顶部命令 https www man7 org linux man pages man1 top 1 html我可以在哪里按名称过滤进程并将每秒该进程的 CPU 使用情况写入日志文件 top pgrep 过滤输出top
在 .NET 并发线程之间传递数据的最佳方式是什么？

我有两个线程一个需要轮询一堆单独的静态资源以查找更新另一种需要获取数据并将其存储在数据库中线程1如何告诉线程2有东西要处理如果数据块是独立的则将数据块视为要由线程池处理的工作项使用线程池和QueueUserWorkItem将数据
使用 RxJava 限制吞吐量

我现在遇到的情况很难解释所以我会写一个更简单的版本来解释这个问题我有一个Observable from 它发出一系列由ArrayList文件数量所有这些文件都应上传到服务器为此我有一个函数可以完成这项工作并返回一个Observab
在两次之间每分钟执行一次 Cronjob

我需要在 crontab 中每分钟运行一个 bash 脚本8 45am and 9 50am每天的 Code 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 8 home pull sh gt ho
jQuery 选择器：为什么 $("#id").find("p") 比 $("#id p") 更快

该页面的作者 http 24ways org 2011 your jquery now with less suck http 24ways org 2011 your jquery now with less suck断言 jQuery
子目录中的头文件（例如 gtk/gtk.h 与 gtk-2.0/gtk/gtk.h）

我正在尝试使用 GTK 构建一个 hello world 其中包括以下行 include
确定我可以向文件句柄写入多少内容；将数据从一个 FH 复制到另一个 FH

如何确定是否可以将给定数量的字节写入文件句柄实际上是套接字或者如何取消读取我从其他文件句柄读取的数据我想要类似的东西 n how much can I write w handle n read r handle buf n a
要做或不做：将图像存储在数据库中[重复]

这个问题在这里已经有答案了在 Web 应用程序的上下文中我的前老板总是说在数据库中放置对图像的引用而不是图像本身我倾向于同意在数据库中存储 url 与图像本身是一个好主意但在我现在工作的地方我们在数据库中存储大量图像我能想到的
如何在c linux中收听特定接口上的广播？

我目前可以通过执行以下操作来收听我编写的简单广播服务器仅广播 hello int fd socket PF INET SOCK DGRAM 0 struct sockaddr in addr memset addr 0 sizeof ad
Fortran gfortran linux 中的“分段错误（核心转储）”错误

我正在创建一个程序该程序将分析目录中的文件 fits 然后它将在另一个目录中创建另一个文件 txt 它只是一个转换器当我尝试执行该程序编译正常时它给了我一条错误消息程序收到信号 SIGSEGV 分段错误无效的内存引用此错误的
NUMA 在虚拟内存中是如何表示的？

有许多资源 https en wikipedia org wiki Non uniform memory access从硬件角度描述NUMA的架构性能影响 http practical tech com infrastructure num
性能：cakephp-mysql 中的 UUID 与自动递增

我正在搜索 cakePHP 生成的 UUID 32 个字符长是否比自动增量在性能上更快插入和选择操作的比较我应该使用 cakePHP 生成的 UUID 还是使用 MySQL 的简单自动增量生成的 UUID 这是我发现的一个案例研究但
Windows CE 与嵌入式 Linux [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案现在我确信我们都清楚 Linux 与 Windows 桌面的相对优点然而我对嵌入式开发世界的了解却少得多我主要对行业解决方案感兴
SSL 速度：128 位与 256 位

我决定使用 SSL 加密我的整个网站即使实际上只有部分网站是必要的最终结果是该网站现在有点慢所以我的问题是我是否应该只加密网站的会员部分请记住我在首页上有登录表单我是否应该将加密降低到 128 位如果站点总体较小速度差异是
计算元组中与模式匹配的元素

我有一个矩阵m我想计算零的数量 m 2 0 2 2 4 4 5 4 0 9 4 8 2 2 0 0 我当前的代码如下 def zeroCount M return item for row in M for item in row coun
System.InvalidCastException：指定的强制转换无效

使用 WatiN 的自动化正在进行中使用几个并发线程来测试应用程序很少有线程失败日志报告堆栈跟踪显示以下内容 System InvalidCastException Specified cast is not valid at SH
git 错误：无法处理 https

当我尝试使用 git clone 时https xxx https xxx我收到以下错误我不处理协议 https 有人可以帮我吗完整消息 dementrock dementrock A8Se git 克隆https git innosta
在生产者-消费者情况下使用条件变量

我正在尝试了解条件变量以及如何在生产者消费者情况下使用它我有一个队列其中一个线程将数字推入队列而另一个线程从队列中弹出数字当生产线程放置一些数据时我想使用条件变量向消费线程发出信号问题是有时或大多数时候它只将最多两个项目推

随机推荐

如何在 Vim 中从命令行模式复制文本？

比如说我刚刚在 Vim 中运行了这个命令 nmap
mingw32-make 的目录更改错误

我正在MinGW32下构建POCO库1 6 0 环境 Windows 7 Ultimate 32位 shell MSYS 执行成功配置 configure Configured for MinGW config make的内容 POCO
使用 SFML 绘制文本时出现段错误

我做了一个Button应该绘制一些顶点和字符串的类RenderWindow 这是删除了不相关部分的代码 here http pastebin com 4a5RuS2y是完整的代码 namespace game class Button pu
如何从 Selectize 中删除项目？

有什么方法可以从 Selectize 中删除项目吗这是我的示例列表 AMNT QTY NA 当我经过时NA它应该删除特定项目 fn removeSelectorValue function value var selectize this
我如何在 Laravel 5.5 的 FormRequest 类中返回自定义响应？

我正在制作一个 API 我想返回错误数组其格式如下 validator gt errors 当我通过手动方式验证请求时生成但我无法操纵响应我想找到正确的制作方法这可以在 Laravel 5 4 中通过formatErrors方法并包
了解 ctags 文件格式

我使用 Exhuberant ctags 来索引我的 c 项目中的所有标签 c project 是 Cortex M7 微控制器的嵌入式软件结果是一个标签文件我正在尝试阅读该文件并理解所写的内容根据我找到的 ctags 和 Exhub
如何在 Ruby on Rails 中读取远程文件的内容？

这是我的文件 http example com test txt http example com test txt 我必须阅读以下内容http example com test txt http example com test txt
将输出从符号数学 (sym) 转换为浮点型

我的问题类似于这个问题 https stackoverflow com questions 11114101 how to convert mupad symbol i sqrt 1 to i in matlab 11114959 1111
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
pyspark.pandas 与 pandas 有什么区别？

开始在 Databricks 上使用 PySpark 我发现我可以导入pyspark pandas旁边pandas 有什么不同我认为这不像koalas right PySpark 是 Python 中 Apache Spark 的接口它
java.lang.NoSuchMethodError：没有虚拟方法 zzait()Ljava/util/ArrayList；在 Lcom/ 类中错误？

您好我正在 Udacity 课程中学习使用 Firebase 当我运行我的应用程序时我收到此错误并且对此一无所知 11 23 16 48 34 995 3947 3947 com google firebase udacity Frie
有适用于 Mac 的 Azure 存储查看器吗？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我希望能够从我的 MacBook 查看我的 Azure 表存储帐户表数据等我还没有看到任何应用程序
无法跳过某项活动

我的 Android 应用程序有一个登录屏幕用户登录到他的仪表板但我不希望用户每次关闭应用程序并启动它时都登录除非他们从仪表板注销因此我创建了一个类来检查用户是否登录检查登录 java public class CheckLog
SQLite 列错误：表 XXX 没有名为 YYY 的列

我查看了以下内容但没有发现任何与我的问题相符的内容据我所知 android database sqlite SQLiteException 表 X 没有名为 Y 的列编译时 INSERT INTO https stackoverflo
Hibernate EnumType 实例化异常

我正在使用 hibernate 4 和基于 xml 的映射这是我遇到的异常 Caused by org hibernate MappingException Unable to instantiate custom type org hi
使用 numpy 数组时出现内存错误 Python

我原来的list 函数有超过 200 万行代码当我运行计算的代码时出现内存错误有什么办法可以绕过它吗这list 下面是实际 numpy 数组的一部分熊猫数据 import pandas as pd import math impo
Visual Studio 似乎随机采用美式键盘布局

嘎今天这确实给我带来了麻烦突然在没有警告的情况下 at 符号和双引号在我的键盘上交换了位置但仅限于 Visual Studio 2008 我似乎无法在帮助或在线中找到任何内容来解释解决这个问题我无意中执行了一些键盘快捷键吗
将背景图像保留在底部

我一直在研究将图像保留在底部页面的解决方案我目前得到的代码是 footer background image url images footer png background repeat repeat x position absolu
如何吞咽……有具体原因的异常

在这个方法中 public static void Detach try using var master new DataContext Data Source LocalDB MSSQLLocalDB Initial Catalog m
使用 perf 查找线程瓶颈并优化挂机时间

对 cpu 周期进行采样perf record如果核心利用率大致恒定则对于寻找优化候选非常有用但对于具有并行性不同的多个阶段的代码计算 cpu 周期将重点强调并行阶段而低估影响挂机时间的顺序或有限并行阶段简而言之天真的 perf

使用 perf 查找线程瓶颈并优化挂机时间

使用 perf 查找线程瓶颈并优化挂机时间 的相关文章

随机推荐

热门标签

使用 perf 查找线程瓶颈并优化挂机时间的相关文章