使用 __gnu_mcount_nc 捕获函数退出时间

2024-02-09

我正在尝试在支持不佳的原型嵌入式平台上进行一些性能分析。

我注意到 GCC 的 -pg 标志导致 thunks__gnu_mcount_nc在每个函数的入口处插入。没有实施__gnu_mcount_nc是可用的（并且供应商没有兴趣提供帮助），但是由于编写一个简单地记录堆栈帧和当前周期计数的代码很简单，所以我已经这样做了；这工作得很好，并且在调用者/被调用者图和最常调用的函数方面产生了有用的结果。

我真的很想获得有关函数体中花费的时间的信息，但是我很难理解如何仅通过入口而不是出口来处理每个函数被钩住的问题：您可以准确地告诉每个函数何时输入，但如果不挂钩退出点，您将无法知道在多少时间内收到下一条信息以归因于被调用者，以及有多少时间归因于调用者。

尽管如此，GNU 分析工具实际上显然能够收集许多平台上函数的运行时信息，因此想必开发人员已经想到了一些实现这一目标的方案。

我见过一些现有的实现，它们执行诸如维护影子调用堆栈并调整 __gnu_mcount_nc 入口处的返回地址等操作，以便当被调用者返回时再次调用 __gnu_mcount_nc ；然后，它可以将调用者/被调用者/sp 三元组与影子调用堆栈的顶部进行匹配，从而将这种情况与进入时的调用区分开来，记录退出时间并正确返回给调用者。

这种方法还有很多不足之处：

看起来在存在递归和没有 -pg 标志编译的库的情况下它可能会很脆弱
似乎很难以低开销实现，或者根本无法在嵌入式多线程/多核环境中实现，因为缺乏工具链 TLS 支持，并且获取当前线程 ID 可能很昂贵/很复杂

是否有一些明显更好的方法来实现 __gnu_mcount_nc ，以便 -pg 构建能够捕获我缺少的函数退出和进入时间？

gprof不使用该功能进行计时、输入orexit，但用于对函数 A 调用任意函数 B 进行调用计数。相反，它使用通过计算每个例程中的 PC 样本而收集的自用时间，然后使用函数到函数的调用计数来估计应向调用者收取多少自用时间。

例如，如果 A 调用 C 10 次，B 调用 C 20 次，并且 C 有 1000ms 的自时间（即 100 个 PC 样本），则gprof知道C被调用了30次，其中33个样本可以记入A，而另外67个样本可以记入B。类似地，样本计数沿着调用层次结构向上传播。

所以你看，它不计时函数的进入和退出。它得到的测量结果非常粗略，因为它不区分短调用和长调用。另外，如果 PC 样本发生在 I/O 期间或未使用 -pg 编译的库例程中，则根本不计算在内。而且，正如您所指出的，在存在递归的情况下它非常脆弱，并且可能会给短函数带来显着的开销。

另一种方法是堆栈采样，而不是 PC 采样。当然，捕获堆栈样本比捕获 PC 样本更昂贵，但需要的样本更少。例如，如果一个函数、一行代码或您想要进行的任何描述在 N 个样本总数中的分数 F 上是明显的，那么您就知道它花费的时间分数是 F，具有标准差的 sqrt(NF(1-F))。因此，举例来说，如果您采集 100 个样本，其中 50 个样本上出现一行代码，那么您可以估计该行代码占 50% 时间的成本，不确定性为 sqrt(100*.5*.5) = +/- 5 个样本或介于 45% 和 55% 之间。如果您采集 100 倍的样本，则可以将不确定性降低 10 倍。（递归并不重要。如果一个函数或一行代码在单个样本中出现 3 次，则算作 1 个样本，而不是 3 个样本。函数调用是否短也没关系——如果它们被调用的次数足够多而花费了很大一部分，它们就会被捕获。）

请注意，当您寻找可以修复的问题以提高速度时，确切的百分比并不重要。重要的是找到它。（其实你只需要看到一个问题twice要知道它足够大，可以修复。）

That's 这项技术 https://stackoverflow.com/a/378024/23771.

附：不要陷入调用图、热路径或热点中。这是一个典型的调用图老鼠巢。黄色是热点路径，红色是热点。

这表明，在这些地方都不存在一个多汁的加速机会是多么容易：

最有价值的东西是十几个随机的原始堆栈样本，并将它们与源代码相关联。（这意味着绕过分析器的后端。）

添加：只是为了说明我的意思，我从上面的调用图中模拟了十个堆栈样本，这就是我发现的

3/10 样品正在调用class_exists，一个用于获取类名，两个用于设置本地配置。class_exists calls autoload哪个调用requireFile，其中两个调用adminpanel。如果可以更直接地做到这一点，可以节省约 30%。
2/10 样品正在调用determineId，这称为fetch_the_id哪个调用getPageAndRootlineWithDomain，这又调用了三个级别，终止于sql_fetch_assoc。获取 ID 看起来很麻烦，而且花费了大约 20% 的时间，而且这还不包括 I/O。

因此，堆栈示例不仅告诉您一个函数或一行代码花费了多少包含时间，还告诉您为什么要这样做，以及完成它可能需要哪些愚蠢的事情。我经常看到这种现象——奔腾的普遍性——用锤子打苍蝇，不是故意的，只是遵循良好的模块化设计。

ADDED: Another thing not to get sucked into is flame graphs. For example, here is a flame graph (rotated right 90 degrees) of the ten simulated stack samples from the call graph above. The routines are all numbered, rather than named, but each routine has its own color. enter image description here
Notice the problem we identified above, with class_exists (routine 219) being on 30% of the samples, is not at all obvious by looking at the flame graph. More samples and different colors would make the graph look more "flame-like", but does not expose routines which take a lot of time by being called many times from different places.

Here's the same data sorted by function rather than by time. That helps a little, but doesn't aggregate similarities called from different places: enter image description here
Once again, the goal is to find the problems that are hiding from you. Anyone can find the easy stuff, but the problems that are hiding are the ones that make all the difference.

ADDED: Another kind of eye-candy is this one:
enter image description here where the black-outlined routines could all be the same, just called from different places. The diagram doesn't aggregate them for you. If a routine has high inclusive percent by being called a large number of times from different places, it will not be exposed.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 __gnu_mcount_nc 捕获函数退出时间的相关文章

具有子列表属性映射问题的自动映射器

我有以下型号 Models public class Dish Required public Int64 ID get set Required public string Name get set Required public str
为什么libc++的shared_ptr实现使用完整内存屏障而不是宽松内存屏障？

在boost的实现中shared ptr 它用放松内存排序以增加其引用计数 https github com boostorg smart ptr blob master include boost smart ptr detail sp
迭代变量并查找特定类型实例的技术

我想迭代进程中内存中的变量通过插件动态加载并查找特定类型的实例以前我可以找到特定类型或内存中的所有类型我可以创建类型的实例我可以获取作为不同类型的字段包含的实例但我无论如何都不知道只是搜索特定类型的实例一种方法是使用 W
我的线程图像生成应用程序如何将其数据传输到 GUI？

Mandelbrot 生成器的缓慢多精度实现线程化使用 POSIX 线程 Gtk 图形用户界面我有点失落了这是我第一次尝试编写线程程序我实际上并没有尝试转换它的单线程版本只是尝试实现基本框架到目前为止它是如何工作的简要描述 M
以编程方式检查页面是否需要基于 web.config 设置进行身份验证

我想知道是否有一种方法可以检查页面是否需要基于 web config 设置进行身份验证基本上如果有这样的节点
为什么大多数 C 开发人员使用 Define 而不是 const？ [复制]

这个问题在这里已经有答案了在许多程序中 define与常量具有相同的用途例如 define FIELD WIDTH 10 const int fieldWidth 10 我通常认为第一种形式优于另一种形式它依赖于预处理器来处理基本上是
如何在 Android NDK 中创建新的 NativeWindow 而无需 Android 操作系统源代码？

我想编译一个 Android OpenGL 控制台应用程序您可以直接从控制台启动 Android x86 运行或者从 Android x86 GUI 内的 Android 终端应用程序运行这个帖子如何在 Android NDK 中创
为什么要序列化对象需要 Serialized 属性

根据我的理解 SerializedAttribute 不提供编译时检查因为它都是在运行时完成的如果是这样那么为什么需要将类标记为可序列化呢难道序列化器不能尝试序列化一个对象然后失败吗这不就是它现在所做的吗当某些东西被标记时它会
使用post方法将多个参数发送到asp.net core 3 mvc操作

使用 http post 方法向 asp net mvc core 3 操作发送具有多个参数的 ajax 请求时存在问题参数不绑定在 dot net 框架 asp net web api 中存在类似的限制但在 asp net mvc
C# 中的接口继承

我试图解决我在编写应用程序时遇到的相当大的对我来说问题请看这个为了简单起见我将尝试缩短代码我有一个名为的根接口IRepository
构造函数中显式关键字的使用

我试图了解 C 中显式关键字的用法并查看了这个问题C 中的explicit关键字是什么意思 https stackoverflow com questions 121162 但是那里列出的示例实际上是前两个答案对于用法并不是很清楚
对齐 GridView 中的行值

我需要在 asp net 3 5 中右对齐 gridview 列中的值我怎样才能做到这一点
将数据打印到文件

我已经超载了 lt lt 运算符使其写入文件并写入控制台我已经为同一个函数创建了 8 个线程并且我想输出 hello hi 如果我在无限循环中运行这个线程例程文件中的o p是 hello hi hello hi hello hi e
如何在c#中的内部类中访问外部类的变量[重复]

这个问题在这里已经有答案了我有两个类我需要声明两个类共有的变量如果是嵌套类我需要访问内部类中的外部类变量请给我一个更好的方法来在 C 中做到这一点示例代码 Class A int a Class B Need to access
System.Runtime.InteropServices.COMException（0x80040154）：[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在 C 项目中遇到异常 System Runtime InteropServices COMException 0x80040154 检
转到定义：“无法导航到插入符号下的符号。”

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动我今天突然开始在我的项目中遇到一个问题单击转到定义会出现一个奇怪的错误无法导航到
双精度类型二维多维数组的 pinvoke 编组作为 c# 和 c++ 之间的输入和输出

我有以下我正在尝试解决的双物质类型的 2d 多维数组的 c 和 c pinvoke 编组我已经查看了以下热门内容以获得我目前拥有的内容使用双精度数组进行 P Invoke 在 C 和 C 之间编组数据 https stackoverflo
WinRT 定时注销

我正在开发一个 WinRT 应用程序要求之一是应用程序应具有定时注销功能这意味着在任何屏幕上如果应用程序空闲了 10 分钟应用程序应该注销并导航回主屏幕显然执行此操作的强力方法是在每个页面的每个网格上连接指针按下事件并在触
使用 Crypto++ 获取 ECDSA 签名

我必须使用 Crypto 在变量中获取 ECDSA 签名我在启动 SignMessage 后尝试获取它但签名为空我怎样才能得到它你看过 Crypto wiki 吗上面有很多东西椭圆曲线数字签名算法 http www cryptop
匿名结构体作为返回类型

下面的代码编译得很好VC 19 00 23506 http rextester com GMUP11493 标志 Wall WX Za 与VC 19 10 25109 0 标志 Wall WX Za permissive 这可以在以下位置检

随机推荐

第三方类的 TypeConverter 属性

创建类时可以对其应用 TypeConverter 属性使用 TypeDescriptor GetConverter typeof T 返回自定义类型转换器例如 TypeConverter typeof FooConverter pub
我可以从内部函数中屈服吗？

使用 ES6 生成器我看到这样的代码 var trivialGenerator function array var i item for var i 0 i lt array length i item array i yield it
降级Python后spyder/jupyter无法工作

我必须将 python 版本从 3 5 下载到 3 4 因为 3 5 不支持我需要的包之一我使用 conda 命令提示符降级了 python 版本一切正常让我的包及其所有依赖项一起安装没有冲突但现在当我尝试打开 Juypter 笔
如何向引导卡添加关闭按钮？

我有一个使用以下代码的引导卡 div class card card outline danger text center span class pull right clickable i class fa fa times i span
zSKNode 相对于其父节点的位置？

我一直认为 SKNode 的 zPosition 是相对于其父节点的但现在我遇到了相反的效果我的场景中有两个父 SKNode 它们的 zPosition 分别为 1 节点 1 和 2 节点 2 我想要实现的是 node2 应该始终位于
C++11 标准中的哪一部分规定了基本数据类型大小之间的相对顺序？

我试图找出C 标准是否规定了各种类型的大小之间的关系例如这个答案位于https stackoverflow com a 589599 1175080 https stackoverflow com a 589599 1175080似乎声
从另一个 js 文件中的 javascript 函数调用命名空间函数时出现问题

在 js 中命名空间对我来说是新事物而且我的项目已经变得非常复杂所以是时候驯服这头野兽了 P 我使用模块模式在 foo js 中创建了一个名称空间 foo var foo function update function alert
如何使用 HTML 发送 SOAP 请求并接收响应？

我想将号码发送至SOAP 服务器我不知道是否可以将其称为服务器如果我错了请纠正我并使用接收响应HTML 我见过很多问题的答案其中包含发送 XML 请求的示例如下所示但我不知道如何接收和查看响应HTML 抱歉我是新手SOAP P
如何在 Material-UI 中将按钮居中

我不知道如何在 Material UI 中将按钮居中这是我的代码 function BigCard props const classes props return div div
将 pandas 数据框渲染为 HTML，其样式与 Jupyter Notebook 相同

我想以与 Jupyter Notebook 相同的方式将 pandas 数据框渲染为 HTML 即具有漂亮的样式列突出显示和单击时列排序等所有功能 pandas to html https pandas pydata org pandas
获取 pandas 中每一列的非零值

我有 pandas 数据框df accel access adviser afpif afp publish afraid verizon 0 00 0 14 0 00 0 00 0 00 0 13 0 00 0 44 0 13 0 00
Anypoint studio/Mule 在启动期间挂起

我是 Mule 和 Anypoint 工作室的新手我以前和Mule一起工作过过了一会儿我又回来处理它了我升级到 Anypoint Studio March 2015 Release Version 5 1 0 Build Id 20
在选择之前和之后插入文本并设置新文本的样式

我可以使用以下方法在选择之前和之后插入文本 Selection InsertBefore start Selection InsertAfter end 但我无法控制插入文本的样式如何将新插入的文本设置为特定样式并保留原始选定的文本不变
删除 gulp 文件中的 windows 文件只读属性

如何删除Windows中文件夹下所有文件的只读属性 UPDATE 问题更多是关于如何使用 gulpfile 删除只读属性我找到了答案要递归地删除目录下所有文件的只读属性我们在 windows 命令行中运行以下命令 attrib r
Flutter ios 中未找到“flutter_keyboard_visibility_web”的 podspec

我在 Mac gt Android studio 中使用 Flutter 并且当我在终端中编写 pod install 时它向我展示 Analyzing dependencies No podspec found for flutter
如何解决 UnicodeDecodeError？

当尝试从数据存储中读取非 ASCII 码时我收到一条奇怪的错误消息 ascii codec can t decode byte 0xc3 in position 5 ordinal not in range 128 Traceback m
将数据透视表更新到数据库

我有一个来自 MySQL 查询的数据透视表该表源自 submit time form name field name field value file order file 15052703120 Submissions your nam
CCcomboBoxEx 图像和文本之间的间距

有没有什么方法一些系统指标值或其他任何东西可以给出 CComboBoxEx 控件上图标和图像之间的边距有多少像素下图中红色标记表示的空间 None
.pfx 文件是否可以包含多个私钥？

我试图了解 pfx 文件是否可能包含多个私钥如果有多组证书及其私钥如何在 KeyStore 中找到它们通过使用别名对吧所以答案是肯定的它可以拥有任意数量的私钥和关联的证书感谢你们
使用 __gnu_mcount_nc 捕获函数退出时间

我正在尝试在支持不佳的原型嵌入式平台上进行一些性能分析我注意到 GCC 的 pg 标志导致 thunks gnu mcount nc在每个函数的入口处插入没有实施 gnu mcount nc是可用的并且供应商没有兴趣提供帮助但是由于

使用 __gnu_mcount_nc 捕获函数退出时间

使用 __gnu_mcount_nc 捕获函数退出时间 的相关文章

随机推荐

热门标签

使用 __gnu_mcount_nc 捕获函数退出时间的相关文章