rdtsc乱序执行的解决方案？

2023-12-25

我正在尝试用 rdtsc 替换 clock_gettime(CLOCK_REALTIME, &ts) 来根据 CPU 周期而不是服务器时间来基准代码执行时间。基准测试代码的执行时间对于软件至关重要。我尝试在独立核心上的 x86_64 3.20GHz ubuntu 机器上运行代码并得到以下数字：

情况1：时钟获取时间：24纳秒

void gettime(Timespec &ts) {
        clock_gettime(CLOCK_REALTIME, &ts);
}

情况 2：rdtsc（没有 mfence 和编译器屏障）： 10 ns

void rdtsc(uint64_t& tsc) {
        unsigned int lo,hi;
        __asm__ __volatile__ ("rdtsc" : "=a" (lo), "=d" (hi));
        tsc = ((uint64_t)hi << 32) | lo;
}

情况 3：rdtsc（带有 mfence 和编译器屏障）： 30 ns

void rdtsc(uint64_t& tsc) {
        unsigned int lo,hi;
        __asm__ __volatile__ ("mfence;rdtsc" : "=a" (lo), "=d" (hi) :: "memory");
        tsc = ((uint64_t)hi << 32) | lo;
}

这里的问题是我知道 rdtsc 是非序列化调用，可以由 CPU 重新排序，另一种选择是 rdtscp，它是序列化调用，但 rdtscp 调用之后的指令可以在 rdtscp 调用之前重新排序。使用内存屏障会增加执行时间。

对延迟敏感代码进行基准测试的最优化和最佳方法是什么？
有没有办法优化我提到的案例？

你要lfence;rdtsc to start时钟，以及rdtscp;lfence停止时钟，因此障碍物位于计时间隔之外。

（或者有时你想要lfence;rdtsc;lfence启动时钟，以获得额外的可重复性，但代价是更多的开销。）

MFENCE 是错误的指令；它不能保证序列化指令流（但实际上它在具有最新微代码的 Skylake 上可以序列化，以修复错误）。 LFENCE 序列化指令流，无需等待存储缓冲区清空，只用于 ROB。这在英特尔上始终如此，但是一项且仅启用 Spectre 缓解功能 https://stackoverflow.com/questions/51844886/is-lfence-serializing-on-amd-processors这使得lfence不仅仅是一个NOP。（我猜AMD不会重新排序movntdqa从 WC 内存加载，所以lfence作为那里的记忆屏障毫无意义，并且是only作为针对推测执行或 RDTSC 的执行屏障很有用。）

也可以看看如何从 C++ 获取 x86_64 中的 CPU 周期数？ https://stackoverflow.com/questions/13772567/get-cpu-cycle-count/51907627#51907627其中有一个关于序列化的部分rdtsc。而且，您不需要为此使用内联汇编；使用__rdtsc() and _mm_lfence()。（但与微基准测试一样，检查编译器的 asm 输出以确保它执行您想要的操作并不是一个坏主意。）

你无法避免开销，与几条指令的成本相比，它总是很大。

Also clflush 通过 C 函数使缓存行无效 https://stackoverflow.com/questions/51818655/clflush-to-invalidate-cache-line-via-c-function/51830976#51830976有关减去测量开销的示例。

但还要注意，通常将测试代码放入循环中更有用，因为结果准备好之前的执行延迟比等待指令实际从 ROB 中退出更有意义。看NASM 中的 RDTSCP 始终返回相同的值（对单个指令进行计时） https://stackoverflow.com/questions/54621381/rdtscp-in-nasm-always-returns-the-same-value/54624081#54624081例如（在 asm 中）测量单个 insn 的吞吐量/延迟。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

rdtsc乱序执行的解决方案？的相关文章

以编程方式检查页面是否需要基于 web.config 设置进行身份验证

我想知道是否有一种方法可以检查页面是否需要基于 web config 设置进行身份验证基本上如果有这样的节点
为什么大多数 C 开发人员使用 Define 而不是 const？ [复制]

这个问题在这里已经有答案了在许多程序中 define与常量具有相同的用途例如 define FIELD WIDTH 10 const int fieldWidth 10 我通常认为第一种形式优于另一种形式它依赖于预处理器来处理基本上是
如何创建可以像 UserControl 一样编辑的 TabPage 子类？

我想创建一个包含一些控件的 TabPage 子类并且我想通过设计器来控制这些控件的布局和属性但是如果我在设计器中打开子类我将无法像在 UserControl 上那样定位它们我不想创建一个带有 UserControl 实例的 Tab
32 位应用程序的特征最大矩阵大小

所以我正在寻找Eigen http eigen tuxfamily org index php title Main Page当我尝试声明大于 10000x10000 的矩阵时包崩溃我需要声明一个像这样的矩阵可靠地大约有 13000
使用post方法将多个参数发送到asp.net core 3 mvc操作

使用 http post 方法向 asp net mvc core 3 操作发送具有多个参数的 ajax 请求时存在问题参数不绑定在 dot net 框架 asp net web api 中存在类似的限制但在 asp net mvc
显示异常时的自定义错误消息：从客户端检测到潜在危险的 Request.Form 值

我在我的 Web 应用程序中使用 ASP NET 的登录控件当发生此异常时我想在标签上显示一种有趣的错误类型System Web HttpRequestValidationException A potentially dangerou
如何配置 WebService 返回 ArrayList 而不是 Array？

我有一个在 jax ws 上实现的 java Web 服务此 Web 服务返回用户的通用列表它运行得很好 Stateless name AdminToolSessionEJB RemoteBinding jndiBinding Admi
从多个类访问串行端口

我正在尝试使用串行端口在 arduino 和 C 程序之间进行通信我对 C 编程有点陌生该程序有多种用户控制形式每一个都需要访问串口来发送数据我需要做的就是从每个类的主窗体中写入串行端口我了解如何设置和写入串行端口这是我的 Fo
暂停下载线程

我正在用 C 编写一个非常简单的批量下载程序该程序读取要下载的 URL 的 txt 文件我已经设置了一个全局线程和委托来更新 GUI 按下开始按钮即可创建并启动该线程我想要做的是有一个暂停按钮使我能够暂停下载直到点击恢复
C 语言中 =+（等于加）是什么意思？

我碰到与标准相反今天在一些 C 代码中我不太确定这里发生了什么我在文档中也找不到它 In ancientC 版本相当于它的残余物与最早的恐龙骨头一起被发现例如 B 引入了广义赋值运算符使用x y to add y to x
即使手动设置显示环境变量后，WSL Ubuntu 也会显示“错误：无法打开显示”

我在 WSL Ubuntu 上使用 g 我使用 git 克隆了 GLFW 存储库使用了ccmake命令配置并生成二进制文件然后使用make在 build 目录中最终创建 a文件我安装了所有OpenGL相关的库 usr ld 我不记得我
C# 中条件编译符号的编译时检查（参见示例）？

在 C C 中你可以这样做 define IN USE 1 define NOT IN USE 1 define USING system 1 system 1 IN USE 进而 define MY SYSTEM IN USE if US
如何在c#中的内部类中访问外部类的变量[重复]

这个问题在这里已经有答案了我有两个类我需要声明两个类共有的变量如果是嵌套类我需要访问内部类中的外部类变量请给我一个更好的方法来在 C 中做到这一点示例代码 Class A int a Class B Need to access
当我“绘制”线条时，如何将点平均分配到 LineRenderer 的宽度曲线？

我正在使用线条渲染器创建一个绘图应用程序现在我尝试使用线条渲染器上的宽度曲线启用笔压问题在于 AnimationCurve 的时间值水平轴从 0 标准化为 1 因此我不能在每次添加位置时都在其末尾添加一个值除非有一个我不知
获取 2 个数据集 c# 中的差异

我正在编写一个简短的算法它必须比较两个数据集以便可以进一步处理两者之间的差异我尝试通过合并这两个数据集并将结果更改放入新的数据集来实现此目标我的方法如下所示 private DataSet ComputateDiff DataSet
剪贴板在 .NET 3.5 和 4 中的行为有所不同，但为什么呢？

我们最近将一个非常大的项目从 NET Framework 3 5 升级到 4 最初一切似乎都工作正常但现在复制粘贴操作开始出现错误我已经成功制作了一个小型的可复制应用程序它显示了 NET 3 5 和 4 中的不同行为我还找到了一种解
我在在线程序挑战编译器中遇到演示错误

include
双精度类型二维多维数组的 pinvoke 编组作为 c# 和 c++ 之间的输入和输出

我有以下我正在尝试解决的双物质类型的 2d 多维数组的 c 和 c pinvoke 编组我已经查看了以下热门内容以获得我目前拥有的内容使用双精度数组进行 P Invoke 在 C 和 C 之间编组数据 https stackoverflo
实例化 Microsoft.Office.Interop.Excel.Application 对象时出现错误：800700c1

实例化 Microsoft Office Interop Excel Application 以从 winforms 应用程序生成 Excel 时出现以下错误这之前是有效的但突然间它停止工作了尽管代码和 Excel 版本没有变化我
是否可以在 C# 中强制接口实现为虚拟？

我今天遇到了一个问题试图重写尚未声明为虚拟的接口方法的实现在这种情况下我无法更改接口或基本实现而必须尝试其他方法但我想知道是否有一种方法可以强制类使用虚拟方法实现接口 Example interface IBuilder

随机推荐

将动态 JSON 值解析为 Java 对象

在我的应用程序中我有很多具有排序和过滤功能的概述表格由于不同的列可以保存不同的值类型字符串数字日期集合等因此这些列的过滤器也可以带来不同的值让我向您展示一些示例已转换为 JSON 通过 REST 请求发送到服务器对于简
XE7更新1和iOS 8.1模拟器不工作

在 Delphi XE7 中将目标设置为 iOS 8 1 Simulator 时应用程序崩溃它部署得很好也可以运行但是 firemonkey 启动屏幕仍然打开并且永远不会完成加载这种情况发生在一个普通的新移动应用程序中只在表单中
SignalR：生成的代理与动态创建的集线器文件

SignalR 集线器代理生成器的输出与动态生成的集线器代理文件本质上相同吗如果不是有什么区别我的问题的一些背景由于执行期间的依赖性问题我正在努力使用命令行工具创建集线器代理并且我确实认为获取动态生成的文件可能是一种更简单的方法
限制 Visual Studio 的编辑区域仅显示一个函数或方法

几年前当我使用 VB 6 时我可以让编辑器窗口只显示我正在处理的函数方法我怀念这一点有没有一种方法一个插件或者一个黑客可以让我现在做同样的事情 Thanks 看来此功能已被删除而且没有办法解决这个问题也许您可以考虑为
ValueError：无法解析相关模型u'mutech.branch'

我正在尝试在 models py 文件中创建外键但是在运行 python manage py migrate 命令时我收到以下错误之前一切都很好即使我撤消了所有更改它仍然给出相同的错误我也尝试删除我的数据库但没有任何效果 Ap
SKPhysicsBody 不符合预期

我有以下代码来创建一个矩形砖块和一个与其关联的物理体我预计物理主体是一个与砖块相同大小和位置的实心矩形但我得到的主体有一个位置偏移也许还有尺寸差异我错过的坐标系是否存在问题解决这个问题的正确方法是什么 void addBrick
跨多个区域部署 Firebase Cloud Functions

我想跨多个区域部署相同的云功能有简单的方法吗由于您没有说明要部署什么类型的函数因此我假设 https 函数将任何其他类型的后台功能部署到多个区域是没有意义的因为每个区域都可能触发每个事件这将相当混乱使用 https 函数
当提供正则表达式时，Java 中的 String.split() 方法到底如何工作？

我正在准备 OCPJP 考试遇到以下示例 class Test public static void main String args String test I am preparing for OCPJP String tokens
UITableView 中替代单元格的不同高度

如何制作具有不同高度的备用单元我需要 cell1 的高度为 60 cell2 的高度为 30 我怎样才能做到这一点提前致谢您可以通过表视图的委托方法设置单元格的高度 CGFloat tableView UITableView tabl
如何为 JSON 对象设置原型？

我正在从服务器接收一些 JSON 对象并且我想将其类型转换或祝福为具有已定义方法的对象有没有办法为普通 JSON 对象设置原型 function MyClass someValue this myProperty someVal
Firefox 3 窗口焦点和模糊

窗口 blur 函数窗口焦点假焦点函数窗口焦点真问题是在 Firefox 3 中当我创建新选项卡时它不会丢失窗口焦点而在ff2 ie7中确实输了在 ff3 中当我选择另一个程序时它只会失去窗口焦点有人有解决这个
为什么 reshape2 融化对我来说返回值 = NA？

为什么重塑2melt return value NA for me 它对我来说适用于 reshape 但不适用于 reshape2 这是一个示例数据文件 station id year month day h1 h2 h3 h4 h5 h6
无法使用 CDK + Lambda 捆绑资产错误

我有这个项目结构其中control是我的项目的名称和根 control src control loader gt this has a function inside called also control loader utils s
使用日期时间时 matplotlib“axis.invert_xaxis”崩溃

如果我运行以下代码 import pandas as pd from datetime import datetime import numpy as np import matplotlib pyplot as plt df pd Dat
如何按时间段对DataFrame进行分组？

我有来自日志文件的一些数据并希望按分钟对条目进行分组 def gen date count 10 while count gt 0 yield date event format randint 1 9 source format ran
PHP从列表中随机选择

我目前正在使用随机选择颜色的 PHP 代码 div style background none class post bg thickbox div
在 clojure core.async go-loop 中工作的方式有哪些权衡？

当我编写更多 core async 代码时出现的一种非常常见的模式是循环它在一系列通道上进行切换并执行一些工作来响应消息例如 go loop state let value task alts tasks work recur sta
`alias sudo="sudo "` 是如何工作的？

研究将当前用户的别名传递给sudo命令我发现以下内容在 ArchWiki 上 https wiki archlinux org index php Sudo Passing aliases 传递别名如果您使用很多别名您可能会注意到它们
AS3 按住按钮时连续运行代码 - Air 适用于 iOS/Android

我正在 Flash CS6 中开发 iOS 游戏我有一个基本的运动测试Event MOUSE DOWN处理程序我期望想要的是当我将手指按住按钮时玩家会继续移动直到我停止触摸屏幕但发生的情况是我必须不断地点击才能让玩家保持移动
rdtsc乱序执行的解决方案？

我正在尝试用 rdtsc 替换 clock gettime CLOCK REALTIME ts 来根据 CPU 周期而不是服务器时间来基准代码执行时间基准测试代码的执行时间对于软件至关重要我尝试在独立核心上的 x86 64 3 20GH

rdtsc乱序执行的解决方案？

rdtsc乱序执行的解决方案？ 的相关文章

随机推荐

热门标签

rdtsc乱序执行的解决方案？的相关文章