cmpxchg 是否会在失败时写入目标缓存行？如果不是，对于自旋锁来说它比 xchg 更好吗？

2023-12-03

我假设简单的自旋锁不会进入操作系统等待这个问题的目的。

我发现简单的自旋锁通常使用以下方式实现lock xchg or lock bts代替lock cmpxchg.

但没有cmpxchg如果期望不匹配，避免写入值？那么失败的尝试不是更便宜吗cmpxchg?

Or does cmpxchg即使发生故障，也要写入数据并使其他核心的缓存行无效吗？

这个问题类似于具体是什么将 x86 缓存行标记为脏 - 任何写入，或者是否需要显式更改？，但它特定于cmpxchg，不是一般情况下。

在大多数或所有当前的 Intel x86 处理器上，lock cmpxchg到内存类型为 WB 且完全包含在单个 L1D 缓存行中的位置执行如下：

向 L1D 发出锁定读取请求，使目标行处于锁定独占高速缓存一致性状态，并将请求的字节作为输入提供给执行端口之一以执行比较。（从 P6 开始支持高速缓存锁定。）处于锁定状态的行不能因任何原因而失效或被逐出。
执行相等比较。
无论结果是什么，向 L1D 发出解锁写入请求，这会将缓存行的状态更改为“已修改”并解锁该行，从而允许其他访问或一致性请求替换该行或使该行无效。

可以使用某些性能事件或基于延迟的测量来凭经验观察第一步和最后一步。一种方法是分配一大堆原子变量，然后执行lock cmpxchg在该数组上循环。锁读请求类型是RFO请求类型之一。所以L2_TRANS.RFO事件（或等效事件）在大多数微架构上都是可靠的，可用于测量 L2 的锁读取次数。 (L2_TRANS.RFO计数需要 RFO，因此最好关闭硬件预取器以避免 L2 中不需要的命中。这也适用于L2_RQSTS.RFO_*.)

还有一些用于衡量写回次数的事件，例如L2_TRANS.L1D_WB, L2_TRANS.L2_WB，和别的。不幸的是，许多这些事件和跨许多微体系结构要么计数不足，要么计数过多，或者它们计数准确但不一定是所有/仅脏缓存行写回。因此，他们更难以推理，而且通常不可靠。

更好的方法是执行lock cmpxchg在特定物理核心上的阵列的一个部分上，然后将线程迁移到另一个物理核心（在同一 L3 共享域中）并执行一个循环，在该循环中读取该部分的元素（正常读取）。如果lock cmpxchg指令将目标行置于 M 状态，来自同一 L3 共享域中的另一个物理核心的读取请求应该在 L3 中命中，并且也会在该核心的私有缓存中命中修改。lock cmpxchg被处决。这些事件可以使用以下方式进行计数OFFCORE_RESPONSE.DEMAND_DATA_RD.L3_HIT.HITM_OTHER_CORE（或等效的），这在大多数/所有微架构上都是可靠的。

锁定指令是一项昂贵的操作，原因有以下三个：(1) 需要使行处于独占状态，(2) 使行变脏（可能不必要），并且太多的写回会对执行时间产生重大影响，甚至更是如此当它们最终从长时间的读取请求中窃取主内存带宽时，当写入持久内存时更是如此，并且（3）它们在架构上进行序列化，这使得指令位于关键路径上。

英特尔有一个patent这提出了对最后一个的优化，其中核心乐观地假设不存在锁争用并向目标线发出推测性正常负载。如果该线路不存在于任何其他物理核心中，则该线路在请求核心中将处于独占状态。然后，当锁定指令执行并发出锁定读取请求时，该行有望仍处于独占状态，在这种情况下，锁定指令的总延迟将减少。我不知道是否有处理器实现了这种优化。如果实施的话，数量L2_TRANS.RFO事件将远小于锁定的行数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cmpxchg 是否会在失败时写入目标缓存行？如果不是，对于自旋锁来说它比 xchg 更好吗？的相关文章

从 64 位 nasm 代码接收 32 位寄存器

我正在学习 64 位 nasm 我通过执行以下操作来汇编 nasm 文件该文件仅包含 64 位寄存器 nasm f elf64 HelloWorld nasm o HelloWorld o 并链接它执行以下操作 ld HelloWorld
x86 中有加速 SHA (SHA1/2/256/512) 编码的指令吗？

一个例子在x86 是硬件加速 AES 的指令集 http en wikipedia org wiki AES instruction set 但是x86中是否有加速SHA SHA1 2 256 512 编码的指令以及在x86上编码SHA
调用 printf 系统子例程在汇编代码中输出整数错误[重复]

这个问题在这里已经有答案了来回在windows7控制台窗口中运行gcc s2 asm 然后生成一个exe文件运行a exe 然后崩溃为什么 s2 asm 代码由以下源代码生成 int m m 1 iprint m s2 asm请参考
如何创建可获取数字的小矮人计算机 (LMC) 代码。奇数时显示1，偶数时显示0

我的研究需要帮助如果数字是偶数它可以显示 1 如果数字是奇数它可以显示 0 例如如果输入是 99 它将显示输出 1 这意味着奇数如果我显示 10 它将显示输出 0 这意味着偶数我没有任何代码因为我不知道如何开始请帮忙我对这
我可以使用 AVX FMA 单元进行位精确的 52 位整数乘法吗？

AXV2 doesn t have any integer multiplications with sources larger than 32 bit It does offer 32 x 32 gt 32 http www felix
函数地址不是实际代码地址

在 Visual Studio 2008 C 中调试一些代码时我注意到函数指针变量中的地址不是函数本身的实际地址这是一个外部 C 函数 int main void printaddr const char print debug sho
比较和交换的工作原理

我读过很多帖子说比较和交换保证原子性但是我仍然不明白它是如何做到的这是比较和交换的通用伪代码 int CAS int ptr int oldvalue int newvalue int temp ptr if ptr oldvalue
Nasm 点状标签

我对 TASM 很熟悉但对 NASM 不太了解我读过 NASM 允许使用本地标签这些标签在名称前用点表示例如代码 loop some code jmp loop 定义一个名为 loop的局部标号引用的地址在后面的jmp指令中使用
x86-64 AMD 上 CALL 指令的操作数生成

以下是示例程序 objdump 的输出 080483b4
了解近调用指令编码

通过反汇编一些二进制代码我发现了近调用指令call 0x8ae编码为e8 97 08 00 00 查看指令集参考我发现这些指令被编码为 call XX XX XX XX lt gt e8 XX XX XX XX being XX XX
计算PE文件中入口点的文件偏移量

In http en redinskala com finding the ep http en redinskala com finding the ep 有关于如何查找 exe 文件中入口点的文件偏移量的信息在这里我可以读到 EP 文
execve() 无法启动 C 程序

我正在尝试使用生成一个新进程execve from unistd h在 Linux 上我尝试向它传递以下参数execve bin ls bin ls NULL 但没有得到结果我也没有收到错误程序只是退出发生这种情况有原因吗我尝试以
如何检查 x86_64 程序集中的寄存器是否为零 [重复]

这个问题在这里已经有答案了我正在尝试检查 x86 64 汇编代码中的值是否为零我知道这通常包括cmp变体后跟一个jmp变体但我不确定确切的使用说明如果您之前刚刚使用过修改 ZF 的指令只需检查该标志并使用JZ or JE 例如 a
如何在 Visual Studio 2013 中启用汇编语言支持

我一直在寻找每个人都只提供了一个简单的答案右键单击项目自定义构建规则勾选 Microsoft Macro Assembler But sadly In 2013 its not the same Here is the screen
如何在ubuntu下使用nasm（汇编）从键盘读取单个字符输入？

我在ubuntu下使用nasm 顺便说一句我需要从用户的键盘获取单个输入字符就像当程序询问您 y n 时因此当按下按键并且不按 Enter 键时我需要读取输入的字符我用谷歌搜索了很多但我发现的所有内容都与这条线有关 int 21
深入了解事物如何打印到屏幕上（cout、printf）以及我在教科书上似乎找不到的真正复杂内容的起源

我一直想知道这个问题但至今还没有找到答案每当我们使用 cout 或 printf 时它们到底是如何打印在屏幕上的文本是如何显示出来的这里可能是一个相当模糊的问题无论你给我什么我都会工作那么基本上这些功能是如何制作的是汇编吗
从 GP regs 加载 xmm

假设您的价值观是rax and rdx你想加载到xmm登记一种方法是 movq xmm0 rax pinsrq xmm0 rdx 1 虽然速度相当慢有没有更好的办法在最近的 Intel 或 AMD 上你不会在延迟或 uop 计数方面
如何在 gdb 中给定地址处的汇编指令上中断？

0x0000000000400448
.so 文件的 objdump？需要帮助来理解消息

我正在开发一个与流相关的本机应用程序我在我的 c 模块中遇到了一些问题我收到的是来自 Logcat 的一些消息这是 Logcat 消息 INFO DEBUG 28 Build fingerprint generic sdk gener
emu8086中如何使用字符串

我需要 emu8086 中字符串的帮助我已经初始化了一个字符串 str1 db 0neWord 我有一个空字符串 str2 db 现在我需要检查所有信件str1并复制到str2 但如果字母在str1是 0 我需要将其替换为 O 如果不是

随机推荐

ImageSource 在 WPF 中使用数据库中的文件名

我在 WPF 中有一个矩形我可以使用以下命令设置它的填充
pyodbc.ProgrammingError：没有结果。以前的SQL在一次执行多个语句时不是查询

我正在处理 sql server 数据库我有一张名为 table1 包含 1 列和 1 行 exp num 0 我正在尝试更新0将 exp num 列值设置为 1 并返回旧实验和更新后的实验为此我使用声明语句 DECLARE Upda
python 中的快速 zip 解密

我有一个使用以下方法处理 zip 文件的程序zipfile 它与一个iterator 因为未压缩的文件大于2GB它可能会成为一个记忆问题 with zipfile Zipfile BytesIO my file as myzip for f
无法使 execfile() 变量成为全局变量而不是局部变量

我有这个功能 This function loads the tokens for the specified account If the tokens are not found it quits the script def sele
使用powershell批量重命名文件

我可以使用以下命令批量重命名工作目录中的文件 Dir Rename Item NewName 0 0 wav f nr 但是我希望文件重命名以非零开始说0500 然后按顺序重命名 Dir Rename Item NewName 0 500
C# 中按位桶移位左右旋转的问题

在 C 中我有这样的代码 static UInt32 rol UInt32 value UInt32 bits bits 31 return value lt lt bits value gt gt 32 bits static UInt3
将实体框架与 MySQL DB 结合使用，并且模型设计器不会获取存储的过程参数

我有最新的 Mysql 连接器允许您使用 Visual Studio 实体框架设计器它运行得很好但我刚刚添加了一个存储过程服务器资源管理器使用指定的参数很好地加载了它但后来我将它添加到实体模型中它生成的代码没有任何输入参数这是
如何在 GitHub 上搜索以获得精确的字符串匹配，包括特殊字符

我可以使用引号从 Google 搜索完全匹配的内容例如 system lt lt 我如何为 GitHub 做同样的事情你不能 2022年之前官方GitHub搜索规则由于搜索代码的复杂性有一些限制关于如何执行搜索仅考虑默认分支
如何在文本编辑器中包含 html 标签？ [附片段]

我正在使用文本编辑器反应草案所见即所得 and 草稿js 到 html 而且我也将动态 html 注入到编辑器中例如索引 js export default function App const dynamicData div cla
MariaDB 版本 10.5.9 无法安装 [关闭]

Closed 这个问题是与编程或软件开发无关目前不接受答案在我当前的工作场所中我们使用 MariaDB 版本 10 5 9 作为我们的数据库并且我们正在尝试重新安装此版本以在单独的容器上进行测试然而似乎以下 10 5 9 中的任
PowerShell 添加任务以使用参数运行 PowerShell 脚本

我正在尝试从 PowerShell 脚本将任务添加到任务计划程序该脚本将运行带有参数的 PowerShell 脚本文件路径中的空格与整个命令周围的必要引号相冲突并且 SCHTASKS 将转换为因此我无法正确封装 command P
Regex.Replace、String.Replace 或 StringBuilder.Replace 哪个最快？

我需要全部更换System Environment Newline s 在我的函数返回的字符串中System Environment Newline t 因为我正在尝试应用缩进并且我需要这样做几次我的问题是哪一种是最有效的方法我知道S
选择多个字段不在子查询中的位置（不包括连接）

我需要提取存档表中没有历史记录的记录需要在存档中检查 1 条记录的 2 个字段从技术意义上讲我的要求是左连接其中右侧为空又名排除连接在abap openSQL中通常是这样实现的无论如何对于我的场景 Select from x
将邻接矩阵转换为 csv 文件

我想使用 python 或者可能是 R 将 ARACNE 的邻接矩阵输出转换为 csv 文件 adj 文件被设置为显示右侧的一个基因以及它与其他基因的每一个相互作用例如 A B 0 4 C 0 3 B C 0 1 E 0 4 C D 0
C# 异步服务器/客户端架构

第一篇关于堆栈溢出的文章不管怎样我试图在业余时间自学网络编程但我遇到了一个我无法解决的障碍在尝试了几天同步网络方法之后我决定制作一个客户端服务器程序该程序可以处理多个并发连接处理多个通信流拥有真正的双向沟通在更一般的层
无法在 QThread 与多个 Qthread 的 finish() 信号之间进行连接

我有 3 个互相调用的 QThread 全部继承自 QThread 我知道有些人可能建议使用 moveToThread 但现在忽略这一事实简化的代码如下所示线程1类 void Thread1 run some execution Thr
Angular PWA - 当没有可用连接时路由到自定义离线页面

在 Angular PWA 中如果没有可用的互联网连接我想将用户重定向到自定义离线页面 offline html 使用ng sw config json在文件中我设置了要缓存的资产和 API 以及要使用的策略性能新鲜度即使在离线
使用 JavaScript 以编程方式触发 ASP.net CascadingDropDown 更改事件的正确方法

Markup
rabbitmq ldap对用户DN不一致的组进行授权

我正在尝试使用 LDAP Microsoft Active Directory 设置rabbitmq授权in group or in group nested查询然而自从我们的OU我们的用户之间的结构不一致这导致了各种DN模式我不得
cmpxchg 是否会在失败时写入目标缓存行？如果不是，对于自旋锁来说它比 xchg 更好吗？

我假设简单的自旋锁不会进入操作系统等待这个问题的目的我发现简单的自旋锁通常使用以下方式实现lock xchg or lock bts代替lock cmpxchg 但没有cmpxchg如果期望不匹配避免写入值那么失败的尝试不是更便宜吗c

cmpxchg 是否会在失败时写入目标缓存行？如果不是，对于自旋锁来说它比 xchg 更好吗？

cmpxchg 是否会在失败时写入目标缓存行？如果不是，对于自旋锁来说它比 xchg 更好吗？ 的相关文章

随机推荐

热门标签

cmpxchg 是否会在失败时写入目标缓存行？如果不是，对于自旋锁来说它比 xchg 更好吗？的相关文章