如果我不使用栅栏，一个核心需要多长时间才能看到另一个核心的写入？

2023-11-26

我一直在尝试用谷歌搜索我的问题，但老实说我不知道如何简洁地陈述这个问题。

假设我在多核英特尔系统中有两个线程。这些线程在同一个 NUMA 节点上运行。假设线程 1 向 X 写入一次，然后偶尔向前读取它。进一步假设线程 2 连续读取 X。如果我不使用内存栅栏，线程 1 写入 X 和线程 2 看到更新值之间需要多长时间？

据我所知，X 的写入将进入存储缓冲区，然后从那里进入高速缓存，此时 MESIF 将启动，线程 2 将通过 QPI 查看更新后的值。（或者至少这是我收集到的）。我认为存储缓冲区将被写入存储栅栏上的缓存，或者如果需要重用该存储缓冲区条目，但我不知道存储缓冲区被分配给写入。

最终，我试图为自己回答的问题是，在一个正在执行其他工作的相当复杂的应用程序中，线程 2 是否有可能在几秒钟内看不到线程 1 的写入。

内存屏障不会让其他线程看到您的存储any faster.（除了阻止以后的加载可能会稍微减少提交缓冲存储的争用。）

The store buffer always tries to commit retired (known non-speculative) stores to L1d cache as fast as possible. Cache is coherent¹, so that makes them globally visible because of MESI/MESIF/MOESI. The store buffer is not designed as a proper cache or write-combining buffer (although it can combine back-to-back stores to the same cache line), so it needs to empty itself to make room for new stores. Unlike a cache, it wants to keep itself empty, not full.

Note 1：不只是x86；任何 ISA 的所有多核系统（我们可以跨其核心运行 Linux 的单个实例）都必然是缓存一致的； Linux依赖于volatile其手工滚动原子使数据可见。类似地，C++std::atomic加载/存储操作mo_relaxed只是普通的 asm 加载和存储在所有普通 CPU 上，依赖硬件来实现内核之间的可见性，而不是手动刷新。何时在多线程中使用易失性？解释说。有一些集群或混合微控制器+DSP ARM 板具有非一致性共享内存，但我们不会跨单独的一致性域运行同一进程的线程。相反，您可以在每个集群节点上运行单独的操作系统实例。我不知道有任何 C++ 实现atomic<T>加载/存储包括手动冲洗指令。（如果有的话请告诉我。）

栅栏/屏障的工作原理是让当前线程等待

...直到通过正常机制发生所需的任何可见性。

完整屏障的简单实现（mfence or a locked 操作）的目的是停止管道，直到存储缓冲区耗尽，但高性能实现可以做得更好，并允许与内存顺序限制分开的乱序执行。

（很遗憾天湖的mfence确实完全阻止乱序执行，修复涉及从 WC 内存加载 NT 的模糊 SKL079 勘误表。但lock add or xchg或任何仅阻止稍后从读取 L1d 或存储缓冲区加载的内容，直到屏障到达存储缓冲区的末尾。和mfence在早期的 CPU 上可能也没有这个问题。）

一般来说，在非 x86 架构上（对于较弱的内存屏障有显式的 asm 指令，例如仅限 StoreStore 围栏不关心负载），原理是相同的：阻止它需要阻止的任何操作，直到该核心完成任何类型的早期操作。

全局不可见加载指令讨论负载变得全局可见意味着什么/负载数据来自哪里。
内存屏障是否确保缓存一致性已完成？
内存屏障是否既充当标记又充当指令？
何时在多线程中使用易失性？- 基本上从不，这只是你自己的一种方式std::atomic<T> with std::memory_order_relaxed因为缓存一致性。
推测执行的 CPU 分支是否可以包含访问 RAM 的操作码？- 什么是存储缓冲区以及它们存在的原因。

最终，我试图为自己回答的问题是线程 2 是否有可能在几秒钟内看不到线程 1 的写入

不，最坏情况的延迟可能类似于存储缓冲区长度（Skylake 上有 56 个条目，而 BDW 中有 42 个条目）乘以缓存未命中延迟，因为 x86 的强内存模型（无 StoreStore 重新排序）要求存储按顺序提交。但是多个缓存行的 RFO 可以同时运行，因此最大延迟可能是其 1/5（保守估计：有 10 个行填充缓冲区）。飞行中的负载（或来自其他核心）也可能存在争用，但我们只想要一个数量级的粗略数字。

假设 RFO 延迟（DRAM 或来自另一个内核）在 3GHz CPU 上为 300 个时钟周期（基本上是弥补的）。所以一个最坏的情况下延迟商店在全球范围内可见可能是这样的300 * 56 / 5= 3360 个核心时钟周期。所以在一个数量级内，最坏情况约为 1 微秒在我们假设的 3GHz CPU 上。（CPU 频率相互抵消，因此以纳秒为单位估计 RFO 延迟会更有用）。

就在那时all您的商店需要等待很长时间才能收到 RFO，因为它们all到未缓存或由其他核心拥有的位置。并且它们都不是连续的同一缓存行，因此它们都不能合并到存储缓冲区中。所以通常你会期望它会快得多。

我认为没有任何合理的机制可以让它花费一百微秒，更不用说一整秒了。

如果您的所有存储都是缓存行，而其他内核都在竞争访问同一行，则您的 RFO 可能需要比正常情况更长的时间，因此可能需要数十微秒，甚至可能是一百微秒。但这种绝对最坏的情况不会偶然发生。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如果我不使用栅栏，一个核心需要多长时间才能看到另一个核心的写入？的相关文章

SIMD 和 VLIW 指令是一样的吗？

SIMD 单指令多数据和 VLIW 超长指令字到底有什么区别其中一个是另一个的子集吗或者它们是两个完全不同的东西完全不相关且正交一台机器可以有一个或两个或者两者都没有 SIMD 指令可以作为扩展添加到 VLIW ISA 但 V
什么是浮点推测以及它与编译器的浮点模型有何不同

英特尔 C 编译器提供两个控制浮点的选项 fp 推测快速安全严格关闭 fp model 精确快速严格和源双扩展我想我明白 fp model 的作用但什么是 fp 推测以及它与 fp 模型有何关系我还没有找到任何解释这一
英特尔的最后分支记录功能是英特尔处理器独有的吗？

最后分支记录是指存储与最近执行的分支相关的源地址和目标地址的寄存器对 MSR 的集合它们受英特尔酷睿 2 英特尔至强和英特尔凌动处理器系列的支持 http css csail mit edu 6 858 2012 readings ia3
无法识别的仿真模式：MinGW32 上的 elf_i386

我正在尝试制作内核但无法链接C与程序集一起输出这ld 我收到错误无法识别的仿真模式 elf i386 我正在使用 Windows 10 专业版以及 MinGW32 和 MSYS 我正在使用的代码 link ld link ld OUT
ARM Cortex-M3 启动代码

我试图了解 STM32 微控制器的 Keil realview v4 附带的初始化代码是如何工作的具体来说我试图了解堆栈是如何初始化的 In the 文档 http infocenter arm com help index jsp t
从 DX:AX 寄存器转移到单个 32 位寄存器

我在添加 16 位乘法的乘积时遇到问题我想将一年例如 2015 年乘以 365 为此我 mov dx 0 to clear the register mov ax cx cx holds the year such as 2015
从c调用汇编函数

我试图从 c 调用汇编函数但我不断收到错误 text globl integrate type integrate function integrate push ebp mov esp ebp mov 0 edi start loop
对将英特尔傲腾 DC SSD 用作 IMDT 的额外 RAM 感到困惑吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我对英特尔傲腾 DC 有点困惑我希望我的 Optane DC 能够同时充当 DRAM 和存储一方面我了解到只有英特尔傲腾 DC 持
是否有适用于双打 (__m128d) 的 Move (_mm_move_ss) 和 Set (_mm_set_ss) 内在函数？

多年来我有几次看到 in 中的内在函数float参数被转换为 m128使用以下代码 m128 b mm move ss m mm set ss a 例如 void MyFunction float y m128 a mm move ss
将 XMM 寄存器压入堆栈

有没有办法将打包双字整数从 XMM 寄存器推送到堆栈然后在需要时将其弹出理想情况下我正在寻找通用寄存器的 PUSH 或 POP 之类的东西我已经检查了英特尔手册但我要么错过了命令要么没有或者我是否必须将值解压到通用寄存器然后推
测试 xmm/ymm 寄存器是否为零的更快方法？

It s fortunate that PTEST does not affect the carry flag but only sets the rather awkward ZF also affects both CF and ZF
mfence 和 asm 易失性 ("" : : : "内存") 的区别

据我了解 mfence是硬件内存屏障而asm volatile memory 是编译器障碍但是可以asm volatile memory 用来代替 mfence 我感到困惑的原因是这个链接 http gcc gnu org ml gc
跳转目的地太远：3 个字节

我的循环有问题其中包含的代码很长并且给了我错误jump destination too far by 3 byte s 当我删除时 mov edx offset str1 call writestring 这部分位于主过程下方它不会给出
当内存排序放宽时，C++ 延迟会增加

我在 Windows 7 64 位 VS2013 x64 发行版上尝试内存排序我想使用最快的同步来共享对容器的访问我选择了原子比较和交换我的程序产生两个线程写入器推送到向量读取器检测到这一点最初我没有指定任何内存顺序所以我假
原子 x86 指令与 MS 的 InterlockedCompareExchange 文档的对齐要求？

微软提供了InterlockedCompareExchange http msdn microsoft com en us library ms683560 28VS 85 29 aspx用于执行原子比较和交换操作的函数还有一个 Inte
对齐与未对齐 x86 SIMD 指令之间的选择

SIMD指令一般有两种类型 A 使用对齐的内存地址如果地址未在操作数大小边界上对齐则会引发一般保护 GP 异常 movaps xmm0 xmmword ptr rax vmovaps ymm0 ymmword ptr rax vmova
电路解码所需的最小输入位数

我正在学习计算机体系结构并且正在阅读有关编码器和解码器的内容在 MIPS 处理器中操作码有 6 位我想知道构建解码器来解码操作码需要多少输入位我知道解码器是一个组合电路它将二进制信息从 n 个输入线转换为最多 2 n 个唯一的输
如何使用 LOCK ASM 前缀来读取值？

我知道如何使用 LOCK 来线程安全地递增一个值 lock inc J 但是如何以线程安全的方式读取 J 或任何值 LOCK 前缀不能与 mov 一起使用如果我执行以下操作 xor eax eax lock add eax J mov J
为什么 NASM 在使用有效的指令助记符作为操作数中的符号名称方面没有问题？

我编写了以下简单程序但 nasm 拒绝编译它 section text global start start mov rax 0x01 mov rdi 0x01 mov rsi str mov rdx 0x03 syscall mov r
如何通过查看程序集来判断程序是否使用动态调度

我在 Reddit 上读过一篇文章Herb Stutter JIT 永远不会像原生一样快 http www reddit com r programming comments rr2dj herb stutter jit will neve

随机推荐

运算符 = C++ 中使用 Const 变量重载

我想知道你们是否可以帮助我这是我的 h Class Doctor const string name public Doctor Doctor string name Doctor Doctor operator const Doctor
UICollection View 与 SDWebImage 的滚动滞后

背景我搜索过SO和苹果论坛很多人谈论带有图像的集合视图单元的性能他们中的大多数人表示自从在主线程中加载图像以来滚动出现了滞后通过使用SDWebImage 图像应该在单独的线程中加载不过 iPad 模拟器中仅在横向模式下存在延迟
Django 教程，获取：reverse() 的 /admin/ 参数处的 TypeError 必须是序列

我正在学习 1 8 版本的 django 教程但遇到了一个错误我被困住了似乎无法弄清楚我以为我已经完全按照教程进行操作了我设置了以下树 dj project init py init pyc settings py setting
在 R Plotly 中使用曲面椭圆绘制 Ellipse3d

与这里的问题类似但这并没有给我确切的需要我无法弄清楚在 R 中绘制 ellipse3d 的图我想在绘图中重新创建 rgl 的 ellipse3d 和表面椭球体我知道有一个答案允许绘制椭圆体但作为单独的不透明标记我需要将其作为稍
具有更高建议缩放比例的显示器上的 RDLC 问题

我的 WPF 应用程序使用的是 net Framework 4 8 并且 RDLC 有两种用法第一个是完全获取的 ReportViewer 它使用来自 postgres 的 DataTable 第二个只是一个 LocalReport 其中
如何在不强制实现的情况下找到惰性序列的长度？

我目前正在阅读 O reilly Clojure 编程书其中关于惰性序列的部分提到了以下内容惰性序列有可能尽管非常罕见知道其长度因此将其作为计数结果返回而不了解其内容我的问题是这是如何做到的以及为什么如此罕见不幸的是本书
在java中访问网络共享文件夹（位于Windows或Linux中）的推荐方式是什么

各位请原谅我对Linux不熟悉我正在尝试读取位于 Windows 或 Linux 系统中的网络共享文件夹的所有文件目前我只是通过下面的代码使其适用于 Windows 的情况 networkShareFolder 10 50 90 18
Android SDK Windows 无法执行 Android.bat

标题可能听起来有点无聊但我向你保证事实并非如此我完全了解 cmd 中 90 的 systax 命令我可以通过 adb 安装和卸载 apk 但是这个特殊的问题总是让我退缩我已经在 Android SDK 上工作了一周或更长时间了并
显式布尔运算符错误

我得到了编译器错误 C2071当我尝试实施explicit operator bool class C public explicit operator bool const return this 为什么我怎么解决这个问题我正在使用
Flutter：在 ListView 中添加步进器时不滚动

我有 ListView 其中包含 1 横幅图片 2 带有一些文本的容器 3 带有更多文本的容器 4 容器由Stepper组成当我在点击步进器区域时尝试滚动时我无法滚动甚至步进器的最后一步也会超出屏幕添加代码 import packa
在 Python 的 NLTK 中从自定义文本生成随机句子？

我在 Python 下使用 NLTK 时遇到问题特别是 generate 方法生成自身长度 100 打印使用 trigram 语言模型生成的随机文本参数 length int The length of text to gener
验证用户输入？

我对某事感到非常困惑想知道是否有人可以解释在 PHP 中我验证用户输入因此 htmlentitiies mysql real escape string 在插入数据库之前使用而不是在所有内容上使用因为我更喜欢尽可能使用正则表达式
带接口的 Angular 6 服务

我正在使用 Angular 构建一个应用程序 6 0 7 我正在尝试使用新的服务创建服务 Injectable providedIn root 但是如何使用接口进行注入呢问题我有2个服务认证服务 and 会话存储 service 我想
内联限定符源于原型还是定义？

我对标准中的这一点不太确定假设我有三个这样的文件 foo h include
如何强制 Postgresql 用户使用密码登录

我所做的一切都在我的local机 Mac 操作系统安装postgresql后我创建了一个名为pote的用户和密码然后创建了一个名为poems的数据库该数据库的所有者是pote 我好奇的是我可以不用密码登录诗人的诗歌命令是psql
您是否将单元测试与集成测试分开？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我只是想知道是否还有其他人
Facebook 图 api 搜索结果取决于位置？

我尝试使用图形搜索 API 获取结果我注意到在我的计算机阿根廷中执行的结果与在服务器法国中运行时的结果不同是这样的吗如何强制指定搜索位置谢谢 Sascha Galley 我还找到了另一种简单的方法只需添加 locale e
为什么 minmax(0, 1fr) 对于长元素有效，而 1fr 则无效？

所以我有这个网格 div p 1000 characters long p div Inside p有一个超长的字符串没有空格 divs 是具有固定尺寸的占位符这会产生以上结果 display grid grid auto flow c
在 ajax 数组中使用 jQuery .serialize() 将 PHP $_POST 作为变量传递？

这是我用来将表单详细信息发送到 php 函数的 jQuery 代码 jQuery document ready function jQuery submit click function var str ajaxForms serializ
如果我不使用栅栏，一个核心需要多长时间才能看到另一个核心的写入？

我一直在尝试用谷歌搜索我的问题但老实说我不知道如何简洁地陈述这个问题假设我在多核英特尔系统中有两个线程这些线程在同一个 NUMA 节点上运行假设线程 1 向 X 写入一次然后偶尔向前读取它进一步假设线程 2 连续读取 X 如果

如果我不使用栅栏，一个核心需要多长时间才能看到另一个核心的写入？

栅栏/屏障的工作原理是让当前线程等待

如果我不使用栅栏，一个核心需要多长时间才能看到另一个核心的写入？ 的相关文章

随机推荐

热门标签

如果我不使用栅栏，一个核心需要多长时间才能看到另一个核心的写入？的相关文章