Intel 64 和 IA-32 上的 MESI 有何意义

2024-05-09

MESI 的要点是保留共享内存系统的概念。
然而，对于存储缓冲区，事情就变得复杂了：
一旦数据到达 MESI 实现的缓存，下游内存就会保持一致。
然而，在此之前，每个核心可能对内存位置 X 中的内容存在分歧，具体取决于每个核心的本地存储缓冲区中的内容。
因此，从每个核心的角度来看，内存的状态似乎是不同的——它是不连贯的。
那么，为什么我们要“部分地”强制执行与 MESI 的一致性呢？

Edit:在进一步缩小真正让我困惑的内容之后，进行了实质性的编辑。我试图保持问题的一般概念不变，以保留收到的优秀答案的相关性。

x86 上的 MESI 的目的与几乎任何多核/CPU 系统上的相同：强制缓存一致性。 x86 上等式的缓存一致性部分没有使用“部分一致性”：缓存是完全连贯。那么，可能的重新排序是一致的缓存系统以及与核心本地组件（例如加载/存储子系统（尤其是存储缓冲区）和其他无序机器）交互的结果。

The result of that interaction is the architected strong memory model that x86 provides, with only limited re-ordering. Without coherent caches, you couldn't reasonably implement this model at all, or almost any model that was anything other than completely weak¹.

Your question seems to embed the assumption that there are only possible states "coherent" and "everything every else". Also, there is some mixing of the ideas of cache coherency (which mostly deals with the caches specifically, and is mostly a hidden detail), and the memory consistency model which is architecturally defined and will be implemented by each architecture². Wikipedia explains https://en.wikipedia.org/wiki/Cache_coherence that one difference between cache coherency and memory consistency is that the rules for the former applies only to one location at a time, whereas consistency rules apply across locations. In practice, the more important distinction is that the memory consistency model is the only architecturally documented one.

Briefly, Intel (and AMD likewise) define a specific memory consistency model, x86-TSO3 https://www.cl.cam.ac.uk/~pes20/weakmemory/cacm.pdf - which is relatively strong as far as memory models go, but is still weaker than sequential consistency https://en.wikipedia.org/wiki/Sequential_consistency. The primary behaviors weakened compared to sequential consistency are:

较晚的负载可以通过较早的商店。
该存储可以以与总存储顺序不同的顺序看到，但只能由执行其中一个存储的核心看到。

订购至实施这种记忆模型，各个部分必须按规则发挥才能实现它。在所有最新的 x86 上，这意味着有序的加载和存储缓冲区，从而避免不允许的重新排序。使用存储缓冲区会导致上述两种重新排序：如果不允许这些重新排序，实现将受到很大限制，并且可能会慢得多。实际上，这也意味着完全一致的数据缓存，因为如果没有它，许多保证（例如，没有加载-加载重新排序）将很难实现。

总结一下：

内存一致性与缓存一致性不同：前者是有文档记录的，并且构成编程模型的一部分。
在实践中，x86 实现有完全一致的缓存，这有助于他们实现 x86-TSO 内存模型，该模型相当强大，但弱于顺序一致性。
Finally, perhaps the answer you were looking for, in different words: a memory model weaker than sequential consistency is still very useful since you can program against it, and in the case you need sequential consistency for some particular operations(s) you insert the right memory barriers⁴.
如果您针对语言提供的内存模型进行编程，例如Java's https://en.wikipedia.org/wiki/Java_memory_model or C++11's http://en.cppreference.com/w/cpp/language/memory_model您无需担心硬件细节，而不必担心语言内存模型，编译器会插入将语言内存模型语义与硬件匹配所需的障碍。硬件模型越强大，所需的障碍就越少。

¹ If your memory model was completely weak, i.e., not really placing any restrictions on cross-core reordering, I suppose you could implement it directly on a non-cache coherent system in a cheap way for normal operations, but then memory barriers potentially become very expensive since they would need to flush a potentially large part of the local private cache.

² Various chips may implement in differently internally, and in particular some chips may implement stronger semantics than the model (i.e., some allowed re-orderings can never be observed), but absent bugs none will implement a weaker one.

³ This is the name given to it in that paper, which I used because Intel themselves doesn't give it a name, and the paper is a more formal definition than the one Intel gives a less formal model as a series of litmus tests.

⁴ It practice on x86 you usually use locked instructions (using the lock prefix) rather than separate barriers, although standalone barriers exist also. Here's I'll just use the term barries to refer to both standalone barriers and the barrier semantics embedded into locked instructions.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Intel 64 和 IA-32 上的 MESI 有何意义的相关文章

与通道相比，sync.WaitGroup 的优势是什么？

我正在开发一个并发 Go 库我偶然发现了 goroutine 之间两种不同的同步模式其结果相似等待组 https play golang org p ZYPLlcp16TZ package main import fmt sync t
具有独特矩阵转置问题的 2D 分块

我有类型的复杂值数据struct complex double real 0 0 double imag 0 0 以 3 阶张量的形式组织底层容器具有与内存页边界对齐的连续内存布局 The natural slicing directio
PAE（物理地址扩展）如何实现大于4GB的地址空间？

维基百科文章的摘录物理地址扩展 http en wikipedia org wiki Physical Address Extension x86 处理器硬件架构通过用于选择附加内存的附加地址线进行了增强因此物理地址大小从 32 位增加到
D 并发写入缓冲区

假设您有一个大小为 N 的缓冲区必须将其设置为确定的值例如零或其他值缓冲区中的此值设置分为 M 个线程每个线程处理缓冲区的 N M 个元素缓冲区不能immutable 因为我们改变了值消息传递也不起作用因为禁止传递 ref 或
long double（GCC 特定）和 __float128

我正在寻找有关的详细信息long double and float128在 GCC x86 中更多是出于好奇而不是因为实际问题可能很少有人需要这些我只是有史以来第一次 truly需要一个double 但我想知道你的工具箱里有什么以及它
在S3客户端android中制作私有图像的ImageGallery

我正在尝试在 Android 应用程序中创建 S3 Bucket 的 imageGallery 我的图像是私人的所以我不会为每个图像提供任何特定的链接对于此类私人图像亚马逊有一个链接生成器 s3Client generatePresi
在 x86 程序集中打印寄存器值的简单方法

我需要在 8086 Assembly 中编写一个程序接收来自用户的数据进行一些数学计算并在屏幕上打印答案我已经编写了程序的所有部分并且一切正常但我不知道如何打印号码显示到屏幕上在我所有计算结束时答案是 AX 它被视为无符号 16
让浏览器缓存我的动态 PHP 样式表

我想在 PHP 文件 styles php 中创建一个样式表以便样式表变得动态具体取决于请求的用户对于每个单独的用户来说样式表是不变的因此应该缓存在他的客户端浏览器上我读过您可以通过设置内容类型和缓存控制等标头来实现此目的但
寻找简单的Java内存缓存[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个简单的Java内存缓存它具有良好的并发性因此LinkedHashMap不够好并且可以
难以理解汇编命令“加载有效地址”[重复]

这个问题在这里已经有答案了可能的重复 LEA 指令的目的是什么 https stackoverflow com questions 1658294 whats the purpose of the lea instruction LEA指
对将英特尔傲腾 DC SSD 用作 IMDT 的额外 RAM 感到困惑吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我对英特尔傲腾 DC 有点困惑我希望我的 Optane DC 能够同时充当 DRAM 和存储一方面我了解到只有英特尔傲腾 DC 持
cudaDeviceScheduleBlockingSync 和 cudaDeviceScheduleYield 之间有什么区别？

正如这里所说如何减少 CUDA 同步延迟延迟 https stackoverflow com questions 11953722 how to reduce cuda synchronize latency delay 等待设备结果有
如何让BackgroundWorker返回一个对象

我需要做RunWorkerAsync 返回一个List
无法禁用 jQuery 缓存

Update 我发现这一定是缓存问题但我无法关闭缓存这是我更改后的脚本
ArrayDeque 和 LinkedBlockingDeque

只是想知道为什么他们做了一个LinkedBlockingDeque而同一个非并发对应物是ArrayDeque它基于可调整大小的数组 LinkedBlockingQueue使用一组节点例如LinkedList 尽管没有实施List 我知道可
如何读取 UDP 连接直至超时？

我需要读取 UDP 流量直到超时我可以通过在 UDPConn 上调用 SetDeadline 并循环直到出现 I O 超时错误来做到这一点但这看起来很黑客基于错误条件的流量控制下面的代码片段看起来更正确但并没有终止在生产中这
如何告诉 OkHttpClient 忽略缓存并强制从服务器刷新？

在我的 Android 应用程序中我将 Retrofit 与 OkHttpClient 结合使用并启用缓存来访问某些 API 我们的一些 API 有时会返回空数据我们在应用程序中提供了一个刷新按钮供客户端从特定 API 重新加载
Java HashSet 是线程安全的只读吗？

如果我通过 Collections unmodifyingSet 运行 HashSet 实例后它是线程安全的吗我问这个是因为 Set 文档声明它不是但我只是执行读取操作来自 Javadoc 请注意此实现不是同步的如果多个线程同时
如果默认禁用 A20 线，如何在 0xFFFFFFF0 处访问 BIOS ROM？

我正在阅读有关 A20 线的信息http wiki osdev org A20 Line http wiki osdev org A20 Line 这似乎表明 A20 线默认被禁用在Pentium上如果硬复位后立即输出的地址为0xFFF
如何在 AVX/AVX2 中递增向量

我想使用内在函数来增加 SIMD 向量的元素最简单的方法似乎是为每个元素加 1 如下所示 note vec inc之前已设置为1 vec mm256 add epi16 vec vec inc 但是是否有任何特殊指令来增加向量类似于in

随机推荐

当您更新 iOS 应用程序时，文档文件夹内容会发生什么变化？

当我更新在文档文件夹中存储了一些文件的应用程序时会发生什么情况我需要将这些文件保存在该文件夹中以便更新的应用程序能够使用它们但这似乎并没有发生我可以设法保存所有文件吗您的文档将保留在原处除非用户在更新之前删除应用程序但这
JAX-RS 多态 POST 请求：我应该如何编写 JSON？

我在尝试用 JAX RS 解决这个问题时遇到了麻烦我相信它与编组解组过程有关我认为我对此不太了解并且我想重新创建这个发帖的 REST 端点是 rest register 所以我的服务定义如下 ApplicationPath res
使用 Netty 将 websocket 与在 tomcat 中运行的 Spring Web 应用程序集成

我有一个使用 Netty 的 Web 套接字服务器实现例如监听端口 8081 和一个在 Tomcat 中运行的单独的 Spring Web 应用程序在端口 80 中运行我想以某种方式将所有来自 localhost 80 Websock
如何在Pycharm中运行Tensorflow GPU？

我想在 Linux Mint 上的 Pycharm 中运行 Tensorflow GPU 我尝试了一些像这样的指南 https medium com p venkata kishore install anaconda tenserflow
不必要的包含文件是否会产生开销？

我看到了几个关于如何检测 C 项目中不必要的 include 文件的问题这个问题经常引起我的兴趣但我一直没有找到满意的答案如果包含一些未在 C 项目中使用的头文件这是一种开销吗我理解这意味着在编译之前所有头文件的内容将被复制到包
有没有办法让 npm install （命令）在代理后面工作？

阅读有关代理变量的信息 npmrc文件但它不起作用尽量避免手动下载所有需要的包并安装我这样解决了这个问题我运行这个命令 npm config set strict ssl false 然后将 npm 设置为使用 http 而不是 h
使用 slick 3.0.0-RC1 无法在 TableQuery 上找到方法结果

我正在尝试 Slick3 0 0 RC1我遇到了一个奇怪的问题这是我的代码 import slick driver SQLiteDriver api import scala concurrent ExecutionContext Imp
调整输入字段的宽度以适应其输入
Set 内元素的 Hibernate 标准

我有一个实体其中包含一组另一个实体 Entity1 包含集合EntityTwos 我想为entityTwos 中的 id 字段创建搜索条件我搜索过但没有得到任何答案有人有主意吗谢谢斯里很容易就像是 criteria crea
使用 ggplot_build 和 ggplot_gtable 后使用 ggsave 保存图形

我正在通过更改 ggplot build 生成的数据来修改使用 ggplot 构建的图表原因类似于包括 geom boxplot 中填充美学中使用的缺失因子水平的空间 https stackoverflow com questions 1
没有@Id的休眠/持久化

我有一个数据库视图它生成的结果集没有真正的主键我想使用 Hibernate Persistence 将此结果集映射到 Java 对象当然因为没有PK 所以我不能用 Id 部署时 Hibernate 抱怨缺少 Id 我该如何解决这个问
如何使用 javascript 从 UUID v1 (TimeUUID) 中提取时间戳？

我使用 Cassandra DB 和 Nodejs 的 Helenus 模块来操作它我有一些包含 TimeUUID 列的行如何在javascript中从TimeUUID获取时间戳这个库 UUID 至今 https github com
PDOException SQLSTATE[HY000] [2002] 我的本地计算机上的连接超时

最近我从服务器导入了代码但本地代码无法连接到远程 mysql 数据库所以我有两个问题我可以访问我的远程数据库吗如果是为什么我的代码不起作用如果没有有没有办法绕过这个问题我不想复制在本地计算机上运行的 mysql 数据库我的
可以在不填充数据的情况下创建 BigQuery 表/架构吗？

是否可以在不先用数据填充的情况下创建表模式最好使用 Google 的 python 客户端谷歌的文档似乎没有提供明确的是或否的答案他们建议创建一个表 https cloud google com bigquery docs table
如何刷新幻灯片放映中的活动幻灯片？

基于我的最后一个问题 https stackoverflow com questions 14503054 change the image of an image shape我得到了正确的代码来更改形状的图像不幸的是这不会更新活动演示
Windows 内存映射文件

我正在尝试研究 Windows 内核在内存映射文件虚拟内存方面的行为具体来说我感兴趣的是确定内存映射文件的内容由 Windows 刷新到磁盘的频率以及 Windows 使用什么标准来决定是时候这样做我在网上做了一些研究除了 MS
Django 找不到记录器“城市”的处理程序

我正在尝试设置 Django Citieshttps github com coderholic django cities https github com coderholic django cities使用以下命令 sudo pyth
文本末尾的空格在右对齐 UITextField 中不可见

我有一个右对齐的UITextField 最初编辑时文本末尾不会出现空格我用这个解决了this https stackoverflow com q 19569688 1971013 替换与不间断的 u00a0 然而上面仅在编辑文本字段
在初始化程序中重新加载命名空间常量

今天遇到一个有趣的情况我不确定如何解决给定一个带有初始化器的 Rails 应用程序 file config initializers integrations rb Integrations CONFIGS key gt value f
Intel 64 和 IA-32 上的 MESI 有何意义

MESI 的要点是保留共享内存系统的概念然而对于存储缓冲区事情就变得复杂了一旦数据到达 MESI 实现的缓存下游内存就会保持一致然而在此之前每个核心可能对内存位置 X 中的内容存在分歧具体取决于每个核心的本地存储缓冲区中的

Intel 64 和 IA-32 上的 MESI 有何意义

Intel 64 和 IA-32 上的 MESI 有何意义 的相关文章

随机推荐

热门标签

Intel 64 和 IA-32 上的 MESI 有何意义的相关文章