x86 CPU 有多少条内存屏障指令？

2023-11-22

我发现 x86 CPU 有以下内存屏障指令：mfence, lfence, and sfence.

x86 CPU 是否只有这三个内存屏障指令，还是还有更多？

sfence（上交所1）和mfence / lfence(SSE2) 是唯一以其内存栅栏/屏障功能命名的指令。除非您使用 NT 存储和/或 WC 内存（以及 NT 从 WC 加载），否则仅mfence内存排序需要。

（注意lfence在Intel CPU上也是乱序执行的障碍，因此它可以序列化rdtsc，并且对于 Spectre 缓解很有用，可以防止推测执行。在AMD上，必须设置MSR，否则lfence基本上是一个nop（4/周期吞吐量）。该 MSR 是通过 Spectre 缓解微代码更新引入的，通常由更新的内核设置。）

locked 指令如lock add [mem], eax也是满内存屏障. lock xchg 与 mfence 具有相同的行为吗？。（虽然可能不如mfence用于从 WC 内存订购 NT 加载：锁定指令是否在弱顺序访问之间提供了屏障？). xchg [mem], reg有一个隐含的lock前缀，所以它也是一个障碍。

在我对 Skylake 的测试中, locked 指令会使用此代码阻止 NT 存储与常规存储的重新排序https://godbolt.org/g/7Q9xgz.

xchg似乎是进行 seq-cst 存储的好方法，特别是在 Intel 硬件上，例如天湖在哪里mfence还阻止纯 ALU 指令的乱序执行, like lfence: See 这个答案的底部.

AMD 还建议使用xchg或其他锁定指令代替mfence. (mfence在 AMD 手册中记录为在 AND 上进行序列化，因此它总是会受到阻塞 OoO exec 的惩罚）。

对于没有 SSE 的 32 位目标上的顺序一致性存储或完全屏障，编译器通常使用lock or [esp], 0或其他无操作锁定指令just为了记忆屏障效应。就是这样g++7.3 -O3 -m32 -mno-sse does为了std::atomic_thread_fence(std::memory_order_seq_cst);.

但无论如何，都没有mfence nor locked ins 是建筑上的定义为 Intel 上的序列化，无论某些 CPU 上的实现细节如何。

完整的序列化指令，例如cpuid也是满内存屏障，排空存储缓冲区并刷新管道。lock xchg 与 mfence 具有相同的行为吗？Intel手册中有相关引用。

在 Intel 处理器上，以下是架构序列化指令（来自：https://xem.github.io/minix86/manual/intel-x86-and-64-manual-vol3/o_fe12b1e2a880e0ce-273.html):

特权序列化指令— INVD、INVEPT、INVLPG、INVVPID、LGDT、LIDT、LLDT、LTR、MOV 到控制寄存器、MOV（到调试寄存器）、WBINVD 和 WRMSR。

例外情况：MOV CR8没有序列化。WRMSRIA32_TSC_DEADLINE MSR（MSR 索引 6E0H）和 X2APIC MSR（MSR 索引 802H 到 83FH）未序列化。
Non-privileged serializing instructions — CPUID, IRET¹, and RSM

在 AMD 处理器上，以下是架构上的序列化指令：

特权序列化指令— INVD、INVLPG、LGDT、LIDT、LLDT、LTR、MOV 到控制寄存器、MOV（到调试寄存器）、WBINVD、WRMSR 和 SWAPGS。
非特权序列化指令— MFENCE、CPUID、IRET 和 RSM

Intel 处理器上的术语“[完全]序列化指令”与 AMD 处理器上的含义完全相同，除了一个区别：高速缓存行刷新操作CLFLUSH（但不是CLFLUSHOPT）仅针对后续指令进行排序MFENCE在 AMD 处理器上。

in / out（以及它们的字符串复制版本ins and outs）是完整的内存屏障，并且也是部分序列化（例如lfence）。文档称，它们会延迟执行下一条指令，直到 I/O 事务的“数据阶段”之后。

脚注：

(1) 根据BJ137(Sandy Bridge)、HSD152(Haswell)、BDM103(Broadwell)：

问题：IRET 指令导致任务切换从嵌套任务返回不会序列化处理器（与软件开发人员手册第 3 卷标题为 “序列化说明”）。

含义：依赖序列化的软件任务切换期间 IRET 的属性可能不会表现为预期的。英特尔尚未发现此错误会影响任何商业软件的操作。

解决方法：未确定。软件可以执行 MFENCE 如果序列化，则紧接在 IRET 指令之前的指令是需要的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

x86 CPU 有多少条内存屏障指令？的相关文章

OpenCV C++ 多线程

我在 4 个不同的 Mat 对象上调用了 4x 这个 opencv 图像处理函数 void processBinary Mat binaryMat image processing 我想要对其进行多线程处理以便所有 4 个方法调用同时完成
当我专门通过 Offer 和 poll 访问 LinkedList 时，它是线程安全的吗？

我有一个链接列表samples protected LinkedList
编译器在这里做了什么，允许通过很少的实际比较来完成许多值的比较？

我的问题是编译器在这种情况下正在做什么它对代码的优化程度超出了我的想象鉴于此枚举 enum MyEnum Entry1 Entry2 Entry3 27 are the same omitted for size Entry28 Ent
多处理器提升::线程？所有线程都在一个处理器上运行

我有一个令人尴尬的并行问题我想在多个处理器上执行我原以为boost thread会自动将新线程发送到新处理器但所有线程都在与父进程相同的核心上执行是否可以让每个线程在不同的处理器上运行或者我是否需要 MPI 之类的东西我的怀疑是
Pthreads PHP：并行执行 Foreach 循环

如何将核心 PHP 代码转换为 Pthread 代码我的核心 PHP 代码 require once xyz php count 0 foreach sites as site require once allsite site php
汇编器堆栈对齐（或使用 PUSH 更好的未对齐示例）

首先我了解或者我认为我了解堆栈未对齐的问题但我知道就像定义一样将 16 位值推入 32 位宽的堆栈可能会导致堆栈未对齐但我不明白的是这是怎么发生的因为PUSH and POP检查段描述符处的 D 标志 1 递增递减 32
C#：监视器 - 等待、脉冲、PulseAll

我很难理解Wait Pulse PulseAll 他们都能避免僵局吗如果您解释一下如何使用它们我将不胜感激简洁版本 lock obj 是简写Monitor Enter Monitor Exit 异常处理等如果没有其他人拥有锁您可以
如何在 gdb 中给定地址处的汇编指令上中断？

0x0000000000400448
RAM 到 RAM 的 DMA 传输

我的一个朋友告诉我在 x86 架构上 DMA 控制器无法在两个不同的 RAM 位置之间传输它只能在RAM和外设如PCI总线之间传输这是真的因为 AFAIK DMA 控制器should能够在位于总线上并具有地址的任意设备之间特别
多线程归并排序，添加额外的线程

我在java中的多线程合并排序算法中面临一个问题我应该将代码修改为 3 4 5 6 7 8 线程合并排序将原始数组划分为subArrays 目前它有2subArrays 如何将原始数组拆分为 3 4 5 6 7 8subArray是为了
如何在 Python 中使用线程？

我想要一个清晰的示例显示任务被划分到多个线程中自从 2010 年提出这个问题以来如何使用 Python 进行简单的多线程处理已经有了真正的简化map https docs python org 2 library functions
Visual C++ 只有一个线程工作 (OpenMP)

我有一个多线程应用程序的简单代码但无论我传递多少个线程它都只使用一个线程执行起初我以为是我的电脑的问题但我又尝试了另一台电脑但还是不行我是不是出了什么事我正在使用 Visual Studio 2015 如果有帮助的话 int
流行的“易失性轮询标志”模式被打破了吗？

假设我想使用布尔状态标志来进行线程之间的协作取消我意识到人们最好应该使用CancellationTokenSource反而这不是这个问题的重点 private volatile bool stopping public void Sta
如何配置和采样英特尔进程内性能计数器

简而言之我试图在用户级基准测试进程中实现以下目标伪代码假设 x86 64 和 UNIX 系统 results for iteration 0 iteration lt num iterations iteration pctr sta
为什么这个 IA32 汇编代码有 3 个 leaal 指令？

我编译了这个C函数 int calc int x int y int z return x 3 y 19 z 我在 calc s 中得到了这个我正在注释正在发生的事情 file calc c text globl calc type ca
如何防止 Parallel.ForEach 循环在运行时更改任务数量？

我正在使用Parallel ForEach循环做一些工作我用localInit像这样 localInit gt new foo new Foo bars CreateBars 根据文档 https learn microsoft com
限制并行工作的线程数量

我正在创建一个函数将文件从本地计算机复制到远程创建线程以并行执行 sftp def copyToServer does copy file given host name and credentials for i in hostsLis
减少最大值并保存其索引

int v 10 2 9 1 3 5 7 1 2 0 0 int maximo 0 int b 0 int i pragma omp parallel for shared v private i reduction max maximo
多线程：您在什么时候创建了太多线程？

我正在开发一个多线程应用程序该应用程序最初是单线程后来扩展到多线程以实现性能提升我有一个主线程它将工作分成更小的块并将其卸载到处理这些块的工作线程此部分使用信号量进行控制以在任何时间仅允许 X 个工作线程工作线程生成数据块
应用程序需要很长时间才能同步线程（或根本不同步）

我在 Delphi XE5 iOS 和 Android 中使用 REST 组件我目前正在通过 iOS 模拟器进行测试我的应用程序often挂在我的代码中的以下行 R Request Execute 经过一些调试后我发现它特别挂在 RE

随机推荐

PDO - 获取当前插入的ID

query INSERT INTO news VALUES NULL param1 param2 stmt pdo gt prepare query params array param1 gt p title param2 gt p bo
如何在指定节点TOC（.NET）上打开CHM文件

您好我需要在 NET 应用程序中实现上下文帮助我有 chm 文件我正在寻找在标准查看器中打开它的可能性并突出显示目录或索引条目所需的主题知道如何存档吗 EDIT 也许用于打开 CHM 文件的 MS 应用程序有一些允许存档的命令
使用 Pylint 显示错误和警告

所以我开始使用 Pylint 但由于我使用制表符而不是空格它给了我警告也因为一些方法来自基类它们也是 GalleryUi 的实例没有 setModel 成员而它有 QAbstractTableModel作为基类那么我如何设置 P
Solidity：如何将 bytes32 表示为字符串

这在其他语言中可能很简单但我不知道如何在 Solidity 中做到这一点我有一个bytes32像这样0x05416460deb76d57af601be17e777b93592d8d4d4a4096c57876a91c84f4a712 I
如何使用 Eclipse 编译 32 位

我目前正在我的 64 位 Ubuntu 电脑上用 C 编写一个小程序默认情况下 eclipse 会编译 64 位架构的程序因为我想在我的服务器上使用我的小程序仍然是 32 位所以我需要能够编译 32 位程序我怎样才能在日食中做到这
从其他视图拖动时检测视图上的触摸事件

如果用户触摸视图 A 并拖动到视图 B 的底部如何检测触摸事件我想检测视图 B 中的触摸事件我在视图 B 中添加了触摸监听器但如果用户最初触摸 A 并将其拖动到 B 上则不会收到事件您可以使用下面的代码来实现您的请求测试视图边
如何在 Pygame 中截取屏幕的特定部分

有没有办法可以截取 pygame 窗口右半部分的屏幕截图我正在使用 pygame 制作游戏我需要拍摄屏幕快照但不是整个屏幕只是右半部分我知道 pygame image save screen screenshot jpg 但这将包
计算地理邻近度的公式

我需要在我的应用程序中实现地理邻近搜索但我对使用的正确公式感到非常困惑经过在网络和 StackOverflow 中的一些搜索我发现解决方案是 Use the 半正矢公式 Use the Great Circle Distance Fo
.net 中的转换：本机 Utf-8 <-> 托管字符串

我创建了这两种方法来将本机 utf 8 字符串 char 转换为托管字符串反之亦然下面的代码完成了这个工作 public IntPtr NativeUtf8FromString string managedString byte buf
找不到版本 GLIBCXX_3.4.11（buildW.mexglx 需要）

我正在尝试通过 matlab 编译 C ubuntu 项目here 当我在使用 make 命令编译后尝试使用它时出现以下错误 Invalid MEX file fashionista v0 2 lib bsr buildW mexglx
从输入迭代器创建 C++ std::string 的性能

我正在做一些非常简单的事情将整个文本文件从磁盘放入std string 我当前的代码基本上是这样做的 std ifstream f filename return std string std istreambuf iterator
未找到 Android SSL 连接的信任锚

我正在尝试连接到运行 godaddy 256 位 SSL 证书的 IIS6 机器但收到错误 java security cert CertPathValidatorException Trust anchor for certificat
使用 PHP 创建 ping 正常运行时间服务

我有一台可以使用 PHP 的服务器和一个可以从 Internet ping 通的路由器我想编写一个 PHP 脚本每 5 分钟向路由器发送一次 ping 结果如下如果 ping 成功则不会发生任何事情如果 ping 失败则会等待几
当另一个视图控制器显示在 UIPresentationController 之上时，UIPresentationController 会更改大小

我正在使用 UIPresentationController 展示一个模式视图控制器我使用以下方法将presentedView 的框架设置为小于containView 的边界 override func frameOfPresentedV
mutex.Lock() 如何知道要锁定哪些变量？

我是个新手所以请温柔一点所以我已经在我的一些代码中使用互斥体几周了我理解其背后的概念锁定对特定资源的访问与其交互读或写然后再次为其他资源解锁我使用的互斥体代码主要是复制粘贴调整代码运行了但我仍在尝试了解它的内部工作原理
按日期对文件排序

我在网上找到了这个目录检查代码并稍微修改了一下这样它就会打印出添加的文件有一个浮标时不时地向我发送读数但有时连接会丢失而不是一个文件而是发送多个文件我需要该程序按创建日期对它们进行排序有没有办法做到这一点 import os
为什么 Java 和 C# 有位移运算符？

整数乘法暂时忘记除法之间的差异是否仍然有利于移位如果是的话差异有多大它看起来只是一个低级优化即使您想要它在大多数情况下 C Java 字节码编译器或 jit 不应该捕获它吗注意我测试了 C 的编译输出使用 gmcs Mo
设置 UITextField 的最大字符长度

如何设置一个文件的最大字符数UITextField当我加载一个iPhone SDK时UIView 虽然UITextField类没有最大长度属性通过设置文本字段的值来获得此功能相对简单delegate并实现以下委托方法 Objective
在运行时，如何测试属性是否是只读的？

我正在自动生成代码根据配置文本框 dateTimePickers 等创建 winform 对话框这些对话框上的控件是从保存的数据集填充的需要设置和获取各种控制对象自定义或其他的属性 Upon opening of form p
x86 CPU 有多少条内存屏障指令？

我发现 x86 CPU 有以下内存屏障指令 mfence lfence and sfence x86 CPU 是否只有这三个内存屏障指令还是还有更多 sfence 上交所1 和mfence lfence SSE2 是唯一以其内存栅栏屏障

x86 CPU 有多少条内存屏障指令？

x86 CPU 有多少条内存屏障指令？ 的相关文章

随机推荐

热门标签

x86 CPU 有多少条内存屏障指令？的相关文章