加载和存储是唯一需要重新排序的指令吗？

2023-11-24

我读过很多关于内存排序的文章，它们都只说 CPU 重新排序加载和存储。

CPU（我对 x86 CPU 特别感兴趣）是否只重新排序加载和存储，而不重新排序它拥有的其余指令？

乱序执行保留了按程序顺序运行的错觉对于单线程/核心。这就像C/C++ as-if 优化规则：只要可见效果相同，内部就可以做任何你想做的事。

Separate threads can only communicate with each other via memory, so the global order of memory operations (loads/stores) is the only externally visible side-effect of execution¹.

即使有序的 CPU 也可能使其内存操作变得全局可见且无序。（例如，即使是带有存储缓冲区的简单 RISC 管道也会进行 StoreLoad 重新排序，如 x86）。按顺序启动加载/存储但允许它们无序完成（以隐藏缓存未命中延迟）的 CPU 也可以重新排序加载，如果它没有专门避免它（或者像现代 x86 一样，积极地执行无序）顺序但假装它没有通过仔细跟踪内存顺序）。

一个简单的例子：两个 ALU 依赖链可以重叠

（有关的：http://blog.stuffedcow.net/2013/05/measuring-rob-capacity/有关查找指令级并行性的窗口有多大的更多信息，例如如果你把这个增加到times 200你只会看到有限的重叠。还相关：我写的这个初级到中级的答案关于像 Haswell 或 Skylake 这样的 OoO CPU 如何发现和利用 ILP。）

也可以看看现代微处理器 90 分钟指南！深入了解超标量和乱序执行 CPU。

为了更深入地分析影响lfence在这里，参见了解 lfence 对具有两个长依赖链的循环的影响，以增加长度

global _start
_start:
    mov  ecx, 10000000
.loop:
    times 25 imul eax,eax   ; expands to imul eax,eax  / imul eax,eax / ...
 ;   lfence
    times 25 imul edx,edx
 ;   lfence
    dec  ecx
    jnz  .loop

    xor  edi,edi
    mov  eax,231
    syscall          ; sys_exit_group(0)

建造（与nasm + ld）到 x86-64 Linux 上的静态可执行文件中，这在每个链的预期 750M 时钟周期内运行（在 Skylake 上）25 * 10Mimul 指令乘以 3 个周期延迟。

评论其中之一imul链不会改变运行所需的时间：仍然是 750M 周期。

这是两个依赖链交错执行乱序的明确证明，否则。 (imul吞吐量为每个时钟 1 个，延迟为 3 个时钟。http://agner.org/optimize/。因此，可以混合第三个依赖链，而不会减慢太多速度）。

实际数字来自taskset -c 3 ocperf.py stat --no-big-num -etask-clock,context-switches,cpu-migrations,page-faults,cycles:u,branches:u,instructions:u,uops_issued.any:u,uops_executed.thread:u,uops_retired.retire_slots:u -r3 ./imul:

与两个 imul 链：750566384 +- 0.1%
仅使用 EAX 链：750704275 +- 0.0%
与一个times 50 imul eax,eax chain: 1501010762 +- 0.0%（几乎是预期的两倍慢）。
with lfence防止每个 25 块之间重叠imul: 1688869394 +- 0.0%，比慢两倍还差。uops_issued_any and uops_retired_retire_slots都是 63M，高于 51M，而uops_executed_thread仍然是51M（lfence不使用任何执行端口，但显然有两个lfence每条指令花费 6 个融合域微指令。 Agner Fog 只测得 2。）

(lfence串行化指令执行，但不是内存存储）。如果您没有使用 WC 内存中的 NT 加载（这不会意外发生），则除了停止执行后续指令直到前面的指令“本地完成”之外，它是一个无操作。即直到他们retired来自无序核心。这可能就是为什么它的总时间增加了一倍以上：它必须等待最后一个imul在一个块中经历更多的管道阶段。）

lfence在英特尔上总是这样，但是开启并且仅在启用 Spectre 缓解的情况下进行部分序列化.

脚注1：当两个逻辑线程共享一个物理线程（超线程或其他 SMT）时，还有计时侧通道。例如执行一系列独立的imul如果其他超线程不需要端口 1 进行任何操作，则指令将在最新的 Intel CPU 上以每个时钟 1 的速度运行。因此，您可以通过对一个逻辑核心上的 ALU 绑定循环进行计时来测量端口 0 的压力有多大。

其他微架构侧通道（例如缓存访问）更加可靠。例如，Spectre / Meltdown 最容易利用缓存读取侧通道（而不是 ALU）来利用。

但与架构支持的共享内存读/写相比，所有这些侧通道都非常挑剔且不可靠，因此它们仅与安全相关。它们不是故意在同一程序中用于线程之间的通信。

Skylake 上的 MFENCE 是一个像 LFENCE 一样的 OoO 执行屏障

mfenceSkylake 意外阻止乱序执行imul, like lfence，尽管没有记录表明有这种效果。（有关更多信息，请参阅移至聊天讨论）。

xchg [rdi], ebx（隐式lock前缀）根本不会阻止 ALU 指令的无序执行。替换时总时间仍为750M Cycleslfence with xchg or a lock上述测试中的 ed 指令。

但与mfence，成本高达 1500M 周期 + 2 的时间mfence指示。为了进行对照实验，我保持指令计数相同，但移动了mfence指令彼此相邻，因此imul链之间可以重新排序，时间下降到750M + 2的时间mfence指示。

Skylake 的这种行为很可能是微代码更新修复的结果勘误表 SKL079, 来自 WC 内存的 MOVNTDQA 可能会通过早期的 MFENCE 指令。勘误表的存在表明，以前可以执行后面的指令mfence已完成，所以他们可能进行了暴力修复添加lfenceuop 到微码mfence.

这是有利于使用的另一个因素xchg对于 seq-cst 存储，甚至lock add将某些堆栈内存作为独立的屏障。Linux 已经做了这两件事，但编译器仍然使用mfence为障碍。看为什么具有顺序一致性的 std::atomic 存储使用 XCHG？

（另请参阅关于 Linux 屏障选择的讨论此 Google 网上论坛帖子，包含 3 个单独的使用建议的链接lock addl $0, -4(%esp/rsp)代替mfence作为一个独立的屏障。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

加载和存储是唯一需要重新排序的指令吗？的相关文章

用于预乘 ARGB 的 SSE alpha 混合

我正在尝试编写一个支持 SSE 的 alpha 合成器这就是我想出的首先混合两个 4 像素向量的代码 alpha blend two 128 bit 16 byte SSE vectors containing 4 pre multi
为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
Intel 64 和 IA-32 上的 MESI 有何意义

MESI 的要点是保留共享内存系统的概念然而对于存储缓冲区事情就变得复杂了一旦数据到达 MESI 实现的缓存下游内存就会保持一致然而在此之前每个核心可能对内存位置 X 中的内容存在分歧具体取决于每个核心的本地存储缓冲区中的
如何知道寄存器是否是“通用寄存器”？

我试图了解寄存器必须具备什么标准才能被称为通用寄存器我相信通用寄存器是一个可以用于任何用途的寄存器用于计算将数据移入移出等并且是一个没有特殊用途的寄存器现在我读到了ESP寄存器是通用寄存器我猜是ESP寄存器可以用于任何事情
为什么如果内存组织为字，则程序计数器加 1；如果内存组织为字节，则程序计数器加 2？

如果在计算机中一条指令是 16 位并且如果存储器被组织为 16 位字则通过在当前指令的地址中加 1 来计算下一条指令的地址如果内存是按字节组织的可以单独寻址那么我们需要在当前指令地址上加二得到顺序执行的下一条指令的地址为什么会
AVX-512 指令编码 - {er} 含义

在 Intel x86 指令集参考中有许多 AVX 512 指令在指令中具有可选的 er 例如 VADDPD 的一种形式定义为 EVEX NDS 512 66 0F W1 58 r VADDPD zmm1 k1 z zmm2 zmm3 m
设置 IRQ 映射

我正在遵循一些教程和参考文献来尝试设置我的内核我在教程中遇到了一些不熟悉的代码但根本没有解释它这是我被告知映射的代码16 IRQs 0 15 到 ISR 地点32 47 void irq remap void outportb 0x2
为什么我的代码显示垃圾？

当我也想打印列表中的每个数字时我的代码显示垃圾有什么问题吗输出应如下所示给定的数组是 2G 4 PT为什么这是垃圾总数是 7 Code ASSUME CS CODE DS DATA SS STK ORG 0000H DATA SEG
为什么 Linux perf 使用事件 l1d.replacement 来处理 x86 上的“L1 dcache misses”？

在英特尔 x86 上 Linux用途 https stackoverflow com a 52172985 149138事件l1d replacements来实施其L1 dcache load misses event 该事件定义如下计数
movzbl(%rdi, %rcx, 1), %ecx 在 x86-64 汇编中意味着什么？

我想我明白 movzbl rdi rcx 1 ecx 意思是将零扩展字节移至长整型并表示将 ecx 扩展为 32 位但我不完全确定语法 rdi rcx 1 指的是什么我在某处看到该语法指的是 Base Index Scale 但我找
当前的 x86 架构是否支持非临时加载（来自“正常”内存）？

我知道有关此主题的多个问题但是我没有看到任何明确的答案或任何基准测量因此我创建了一个处理两个整数数组的简单程序第一个数组a非常大 64 MB 第二个数组b很小无法放入 L1 缓存程序迭代a并将其元素添加到相应的元素中b在模块化
_mm_max_ss 在 clang 和 gcc 之间有不同的行为

我正在尝试使用 clang 和 gcc 交叉编译一个项目但在使用时发现一些奇怪的差异 mm max ss e g m128 a mm set ss std numeric limits
各种中断的区别：SCI、SMI、NMI、普通中断

我正在学习英特尔架构到目前为止我遇到过几种类型的中断 SCI 系统控制中断硬件使用的系统中断用于向操作系统通知 ACPI 事件 SCI 是一个有效低电平可共享的电平中断 SMI 系统管理中断由遗留系统上的中断事件生成的操作系统透
在 Intel x86 架构上使用非 AVX 指令移动 xmm 整数寄存器值

我有以下问题需要使用 AVX2 以外的任何工具来解决我有 3 个值存储在 m128i 变量中不需要第四个值需要将这些值移动 4 3 5 我需要两个功能一个用于按这些值进行右逻辑移位另一个用于左逻辑移位有谁知道使用 SSE AV
当 mov 指令导致页面错误并且在 x86 上禁用中断时会发生什么？

我最近在自定义 Linux 内核 2 6 31 5 x86 驱动程序中遇到一个问题其中 copy to user 会定期不将任何字节复制到用户空间它将返回传递给它的字节数表明它没有复制任何内容经过代码检查我们发现代码在调用 cop
对将英特尔傲腾 DC SSD 用作 IMDT 的额外 RAM 感到困惑吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我对英特尔傲腾 DC 有点困惑我希望我的 Optane DC 能够同时充当 DRAM 和存储一方面我了解到只有英特尔傲腾 DC 持
x86 asm 图形设置的分辨率高于 640x480？

我刚刚开始使用汇编语言感觉像学习新东西并且遇到了一些问题到目前为止我一直在浏览的所有教程都没有回答或者太旧而无法知道 1 我尝试了一些搜索也许我只是不知道正确的关键字但我找不到用于更改屏幕分辨率等的图形模式的更新列表我发现的
汇编语言程序中连续两次相乘

我正在使用 8086 模拟器以及 DOSBOX 和 MASM 我知道当我们将 8 位与 8 位相乘时答案将是 16 位 al 8 bit ax 当我们将 16 位与 16 位相乘时答案将是 32 位 ax 16 bit dx ax 但如
测试 xmm/ymm 寄存器是否为零的更快方法？

It s fortunate that PTEST does not affect the carry flag but only sets the rather awkward ZF also affects both CF and ZF
如何在 AVX/AVX2 中递增向量

我想使用内在函数来增加 SIMD 向量的元素最简单的方法似乎是为每个元素加 1 如下所示 note vec inc之前已设置为1 vec mm256 add epi16 vec vec inc 但是是否有任何特殊指令来增加向量类似于in

随机推荐

如何将文本添加到 pygame 矩形中

我已经在 pygame 中绘制了一个矩形但是我需要能够将 Hello 之类的文本放入该矩形中我怎样才能做到这一点如果您也能解释一下将不胜感激谢谢这是我的代码 import pygame import sys from pygam
如何使用java生成像apache的htpasswd这样的哈希值

我在 htpasswd 中使用强制对密码进行 MD5 加密来生成哈希例如我得到的 123 使用 htpasswd 123 gt apr1 kaTbKaLO ewJXRZAKpjaxK4thy2jOp 使用 MD5 摘要 123 gt
如何检查列表是否包含相同顺序的另一个列表

C 中有没有简单的方法来检查列表是否包含另一个列表这是一个例子我有 var list1 new List
虚拟/纯虚拟解释

如果一个函数被定义为虚函数到底意味着什么它与纯虚函数相同吗 From 维基百科的虚函数在面向对象编程中在 C 和 Object Pascal 等语言中虚函数或虚方法是可继承且可重写的函数或方法便于动态分派这个概念是面向对象编程
JavaFX 的 Spinner 在空文本输入上引发 NullPointerException

我有一个问题可编辑的 JavaFX 8Spinner导致未捕获NullPointerException如果清除编辑器文本并提交然后单击递增或递减按钮这是j8u60 j8u77 如果运气好的话递增递减按钮将卡在按下状态 NPE 会继
如何在 Xcode 4 中打开内存浏览器？

在 Xcode 3 中调试程序时我经常在单独的窗口中使用内存浏览器来查看缓冲区更改的内容同时单步执行代码行当我现在开始使用 Xcode 4 时我想知道如何打开内存浏览器我在用户界面中找不到类似的东西有人可以提供帮助吗调试时选择
Android 10 无法注册 Sensor.TYPE_STEP_COUNTER

我目前正在开发一个应用程序来跟踪步骤为了跟踪步骤我使用手机的以下传感器传感器 TYPE STEP COUNTER 这对于我测试过的所有设备都运行良好最近我有机会在三星 S10 设备上测试该应用程序但它不再跟踪步骤而它在三星 S9
HTML5 视频：可以在视频上放置常规 html 内容

只是想知道是否有人知道让常规 html 内容主要是 img 标签显示在视频顶部通过 video 标签的技巧正如其他人所暗示的将 HTML 元素放置在VIDEO使用绝对定位的元素当您尝试在 iPhone iPod 和可能较旧的
如何在 Visual Studio 中提取默认控件模板？

我想知道如何使用 Visual Studio 提取获取副本给定控件的默认模板我知道这可以使用 Expression Blend 来完成右键单击控件编辑模板 gt 编辑副本然后将默认控件模板复制到我的 Xaml 中但这可以用 V
POST 和 PUT 的不同模型要求

假设我有一个控制器CatController包括 GET POST 和 PUT 操作他们都使用相同的Cat资源可能如下所示 public class CatDto public int Id get set Required public
为什么 hazelcast 的默认分区数为 271？选择分区数的参数是什么？

我刚刚浏览了 hazelcast 文档它表明数据跨所有节点进行分区默认情况下在集群 271 中创建的分区数哪些参数控制正确分区计数值的选择为什么默认分区数是 271 271 是质数给定任何键 Hazelcast 都会对键进行哈希处
Jenkins：开始构建时发送电子邮件通知

在 Jenkins 中有没有办法在开始构建时发送邮件我知道有一个构建后电子邮件通知它会在构建成功或失败后向给定收件人发送邮件同样我期待类似预构建通知之类的东西还有一个条件电子邮件例如 if username null 发送至
我的智能手机每秒可以执行多少次 FFT？（用于执行语音识别）

我正在探索语音识别和 DSP 因此我想在我的智能手机上实现一个简单的声音频率分析仪我有一部 iPhone 和一部运行 Android 的三星 Nexus S 我以前在Matlab中做过基本的DSP 根据我的理解我需要执行 FFT 来获取
如何使用 UWP MarkupExtension 类？

Fall Creators 更新 SDK 添加了标记扩展类非常棒 https learn microsoft com en us uwp api windows ui xaml markup markupextension 所以我创建了一
创建交互式应用程序原型的最佳方法是什么？

这个问题应该从一般的角度来解释而不是仅仅针对网络应用程序或桌面应用程序我一直在寻找一种简单易用的方法来为 Web 应用程序创建交互式原型我想使用一种技术允许简单的 UI 创建特别是在进一步迭代中重新创建和修改 UI 用模型数据填充
android：TimePickerDialog 阻止用户选择过去的时间，并可以选择具有新日期的未来时间

我正在使用这个链接Android TimePickerDialog 设置最大时间我是安卓新手借助此代码我无法选择过去的时间但我们无法选择未来的时间当在时间选择器对话框模式中选择 12 时根据第二天而不是过去的一天自动更改为 am
AngularJS：扩展输入指令

我想知道是否可以扩展 Angular 的输入指令我想将一些侦听器附加到页面上的所有输入字段我认为你可以用以下方式装饰现有模块 provide decorate 但我不知道如何使用指令更准确地说是输入指令来做到这一点那么有人能把我
如何将wav文件转换为浮动幅度

所以我问了标题中的所有内容我有一个 wav 文件由 PyAudio 从输入音频编写我想将其转换为与声级振幅相对应的浮点数据以进行一些傅里叶变换等有人有将 WAV 数据转换为 float 的想法吗我已经找到了两种不错的方法来做
Java中的字符串和字符数组

我是一名刚从C 转向Java的学生在 Java 中为 String 和 Char 数组定义单独的数据类型的主要原因是什么两者有什么区别由于我只学过C 到目前为止我的印象是它们是同一件事如果可能的话请澄清 String是不可变的 C
加载和存储是唯一需要重新排序的指令吗？

我读过很多关于内存排序的文章它们都只说 CPU 重新排序加载和存储 CPU 我对 x86 CPU 特别感兴趣是否只重新排序加载和存储而不重新排序它拥有的其余指令乱序执行保留了按程序顺序运行的错觉对于单线程核心这就像C C as

加载和存储是唯一需要重新排序的指令吗？

Skylake 上的 MFENCE 是一个像 LFENCE 一样的 OoO 执行屏障

加载和存储是唯一需要重新排序的指令吗？ 的相关文章

随机推荐

热门标签

加载和存储是唯一需要重新排序的指令吗？的相关文章