为什么需要对 μop 进行分层？

2023-12-21

In “Intel CPU 中的 MicroFusion。”作者：丹尼斯·巴赫瓦洛夫 https://easyperf.net/blog/2018/02/15/MicroFusion-in-Intel-CPUs，他说：

Unlamination for SandyBridge is described in Intel® 64 and IA-32 Architectures Optimization Reference Manual in chapter “2.3.2.4: Micro-op Queue and the Loop Stream Detector (LSD)”:

微操作队列为某些指令类型提供解码后功能。特别是，与计算操作和所有存储相结合的加载，当与索引寻址一起使用时，在解码器或解码 ICache 中表示为单个微操作。在微操作队列中，它们通过称为取消分层的过程被分成两个微操作，一个执行加载，另一个执行操作

And in 黑客新闻主题 https://news.ycombinator.com/item?id=16304415#16305542，BeeOnRope 指出：

当指令在解码时融合，但在重命名之前“未层压”时，它通常具有与根本不融合类似的性能（但它确实节省了 uop 缓存中的空间），因为 RAT 更有可能成为性能限制。

在这种情况下，为什么要使用未层压代替指令解码时使用更多μops？看起来没有必要吗？

还是因为给定的μop是否应该unlamination在解码阶段是不确定的，需要根据运行时的CPU使用情况动态确定？

微融合+非层压在大部分前端都获得了微融合的吞吐量优势，只是在问题/重命名时失去了它。如果没有这种好处，更多的代码可能会在管道的早期部分遇到瓶颈，尤其是传统解码，其中任何多微指令指令都必须在一个“复杂”解码器中解码，而不是在任何“简单”解码器中解码。https://www.realworldtech.com/sandy-bridge/4/ https://www.realworldtech.com/sandy-bridge/4/

Sandybridge-family simplified the uop format for the out-of-order parts of the back-end (ROB and RS)¹; fewer transistors for the same number of ROB entries saves power in a power-intensive part of the CPU. The ROB has to keep track of whether both uops have finished executing, and is dealing with physical register numbers since register-rename has already happened on issue/rename/allocate.

对我来说，解码是值得的vaddps ymm0, ymm1, [rdi+rdx*4]到解码器和微指令缓存中的单个微指令，然后取消层压，而不是首先不熔合。

在解码器中，只有一个复杂解码器可以产生超过 1 个 uop，因此任何尚未恰好位于其解码组中第一个的多 uop 指令都会提前结束该组。使用索引寻址模式拥有一堆带有内存操作数的指令可能会削弱传统解码吞吐量，因为每个这样的指令都会自行解码，需要复杂的解码器。

在uop缓存中，节省空间是有意义的；每“行”6 个 uop 并不是很大，多条指令的额外 uop 很容易需要同一 32 字节块的额外“行”，从而降低缓存密度，从而降低命中率。与 ROB 不同的是，它只需要作为块的一部分获取，无需索引即可让完成端口将其标记为“完成”并准备退出。

英特尔确实对 Haswell 进行了更改，以允许保持更多指令微融合：具有 2 个操作数和读+写目标的指令可以保持索引寻址模式微融合，例如addps xmm0, [rdi + rdx*4]。但不是vaddps xmm0, xmm0, [rdi+rdx*4]，很遗憾。看微融合和寻址模式 https://stackoverflow.com/questions/26046634/micro-fusion-and-addressing-modes

因此，显然他们意识到或决定值得在 ROB 条目上多花一些位来减少大量代码中的未分层。很多时候 CPU 都在运行标量代码，其指令如下add rdx, [rsi+rcx] or mov [rdi + rcx*4], eax（在 Intel CPU 上，存储是存储地址 + 存储数据微指令，每个写入存储缓冲区条目的一部分），而不是 AVX。此外，Haswell uop 格式必须更改以适应具有 3 个输入的单 uop FMA；在此之前，英特尔微指令最多可以有 2 个输入。（直到布罗德韦尔，他们才利用这一点来制作adc and cmov单微操作；也许他们希望通过微代码禁用 FMA 作为一个选项，以防发现错误，因此不想将其硬连接到一些基线 x86 指令的处理方式中，这些指令无法在需要运行的 CPU 中禁用现有的二进制文件。）

还是因为给定的μop是否应该unlamination在解码阶段是不确定的，需要根据运行时的CPU使用情况动态确定？

也许与这个想法有关；在预解码中，指令被引导至适当的解码器。一些操作码总是被引导到复杂的解码器，将它们限制为传统解码的 1/时钟吞吐量，即使该操作码的实例实际上解码为单个 uop。（至少这是我们最好的解释理论最近的英特尔微架构中的简单解码器可以处理所有 1-μop 指令吗？ https://stackoverflow.com/questions/61980149/can-the-simple-decoders-in-recent-intel-microarchitectures-handle-all-1-%C2%B5op-inst)

如果预解码器必须基于索引寻址模式转向复杂解码器，它们可能会做一些不幸的事情，例如将带有 SIB 的任何 uop 发送到复杂解码器，包括add eax, [rsp+16].

它可能还使部分解码器与 Nehalem 更加相似，如果该指令可能的话，无论寻址模式如何，总是微融合内存操作数。

脚注 1：我不记得在哪里读到过有关英特尔简化后端内部微指令格式的事实。它不在https://www.realworldtech.com/sandy-bridge/ https://www.realworldtech.com/sandy-bridge/所以也许在https://agner.org/optimize/ https://agner.org/optimize/（微架构指南）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么需要对 μop 进行分层？的相关文章

跨 AVX 通道的最佳方式是什么？

有些问题具有类似的标题但我的问题涉及其他地方未涵盖的一个非常具体的用例我有 4 个 128d 寄存器 x0 x1 x2 x3 我想将它们的内容重新组合在 5 个 256d 寄存器 y0 y1 y2 y3 y4 中以准备其他计算 on
gcc 如何知道内联汇编中使用的寄存器大小？

我有内联汇编代码 define read msr index buf asm volatile rdmsr d buf 1 a buf 0 c index 使用该宏的代码 u32 buf 2 read msr 0x173 buf 我发现反汇
elf .rel.text 部分中 R_386_32/R_386_PC32 的含义

为了理解重定位的概念我编写了一个简单的 chk c 程序如下所示 1 include
现代缓存中的方式预测

我们知道就缓存命中时间而言直接映射缓存优于集合关联缓存因为不涉及特定标签的搜索另一方面组关联缓存通常比直接映射缓存具有更好的命中率我读到现代处理器试图通过使用一种称为路径预测的技术来结合两者的优点他们预测给定集合中最有可能发
汇编编程语言：程序仅当输入为 ESC 时退出，并在退出前要求确认（y/n），否则循环

我只是汇编语言编程的初学者我们的第一个任务是让程序仅在输入为 ESC 时退出退出之前请求确认 y n 否则循环我知道 ESC 在 ASCII 代码中具有等效值但我对插入位置或是否需要添加更多内容感到困惑请帮我这是程序 model
大师系统要求

我们将使用 Virtuoso 来存储 RDF 三重计数一开始将为 1 亿我需要知道典型的 RAM CPU 磁盘等应该是什么查询将使用 SPARQL 并且查询会有点复杂请提供您的意见 Virtuoso 版本 6 x 三元组四元组的平
为什么这个“std::atomic_thread_fence”起作用

首先我想谈一下我对此的一些理解如有错误请指正 a MFENCE在x86中可以保证全屏障顺序一致性可防止 STORE STORE STORE LOAD LOAD STORE 和 LOAD LOAD 重新排序这是根据维基百科 https
预取双类成员需要转换为 char*？

我有一个正在使用的课程 mm prefetch 预先请求包含 double 类型的类成员的缓存行 class MyClass double getDouble return dbl other members double dbl othe
在 x86 Intel VT-X 非根模式下，是否可以在每个指令边界传递中断？

除了不将中断传送到虚拟处理器的某些正常指定条件 cli if 0 等之外客户机中的所有指令实际上都是可中断的吗也就是说当传入的硬件中断先传递给 LAPIC 然后传递给处理器时据说会发生一些内部魔法将其转换为虚拟中断给来宾使用虚
NASM 轮班操作员

您将如何在寄存器上进行 NASM 中的位移位我读了手册它似乎只提到了这些操作员 gt gt lt lt 当我尝试使用它们时 NASM 抱怨移位运算符处理标量值您能解释什么是标量值并举例说明如何使用 gt gt and lt lt 另外
奇怪的 MSC 8.0 错误：“ESP 的值未在函数调用中正确保存...”

我们最近尝试将一些 Visual Studio 项目分解为库并且在测试项目中一切似乎都编译和构建得很好其中一个库项目作为依赖项然而尝试运行该应用程序给我们带来了以下令人讨厌的运行时错误消息运行时检查失败 0 ESP 的值未在函数调
普通的 x86 或 AMD PC 是直接从 ROM 运行启动/BIOS 代码，还是先将其复制到 RAM？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我知道现代计算机已经修改了哈佛架构它们可以从保存数据的地方以外的地方读取指令这一事实是否允许它们直接从 ROM 芯片获取指令他们是先
为什么如果内存组织为字，则程序计数器加 1；如果内存组织为字节，则程序计数器加 2？

如果在计算机中一条指令是 16 位并且如果存储器被组织为 16 位字则通过在当前指令的地址中加 1 来计算下一条指令的地址如果内存是按字节组织的可以单独寻址那么我们需要在当前指令地址上加二得到顺序执行的下一条指令的地址为什么会
每个 CPU 核心处于 C0 电源状态的时间

任何帮助弄清楚如何做到这一点都会很棒在过去一秒内每个 CPU 核心处于 C0 电源状态的时间有多少这是针对 Mac 应用程序的因此需要 Objective C cocoa 和 c OS X 没有任何公开 CPU c 状态的 API
设置 IRQ 映射

我正在遵循一些教程和参考文献来尝试设置我的内核我在教程中遇到了一些不熟悉的代码但根本没有解释它这是我被告知映射的代码16 IRQs 0 15 到 ISR 地点32 47 void irq remap void outportb 0x2
NodeJS CPU 一次飙升至 100%

我有一个用 NodeJS 编写的 SOCKS5 代理服务器我正在使用原生net and dgram打开 TCP 和 UDP 套接字的库它可以正常工作大约 2 天所有 CPU 的最大利用率约为 30 两天没有重新启动后一个 CPU 峰
是否可以在VM内使用VMX CPU指令？

VM guest 内部的进程是否有可能使用 VMX AMD V VT x CPU 指令然后由外部 VMM 处理而不是直接在 CPU 上处理 Edit 假设外部VM使用VMX本身来管理其虚拟客户机即它在Ring 1中运行如果可能的话是
为什么我的代码显示垃圾？

当我也想打印列表中的每个数字时我的代码显示垃圾有什么问题吗输出应如下所示给定的数组是 2G 4 PT为什么这是垃圾总数是 7 Code ASSUME CS CODE DS DATA SS STK ORG 0000H DATA SEG
是否可以在Linux上将C转换为asm而不链接libc？

测试平台为Linux 32位但也欢迎 Windows 32 位上的某些解决方案这是一个c代码片段 int a 0 printf d n a 如果我使用 gcc 生成汇编代码 gcc S test c 然后我会得到 movl 0 28 e
为什么 Linux perf 使用事件 l1d.replacement 来处理 x86 上的“L1 dcache misses”？

在英特尔 x86 上 Linux用途 https stackoverflow com a 52172985 149138事件l1d replacements来实施其L1 dcache load misses event 该事件定义如下计数

随机推荐

如何将 @viewChildren 中使用的组件替换为测试替身？

假设我有一个想要测试的组件它使用一个非常复杂的组件此外它使用通过获得的引用来调用它的一些方法 viewChildren 例如 Component moduleId module id selector test template
安装生产 windows-build-tools 时，安装在“成功安装 Python 2.7”后挂起

尝试使用以下命令安装 windows build tools npm install g production windows build tools 但安装 python2 7 后似乎挂起我已经等了将近30分钟但没有继续前进有什么解决
将声音输出到声卡的多个通道

我正在尝试用 Java 构建一个程序该程序能够将声音输出到声卡上的不同输出线在Java中怎么可能做到呢我不确定您在处理声音方面有什么背景它可能比我的大但我认为您拥有的是要定向到多个端口的多条线路 http download ora
Microsoft JScript 运行时错误：对象不支持属性或方法“验证”

这个问题是我收到错误 Microsoft JScript 运行时错误对象不支持属性或方法验证不明白为什么有什么建议么
如何获取原始订单中的字段？

我有一个类似的代码 class Ordered object x 0 z 0 b 0 a 0 print dir Ordered 它打印 a b x z 如何按原始顺序获取字段 x z b a 我在 Django 模型中看到了类似的行为如
Java：当一个新线程从同步块启动时会发生什么？

第一个问题这是 Java 中一个非常简短但基本的东西我不知道在下面的情况下是run 方法以某种方式使用锁执行somemethod 获得了吗 public synchronized void somemethod Thread t n
了解 csr 格式

我试图了解 scipy CSR 的工作原理 https docs scipy org doc scipy reference sparse html https docs scipy org doc scipy reference spar
通过Javascript跨域XHR上传[重复]

这个问题在这里已经有答案了可能的重复在 IE9 中解析 xml json 响应 https stackoverflow com questions 10866439 parsing xml json response in ie9 我想
现代 C 编译器中 __STDC_IEC_559__ 的状态

C99添加了一个宏 STDC IEC 559 可用于测试编译器和标准库是否符合 ISO IEC IEEE 60559 或 IEEE 754 标准根据这个问题的答案如何检查 ieee 754 单精度 32 位浮点表示 https stac
如何将包含 Integers 的 ArrayList 转换为原始 int 数组？

我正在尝试使用以下代码将包含 Integer 对象的 ArrayList 转换为原始 int 但它引发编译时错误可以用Java进行转换吗 List
如何在 Gatsby 中使用 React.lazy

当使用React lazy在 Gatsby 中你会在执行时出错production gatsby build 最好的使用方法是什么React lazy and suspense在盖茨比计划中 React lazy 和 Suspense 还
python 中是否有与 R 的 qchisq 函数等效的函数？

The R qchisq函数将 p 值和自由度数转换为相应的卡方值是否有一个具有同等功能的 Python 库我在 SciPy 中环顾四周没有发现任何东西 It s scipy stats chi2 ppf 百分点函数 cdf 的倒数
快速排序 (Java) 在 array.length > 60k 时导致 StackOverFlow

我的代码可以正常工作据我所知直到我的输入数组大小 a length 大约是 62 000 此时我始终得到StackOverFlowError 我之前使用过两次递归调用quicksort 小于和大于枢轴q 然后我切换到尾递归正如您所看到
Snackbar 滑动动画导致浮动操作按钮意外跳转

我的活动中有一个浮动操作按钮当小吃栏出现时它应该向上移动一点但是当我使用代码将小吃栏动画更改为滑动时 pressAgainToExitSnackBar setAnimationMode BaseTransientBottomBar A
当一个字段是日期字段时，如何在 MongoDB 中按多个字段进行分组

我对 MongoDB 还很陌生我正在尝试弄清楚当其中一个字段是计算日期字段时如何按多个字段进行分组我的数据如下简化 id ObjectId 52d6ed19e4b0a491abb53ff2 build duration 667075
无法捕获 Winforms 中未处理的异常

我正在尝试捕获 C Windows 窗体应用程序中的所有未处理异常我已将以下代码添加到Program cs文件但未捕获异常我得到异常例如NullReferenceException 我究竟做错了什么 static void Main
如何在 Windows 上为 javax.net.ssl.trustStore 配置 trustStore？

我正在尝试使用 imap 从 java 中的电子邮件服务器中提取消息但遇到了以下异常 DEBUG JavaMail version 1 4 2 DEBUG successfully loaded resource META INF jav
Ionic 2+ 中选项卡页面的 setRoot

我有两张地图每张地图都有自己的视图我正在使用选项卡从一个视图跳转到另一个视图但是当我使用这种导航方法时不会设置根目录并且页面在访问后不会被推送或弹出或设置这是我使用的谷歌地图的问题当我使用菜单区域中设置根目录的常规菜单时此
使用 Flask 和 Python 从配置文件中读取属性

建筑自在 Flask 中将配置文件作为字典读取 https stackoverflow com questions 50415433 reading config file as dictionary in flask我正在尝试定义自定义配
为什么需要对 μop 进行分层？

In Intel CPU 中的 MicroFusion 作者丹尼斯巴赫瓦洛夫 https easyperf net blog 2018 02 15 MicroFusion in Intel CPUs 他说 Unlamination fo

为什么需要对 μop 进行分层？

为什么需要对 μop 进行分层？ 的相关文章

随机推荐

热门标签

为什么需要对 μop 进行分层？的相关文章