为什么较长的管道会导致单个延迟槽不够用？

2024-03-29

我在 Patterson & Hennessy 的文章中读到了以下声明计算机组织与设计教科书：

随着处理器使用更长的管道并在每个时钟周期发出多个指令，分支延迟变得更长，并且单个延迟槽是不够的。

我可以理解为什么“每个时钟周期发出多个指令”会使单个延迟槽不足，但我不知道为什么“较长的管道”会导致它。

另外，我不明白为什么较长的管道会导致分支延迟变得更长。即使使用更长的管道（一步完成一条指令），也不能保证周期会增加，那么为什么分支延迟会增加呢？

如果添加任何阶段before检测分支的阶段（并评估条件分支的采取/不采取），1 个延迟槽不再隐藏进入管道第一阶段的分支与正确的程序计数器地址之间的“延迟”after分支已知。

第一个获取阶段需要管道中稍后的信息来知道下一步要获取什么，因为它不itself检测分支。例如，在具有分支预测的超标量 CPU 中，它们需要在解码后预测分支的走向，从而单独且更早地预测下一个要获取的指令块。

1 个延迟槽仅在 MIPS I 中足够，因为分支条件是在上半场EX 中的一个时钟周期 https://stackoverflow.com/questions/56586551/how-does-mips-i-handle-branching-on-the-previous-alu-instruction-without-stallin/58601958#58601958，及时转发到 IF 的第二半，在此之前不需要获取地址。（原始 MIPS 是经典的 5 级 RISC：IF ID EX MEM WB。）参见维基百科关于经典 RISC 流水线的文章 https://en.wikipedia.org/wiki/Classic_RISC_pipeline有关更多详细信息，特别是控制危险部分 https://en.wikipedia.org/wiki/Classic_RISC_pipeline#Control_hazards.

这就是为什么 MIPS 仅限于简单的条件，例如beq（通过 XOR 查找任何不匹配项），或者bltz（符号位检查）。它不能做任何需要加法器进行进位传播的事情（因此一般blt两个寄存器之间是只是一条伪指令 https://stackoverflow.com/questions/19923977/why-isnt-mips-blt-instruction-implemented-in-hardware).

这是非常严格的：较长的前端可以吸收较大/关联性更强的 L1 指令缓存的延迟，该缓存需要超过半个周期才能响应命中。（MIPS 我解码的是very不过很简单，由于指令格式是有意设计的，因此机器代码位可以直接连接为内部控制信号。因此，您也许可以在“半周期”阶段进行解码，获取 1 个完整周期，但即使 1 个周期仍然很低，在更高的时钟速度下周期时间更短。）

提高时钟速度可能需要添加另一个读取阶段。解码必须检测数据危险并设置旁路转发；最初的 MIPS 通过不检测加载使用危险来简化这一过程，相反，软件必须尊重加载延迟槽，直到 MIPS II。即使有 1 个周期的 ALU 延迟，超标量 CPU 也可能存在更多危险，因此检测必须转发的内容需要更复杂的逻辑，以将旧指令中的目标寄存器与较新指令中的源进行匹配。

超标量管道甚至可能需要在指令获取中进行一些缓冲以避免气泡。多端口寄存器文件的读取速度可能会稍慢，可能需要额外的解码流水线阶段，尽管这可能仍然可以在 1 个周期内完成。

因此，除了由于超标量执行的本质而导致 1 个分支延迟槽不足之外，如果额外的阶段位于提取和分支解析之间，较长的管道也会增加分支延迟。例如一个额外的获取阶段和一个 2 宽的管道可以在分支后有 4 条正在运行的指令而不是 1。

但不是引入更多的分支延迟slots要隐藏这个分支延迟，实际的解决方案是分支预言。（然而，一些 DSP 或高性能微控制器确实有 2 个甚至 3 个分支延迟槽。）

分支延迟槽使异常处理变得复杂；你需要一个错误返回and下一个地址，以防故障出现在所采用分支的延迟槽中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cpuarchitecture

为什么较长的管道会导致单个延迟槽不够用？的相关文章

无序执行会导致推测内存访问吗？

当无序处理器遇到类似情况时 LOAD R1 0x1337 LOAD R2 R1 LOAD R3 0x42 假设所有访问都会导致缓存未命中处理器是否可以在请求 R1 甚至 0x1337 的内容之前向内存控制器请求 0x42 的内容如果是这
第一个计算机程序是如何创建的？ [复制]

这个问题在这里已经有答案了可能的重复第一个编译器是如何编写的 https stackoverflow com questions 1653649 how was the first compiler written 这个问题一直困扰着我
如何确定SSE预取指令大小？

我正在使用包含 SSE 预取指令的内联汇编的代码预处理器常量确定是否使用 32 64 或 128 字节预取的指令该应用程序在多种平台上使用到目前为止我必须在每种情况下调查对于给定 CPU 来说哪一个是最佳选择据我所知这是缓存行大
变址寻址方式和隐式寻址方式

索引寻址模式通常用于访问数组因为数组是连续存储的我们有一个索引寄存器它在每次迭代中都会递增当添加到基地址时它会给出数组元素地址我不明白这种寻址模式的实际需要为什么我们不能通过直接寻址来做到这一点我们有了基地址每次访问的时候
RAM 如何以 O(1) 的速度访问内存中的任何位置

我们被告知 RAM 内存的抽象是一个长字节数组对于 CPU 来说访问它的任何部分都需要相同的时间能够同时访问 4 GB 在我的计算机上中的任何字节的设备是什么因为这对我来说似乎不是一个微不足道的任务我问过同事和我的教授但没有人
由谁决定 I/O 映射和内存映射 I/O (x86)

在 x86 架构中我们使用 I O 指令例如 IN 和 OUT 来进行 I O 映射 I O 据我所知我们在内存映射 I O 中使用 MOV 等内存指令这一切都很好但是谁决定使用哪种 I O 方法呢如果我想构建自己的设备外围设
字寻址和字节寻址之间的区别

有人可以解释一下有什么区别吗Word and Byte可寻址它与内存大小等有何关系 A byte is a 记忆单元 https en wikiversity org wiki Memory Unit for storage A 存储芯片
部署到 OS X 10.6 和“使用旧版运行时的平台不支持 -fobj-arc”

背景我正在为 OS X 构建一个应用程序部署目标为 10 6 我还没有将我的应用程序完全转换为 ARC 但我添加了一些将从 ARC 中受益的新类因此我设置了 fobj arc这些类的编译器标志编译失败通用 32 64 位英特尔架构
MESI协议中的L3$角色是什么

我想了解intel Broadwell中MESI的更多细节假设一个cpu插槽有6个核心 core 0 到 core 5 他们每个人都有自己的 L1 和 L2 并共享 L3 共享内存中有一个var X x位于cache line 称为 XC
全关联缓存是否比直接映射缓存具有更高的未命中率？

以下是一个面试问题为什么全关联缓存的未命中率可能高于直接映射缓存我认为这根本不可能有人可以分享一些对此的见解吗你应该假设它们大小相同吗如果不是则如果大多数未命中是容量未命中而不是冲突未命中则较小的全关联高速缓存仍然可能会
文件支持的内存映射的 CPU 缓存行为/策略？

有谁知道哪种类型的CPU缓存行为或策略例如不可缓存的写组合被分配给内存映射文件支持现代 x86 系统上的区域有什么方法可以检测是哪种情况并可能覆盖默认行为吗 Windows 和 Linux 是人们感兴趣的主要操作系统编者注这个问
计算三级缓存的实际/有效CPI

a 给定一个具有两级高速缓存 L1 和 L2 的内存系统以下是规格 L1缓存命中时间 2个时钟周期一级缓存命中率 92 L2 缓存的未命中惩罚 L2 的命中时间 8 个时钟周期二级缓存命中率 86 主存丢失惩罚 37 个时钟周期暂时
gcc 优化标志 -O3 使代码比 -O2 慢

我找到这个话题为什么处理排序数组比处理未排序数组更快 https stackoverflow com questions 11227809 why is processing a sorted array faster than an un
长延迟指令

I would like a long latency single uop x861 instruction in order to create long dependency chains as part of testing mic
可以直接使用程序集访问缓存吗？

就效率而言缓存是一个核心问题我知道缓存通常会自动发生但是我想自己控制缓存的使用因为我认为我可以比一些不知道确切程序的启发式方法做得更好因此我需要汇编指令来直接移入或移出高速缓存单元 like movL1 address con
GCC最高指令集，兼容多种架构

我正在由具有不同架构的机器组成的集群上运行作业 gcc march native Q help target grep march cut f3给了我其中之一 broadwell haswell ivybridge sandybridge
C 易失性变量和高速缓存

缓存是由缓存硬件对处理器透明地控制的因此如果我们在C程序中使用易失性变量如何保证我的程序每次都从指定的实际内存地址读取数据而不是缓存我的理解是 Volatile 关键字告诉编译器不应优化变量引用而应按照代码中的编程方式读取变量引用
字大小及其指示

请参阅下面关于各种指令集架构中的字长以及它与汇编语言的关系的问题感谢您提供的所有帮助先说几个事实如有错误请指正处理器架构的字长表示编辑其中一些是错误的请参阅下面 Seva 的帖子每个寄存器的最大尺寸每个内存地址的最大尺寸
RISC-V 规范引用了“hart”一词 - “hart”是什么意思？

我找到了参考文献hart在第 35 页RISC V 2 1 规范 https content riscv org wp content uploads 2016 06 riscv spec v2 1 pdf 但是我找不到它的定义hart在
CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？

这似乎是一个奇怪的问题假设缓存行的大小为 64 字节此外假设 L1 L2 L3 具有相同的缓存行大小 this https stackoverflow com a 15333156 8385554帖子说英特尔酷睿 i7 就是这种情况

随机推荐

如何获取点击时的CSS悬停值？

对此进行后续跟进question https stackoverflow com questions 7265418 how can i unbind the hover opacity effect of a text link when
从地图中删除 google.maps.marker.AdvancedMarkerView

我有一张地图它根据搜索填充标记我正在尝试使用较新的谷歌地图功能AdvancedMarkerView所以我可以用自定义 HTML 填充它但是随着我的搜索更新我想刷新旧标记并在需要时放置新标记但我一生都无法弄清楚如何做 https
如何使用 Swift 和 MacOS 隐藏顶部栏（带按钮）？

我试图从窗口中删除标题和顶部按钮基本上只显示内容我尝试过各种方法但没有成功也没有任何明显的原因说明它不起作用有关我尝试过的选项请参阅 setVisibility 函数 AppDelegate swift import Cocoa
可以在 JSON 对象中使用尾随逗号吗？

手动生成 JSON 对象或数组时在对象或数组的最后一项上留下尾随逗号通常更容易例如从字符串数组输出的代码可能如下所示在类似 C 的伪代码中 s append for i 0 i lt 5 i s appendF d i s appe
在 C++ 中，当用 ctrl-c 中断时，在死亡之前调用带参数（信号号除外）的函数

我想在程序终止之前用 ctrl c 中断时向文件中写入几行然而文件的位置不是硬编码的所以我需要比正常中断处理更多的东西正如这里所解释的 https stackoverflow com questions 1641182 how can
我可以使用逻辑索引或索引列表对张量进行切片吗？

我正在尝试使用列上的逻辑索引对 PyTorch 张量进行切片我想要与索引向量中的 1 值相对应的列切片和逻辑索引都是可能的但是它们可以一起吗如果是这样怎么办我的尝试不断抛出无用的错误类型错误使用 ByteTensor 类型的
跨域 bean 验证 - 为什么你不工作

我的应用程序遇到了一点问题我想检查字段密码和确认密码是否匹配所以我尝试像这个问题的第一个答案中那样进行操作使用 Hibernate Validator JSR 303 进行跨领域验证 https stackoverflow com q
使用 boost::asio::streambuf 的代码会导致段错误

我在使用 asio streambuf 时遇到了问题希望有人能告诉我我是否错误地使用了该类当我运行此示例代码时它出现段错误为什么更令人困惑的是这段代码可以在 Windows Visual Studio 2008 上运行但不能在
jquery validate 1.8.1“jQuery”未定义错误IE8

首先是的 jQuery 在验证插件或任何其他 js 文件之前加载获取 jQuery 未定义 IE8 中的 jquery validate 1 8 1 min js 第 13 行字符 1 FF Chrome 和 Safari 都可以完美地
Swing 应用程序的丰富日历组件[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我的公司正在向 Swing 应用程序添加一些丰富的日历功能我们希望它像 Outlook 日历一样工作以下是我们的一些要求日周和月的
Android SQLite 按名称搜索

我从这里举了一个在 Android 中使用 SQLite 的示例 http www cnblogs com pangblog p 3327696 html http www cnblogs com pangblog p 3327696 ht
Expression.Lambda 和运行时查询生成，嵌套属性“Where”示例

我在有关为Where查询构建表达式树的问题上找到了非常好的答案 Expression Lambda 和运行时的查询生成最简单的 Where 示例 https stackoverflow com questions 8315819 expr
创建一个新列，作为 pandas DataFrame 中行的频率

我需要一个新专栏C其中每个值是其他两列中的值出现的频率A and B一起出现在数据中 A B C 0 7 9 2 1 7 2 2 2 1 9 3 3 4 8 1 4 9 1 1 5 6 4 1 6 7 2 2 7 7 9 2 8 1 9 3
双缓冲？ Win32 C++

我正在尝试实现双缓冲但它似乎不起作用即图形仍然闪烁每次鼠标移动时都会调用 WM PAINT WM MOUSEMOVE 粘贴 WM PAINT 如下 case WM PAINT hdc BeginPaint hWnd ps TODO A
如何从Android应用程序发送短信而不在设备短信视图中进行记录？

我想从我的 Android 应用程序发送短信但我不希望其记录存在于设备消息视图中我目前正在使用下面的代码 sendSMS etsendernumber getText toString etmessagebody getText toS
将微数据与 schema.org/OpeningHoursSpecification 结合使用

我正在看http schema org OpeningHoursSpecification http schema org OpeningHoursSpecification地点及更多的微数据架构我对要使用的值有点困惑星期几 http
MongoDB聚合将字符串数组连接到单个字符串

我们正在尝试将字符串数组连接到聚合中的单个字符串给出的是以下数据集集合1 id 1234 field test 集合2 id 1111 collection1 id 1234 name Max id 1112 collection1
我可以像联系人列表一样向表格视图添加字母跳转列表吗

我想在我的应用程序中创建一个自定义联系人列表提供与标准联系人列表类似的 A Z 跳转列表这可以用 TableView 实现吗有一个关于如何执行此操作的综合教程表视图编程指南 https developer apple com lib
缺少可选的依赖项“表”。在熊猫 to_hdf 中

以下代码给我错误 import pandas as pd df pd DataFrame a 1 2 3 df to hdf temp h5 key df mode w 这给了我错误缺少可选的依赖项表使用 pip 或 conda 安装
为什么较长的管道会导致单个延迟槽不够用？

我在 Patterson Hennessy 的文章中读到了以下声明计算机组织与设计教科书随着处理器使用更长的管道并在每个时钟周期发出多个指令分支延迟变得更长并且单个延迟槽是不够的我可以理解为什么每个时钟周期发出多个指令会使单个延

为什么较长的管道会导致单个延迟槽不够用？

为什么较长的管道会导致单个延迟槽不够用？ 的相关文章

随机推荐

热门标签

为什么较长的管道会导致单个延迟槽不够用？的相关文章