为什么要预测一个分支，而不是简单地并行执行两个分支？

2024-01-04

我相信，在创建 CPU 时，如果选择了错误的分支，分支预测会导致速度显着下降。那么，为什么 CPU 设计者选择一个分支，而不是简单地执行两个分支，然后在确定选择了哪个分支后就切断其中一个分支呢？

我意识到这只能在少量指令内深入 2 或 3 个分支，否则并行阶段的数量会变得非常大，因此在某些时候您仍然需要一些分支预测，因为您肯定会运行更大的分支，但是这样的几个阶段难道没有意义吗？在我看来，这会显着加快速度，并且值得增加一点复杂性。

即使只有一个分支深，几乎一半的时间都会被错误的分支吃掉，对吗？

或者也许已经这样做了？当你开始组装时，分支机构通常只会在两个选择之间进行选择，对吗？

你担心机器会呈指数级增长是对的，但你低估了它的力量。一个常见的经验法则是，您的动态代码中平均会有约 20% 的分支。这意味着每 5 条指令中有一个分支。如今，大多数 CPU 都有一个深度乱序核心，可以提前获取并执行数百条指令 - 以英特尔的 Haswell 为例，它有一个192 http://www.realworldtech.com/haswell-cpu/3/条目 ROB，这意味着您最多可以容纳 4 层分支（此时您将拥有 16 个“前沿”和 31 个“块”，每个块包括一个分叉分支 - 假设每个块将有 5 条指令，您几乎已经填满了ROB，另一个级别会超过它）。到那时，您只能达到约 20 条指令的有效深度，从而使任何指令级并行性变得毫无用处。

如果您想在 3 个级别的分支上发散，则意味着您将有 8 个并行上下文，每个上下文只有 24 个条目可用于提前运行。即使这样，只有当您忽略回滚 7/8 工作的开销、复制所有状态保存硬件（如寄存器，您有数十个）的需要以及像您一样将其他资源分成 8 个部分的需要时与 ROB 一起做。另外，这还不包括内存管理，内存管理必须管理复杂的版本控制、转发、一致性等。

忘记功耗吧，即使您可以支持那种浪费的并行性，在您可以在每条路径上推进更多指令之前，将资源分散到如此薄的程度实际上会让您感到窒息。

现在，让我们检查一下拆分单个分支的更合理选项 - 这开始看起来像超线程 - 您可以在 2 个上下文中拆分/共享核心资源。当然，此功能具有一些性能优势，但这只是因为两个上下文都是非推测性的。事实上，我认为，根据工作负载组合（来自 AnandTech 的评论），通常的估计是依次运行 2 个上下文的效率约为 10-30%here http://www.anandtech.com/show/2594/8) - 如果您确实打算一个接一个地运行这两个任务，那么这很好，但当您要丢弃其中一个任务的结果时则不然。即使您忽略此处的模式切换开销，您获得 30% 的收益也只会损失 50% - 这毫无意义。

另一方面，您可以选择预测分支（当今的现代预测器平均成功率可以达到 95％以上），并支付错误预测的惩罚，这已经被乱序引擎部分隐藏了（某些分支之前的指令可以在分支被清除后执行，大多数 OOO 机器都支持这一点）。这使得任何深度乱序引擎可以自由地向前漫游，推测其全部潜在深度，并且在大多数情况下都是正确的。这里某些工作被刷新的几率确实呈几何级数下降（第一个分支后为 95%，第二个分支后约为 90%，等等），但刷新惩罚也会减少。它仍然比 1/n 的全局效率（对于 n 级分叉）要好得多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cpuarchitecture

branchprediction

为什么要预测一个分支，而不是简单地并行执行两个分支？的相关文章

为什么执行指针追踪时该跳转指令的开销如此之大？

我有一个程序可以执行指针追逐 https en wikichip org wiki pointer chasing我正在尝试尽可能优化指针追逐循环我注意到perf record检测到函数中约 20 的执行时间myFunction 用于执行
系统中 1 字节！= 8 位？ [复制]

这个问题在这里已经有答案了我一直读这样的句子不要依赖 1 个字节就是 8 位大小 use CHAR BIT而不是 8 作为常量在位和字节之间转换 et cetera What real life systems are there to
机器码对齐

我正在尝试了解机器代码对齐的原理我有一个汇编器实现可以在运行时生成机器代码我在每个分支目标上使用 16 字节对齐但看起来这不是最佳选择因为我注意到如果我删除对齐有时相同的代码会运行得更快我认为这与缓存线宽度有关因此某些命令
程序如何执行？操作系统在哪里发挥作用？

程序从某种语言编译为 ASM gt 机器代码直接可执行当人们说这是平台相关时意味着形成的二进制文件只能在具有相同指令集架构如 x86 x86 64 的 CPU 上运行正确由于 ISA 的差异它可能错误地可能根本不在其他
哪些标准 C++ 功能可用于查询机器/操作系统架构？

用于查询运行程序的硬件或操作系统功能的属性的标准 C 功能和实用程序是什么例如 std thread hardware concurrency 给出机器支持的线程数但是如何检测计算机有多少 RAM 或者进程正在使用多少 RAM 或者某
嵌入式领域“软复位”和“硬复位”有什么区别？

在我看来软复位从复位向量启动硬重置拉cpu的电平硬复位当然意味着整个CPU芯片及其所有外设都被复位造成这种情况的原因可能有很多复位引脚被外部拉动时钟故障片上低电压检测看门狗非法指令陷阱等软复位可能意味着返回复位向量的
cpu 缓存行和预取策略

我读了这篇文章http igoro com archive gallery of processor cache effects http igoro com archive gallery of processor cache effec
Linux perf 中的运行时间和报告的周期计数

我在 4 核 Intel CPU 每个核心 1 个线程上运行了单线程矩阵乘法但 perf 中的数字没有意义 Performance counter stats for system wide 31 728 397 287 cpu cyc
包容还是排他？ Intel Core IvyBridge 处理器中的 L1、L2 缓存

我有 Intel Core IvyBridge 处理器 Intel R Core TM i7 3770 CPU 3 40GHz L1 32KB L2 256KB L3 8MB 我知道L3是包容性的是多核共享的我想了解有关我的系统的以下信
为什么指令高速缓存对齐可以提高组相联高速缓存实现的性能？

我有一个关于指令缓存对齐的问题我听说对于微优化对齐循环使其适合缓存行可以稍微提高性能我不明白为什么那会有什么作用我了解缓存命中的概念及其对计算速度的重要性但似乎在组关联缓存中相邻的代码块不会映射到同一个缓存组因此如果循环跨
计算三级缓存的实际/有效CPI

a 给定一个具有两级高速缓存 L1 和 L2 的内存系统以下是规格 L1缓存命中时间 2个时钟周期一级缓存命中率 92 L2 缓存的未命中惩罚 L2 的命中时间 8 个时钟周期二级缓存命中率 86 主存丢失惩罚 37 个时钟周期暂时
现代 x86 CPU 使用什么缓存一致性解决方案？

我对缓存一致性系统在现代多核 CPU 中的功能有些困惑我已经看到基于侦听的协议例如基于 MESIF MOESI 侦听的协议已在 Intel 和 AMD 处理器中使用另一方面基于目录的协议对于多核来说似乎更加高效因为它们不广播而是
可以直接使用程序集访问缓存吗？

就效率而言缓存是一个核心问题我知道缓存通常会自动发生但是我想自己控制缓存的使用因为我认为我可以比一些不知道确切程序的启发式方法做得更好因此我需要汇编指令来直接移入或移出高速缓存单元 like movL1 address con
GCC最高指令集，兼容多种架构

我正在由具有不同架构的机器组成的集群上运行作业 gcc march native Q help target grep march cut f3给了我其中之一 broadwell haswell ivybridge sandybridge
C 易失性变量和高速缓存

缓存是由缓存硬件对处理器透明地控制的因此如果我们在C程序中使用易失性变量如何保证我的程序每次都从指定的实际内存地址读取数据而不是缓存我的理解是 Volatile 关键字告诉编译器不应优化变量引用而应按照代码中的编程方式读取变量引用
如何确定 Windows 10 上可执行二进制文件的体系结构

给定一些Random exe在 Windows 上我如何确定它的CPU架构例如Intel ARM 以及它的位数例如 32 或 64 我可以使用文件资源管理器其他工具或编程方法中的属性吗 Cygwin https www cygw
RISC-V 规范引用了“hart”一词 - “hart”是什么意思？

我找到了参考文献hart在第 35 页RISC V 2 1 规范 https content riscv org wp content uploads 2016 06 riscv spec v2 1 pdf 但是我找不到它的定义hart在
现代缓存中的方式预测

我们知道就缓存命中时间而言直接映射缓存优于集合关联缓存因为不涉及特定标签的搜索另一方面组关联缓存通常比直接映射缓存具有更好的命中率我读到现代处理器试图通过使用一种称为路径预测的技术来结合两者的优点他们预测给定集合中最有可能发
为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
没有 FPU 的处理器中的浮点计算

是否可以在没有浮点单元的嵌入式处理器中执行浮点运算是的您只需要在软件中完成即可你的编译器可能会提供支持 http gcc gnu org onlinedocs gccint Soft float library routines ht

随机推荐

Android 通知有一个彩色图标，而不是变成白色

我的 Android 应用使用 Firebase Cloud Messaging 进行通知当收到通知时该图标不会像其他图标一样变成白色我在用着targetSdkVersion 23 我的清单中有这个
正则表达式： ?: 符号（问号和冒号符号）[重复]

这个问题在这里已经有答案了我有以下 Java 正则表达式它不是我编写的我正在尝试修改 class map s match all s match any s x21 x7e 1 40 它类似于this one https stacko
如何配置 php.ini 以使用 gmail 作为邮件服务器

I want to learn yii as my first framework And I m trying to make the contact form work But I got this error 我已经配置了 php i
通知通过旧意图附加

我正在通过以下代码在 BroadcastReceiver 内创建通知 String ns Context NOTIFICATION SERVICE NotificationManager mNotificationManager Notif
像导航抽屉一样实现 Gmail 平板电脑

我正在研究 Gmail 应用程序的平板电脑设计在那里面Navigation Drawer实施与其他不同我已附上图片供您参考而且当我展开抽屉时它应该像正常的导航抽屉行为一样发生我想以同样的方式实施我正在寻找但我只找到了这个lin
C++ STL 分配器与 new 运算符

根据C Primer第4版第755页有一条注释说现代 C 程序通常应该使用分配器类来分配内存它更安全更灵活我不太明白这个说法到目前为止我读过的所有材料都教授使用new在C 中分配内存书中展示了向量类如何使用分配器的示例
创建一个 PHP 文件来下载某个站点的所有链接

我最近在我的 Firefox 中安装了附加组件 DownThemAll 当我看到它下载大量的 pk3 文件开源第一人称射击游戏的地图文件时我想知道我是否可以使用 PHP 做同样的事情这就是我的想法 foreach glob http
gitignore 除了子子文件夹中的文件之外的所有文件

我已经尝试了 gitignore 的多种组合但没有一个能满足我的需要我有这棵树 jobs jobs projecta config xml jobs projecta garbage jobs projecta more garbage
如何从 jar/bat/ 运行独立的 TestNG 项目

我有一个 TestNG 项目没有任何主类目前它像 Run As TestNG 一样运行我想将其导出为可运行的 jar 或 jar 以便任何人都可以从命令行输入命令并开始运行测试用例有人可以帮我解决这个问题吗或建议任何其他方式以可运
又一个浮点问题

我已经阅读了这里有关浮点的大部分帖子并且我了解使用 IEEE 754 并且仅根据以二进制存储数字的性质无法表示某些分数的基本问题我试图弄清楚以下问题如果Python和JavaScript都使用IEEE 754标准为什么在Pytho
返回 PL/SQL 函数中的表

我正在开发一个 SQL 项目我想创建一个返回表的 sql Plus 函数我做了这样的事情但它不起作用我不知道为什么 CREATE OR REPLACE FUNCTION changeNbPersonnes recette IN in
ggpairs 中的部分 cor (pcor.test)

我可以用吗pcor from ppcor 或者实际上将我预先制作的任何相关矩阵放入以下代码中ggpairs 在里面upper 代替cor 我想在 ggpairs 中集成一个部分相关矩阵或 pcor library GGally a lt a
在 Rails 3 中检测用户操作系统的最简单方法是什么？

简单的 Rails 应用程序主要是脚手架我想检测用户是使用 Android 还是 iPhone 访问我的应用程序最简单的方法是什么 if request env HTTP USER AGENT downcase match andro
使用相对布局制作动态视图时面临的问题

我正在使用相对布局动态构建视图网格例如如果有 1 个用户网格与用户 1 https i stack imgur com 4Dqsr png 1 https i stack imgur com 4Dqsr png 如果有 2 个用户
FileSystemWatcher 创建 1000 个文件失败

我正在使用 FileSystemWatcher 监视文件夹 A 如果创建文件或将文件复制到该文件夹中它将被移动到文件夹 B 我通过右键单击选择新建选择文本文档在文件夹 A 中创建了一个文件该文件立即移至文件夹 B 但是如果
如何检测颤振中选定的键盘语言？

如何在打字时检测当前的键盘语言我正在尝试在聊天应用程序中实现翻译我需要知道其他用户正在输入哪种语言以便我可以根据用户的母语知道要翻译哪些文本目前flutter中似乎没有办法做到这一点我在 GitHub 上提交了一个问题如果您想帮
如何制作一个收集到 com.google.common.collect.ImmutableSet 的 java.util.stream.Collector？

这对我来说似乎太棘手了因为ImmutableSet实例仅使用以下内容构建ImmutableSet Builder实例未实现Collection所以你不能只使用Collectors toCollection ImmutableSet ne
Vaadin 10/11 和嵌入式 Jetty

我在 Vaadin 8 5 1 上开发了中型应用程序 Jetty 嵌入式 9 4 8 用作 Vaadin servlet 的 Servlet 容器在 Java 代码中我初始化 Jetty 实例创建 Vaadin servlet 并将其
多个 Web 服务的集中身份验证和授权

有几种不同的 Web 服务使用的各种技术例如 Java NET Python Perl 以及将来可能会使用的更多技术属于不同的组织并且必须限制对这些 Web 服务的访问这个想法是拥有一个中央身份验证和授权服务器只负责授予对每个
为什么要预测一个分支，而不是简单地并行执行两个分支？

我相信在创建 CPU 时如果选择了错误的分支分支预测会导致速度显着下降那么为什么 CPU 设计者选择一个分支而不是简单地执行两个分支然后在确定选择了哪个分支后就切断其中一个分支呢我意识到这只能在少量指令内深入 2 或 3 个

为什么要预测一个分支，而不是简单地并行执行两个分支？

为什么要预测一个分支，而不是简单地并行执行两个分支？ 的相关文章

随机推荐

热门标签

为什么要预测一个分支，而不是简单地并行执行两个分支？的相关文章