repz ret：为什么这么麻烦？

2023-12-04

的问题repz ret已经在这里介绍了[1]以及其他来源[2, 3】还算满意。然而，在阅读这两个来源时，我找到了以下问题的答案：

是什么actual定量比较中的惩罚ret or nop; ret？尤其是在后一种情况下——当大多数函数要么有 100 多个指令，要么被内联时，解码一条额外指令（而且是一条空指令！）真的相关吗？
为什么这个问题在 AMD K8 中从未得到解决，甚至进入了 K10？从什么时候开始记录一个基于行为的丑陋的解决方法stays当原因的每个细节都已知时，无证人更愿意实际解决问题？

分支预测错误
所有喧嚣的原因是分支错误预测的成本。
当分支出现时，CPU 会预测所采用的分支并将这些指令预加载到管道中。
如果预测错误，则需要清除管道并加载新指令。
这可能需要长达number_of_stages_in_pipeline周期加上从缓存加载数据所需的任何周期。每次错误预测通常有 14 到 25 个周期。

原因：处理器设计
K8 和 K10 遭受此问题的原因是 AMD 的出色优化。
AMD K8 和 K10 将预解码缓存中的指令并跟踪它们在 CPU L1 指令缓存中的长度。
为了做到这一点，它有额外的位。

对于每 128 位（16 字节）指令，存储有 76 位附加数据.

下表详细说明了这一点：

Data             Size       Notes
-------------------------------------------------------------------------
Instructions     128 bits   The data as read from memory
Parity bits      8 bits     One parity bit for every 16 bits
Pre-decode       56 bits    3 bits per byte (start, end, function) 
                            + 4 bit per 16 byte line
Branch selectors 16 bits    2 bits for each 2 bytes of instruction code

Total            204 bits   128 instructions, 76 metadata

由于所有这些数据都存储在 L1 指令缓存中，K8/10 cpu 在解码和分支预测上花费的工作量要少得多。这节省了硅。
而且由于 AMD 的晶体管预算不如英特尔，因此它需要更智能地工作。

但是，如果代码是 esp。紧跳和 ret 可能占用相同的两个字节槽，这意味着RET被预测为未采取（因为它后面的跳转是）。
通过使RET占据两个字节REP RET这种情况永远不会发生，并且 RET 总是会被预测为正常。

Intel 没有这个问题，但（过去）受到预测槽数量有限的影响，而 AMD 则没有。

nop ret
从来没有理由去做nop ret。这是两条指令，浪费了一个额外的周期来执行nop和ret可能仍然与跳跃“配对”。
如果你想对齐使用REP MOV相反或使用multibyte nop.

结束语
仅本地分支预测与指令一起存储在高速缓存中。
还有一个单独的全局分支预测表。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

repz ret：为什么这么麻烦？的相关文章

避免 gcc 函数序言开销？

我最近遇到了很多 gcc 在 x86 上生成非常糟糕的代码的函数它们都符合以下模式 if some condition do something really simple and return else something comple
整数溢出问题

我不断遇到整数溢出问题我不知道如何解决它有人可以帮忙吗 edx 包含 181 eax 包含 174 xor eax edx mov edx 2 div edx 假设你谈论的是x86 div edx这实际上没有意义 32位div将edx
movzbl(%rdi, %rcx, 1), %ecx 在 x86-64 汇编中意味着什么？

我想我明白 movzbl rdi rcx 1 ecx 意思是将零扩展字节移至长整型并表示将 ecx 扩展为 32 位但我不完全确定语法 rdi rcx 1 指的是什么我在某处看到该语法指的是 Base Index Scale 但我找
Grub 和进入实模式（低级汇编语言编程）

我一直在开发一个玩具操作系统并一直使用 grub 作为我的引导加载程序最近尝试使用 VGA 时我发现无法使用硬件中断我发现这是因为我被 grub 置于保护模式有人知道如何在不删除 grub 的情况下回到实模式吗如果您使用 GRU
使用 Gas 生成与位置无关的代码 (-fPIC)

我尝试在 x86 64 上创建共享库但失败问题归结为以下代码请不要介意它没有多大意义 section data newline ascii n section text globl write newline type write n
当前的 x86 架构是否支持非临时加载（来自“正常”内存）？

我知道有关此主题的多个问题但是我没有看到任何明确的答案或任何基准测量因此我创建了一个处理两个整数数组的简单程序第一个数组a非常大 64 MB 第二个数组b很小无法放入 L1 缓存程序迭代a并将其元素添加到相应的元素中b在模块化
如何在 GCC C++ 中编写多行内联汇编代码？

这看起来不太友好 asm command 1 command 2 command 3 我真的必须在每一行加上双引号吗另外由于多行字符串文字在 GCC 中不起作用我也无法欺骗它我总是在互联网上找到一些例子该人手动插入制表符和换行符而
_mm_max_ss 在 clang 和 gcc 之间有不同的行为

我正在尝试使用 clang 和 gcc 交叉编译一个项目但在使用时发现一些奇怪的差异 mm max ss e g m128 a mm set ss std numeric limits
各种中断的区别：SCI、SMI、NMI、普通中断

我正在学习英特尔架构到目前为止我遇到过几种类型的中断 SCI 系统控制中断硬件使用的系统中断用于向操作系统通知 ACPI 事件 SCI 是一个有效低电平可共享的电平中断 SMI 系统管理中断由遗留系统上的中断事件生成的操作系统透
将 C 代码转换为 x86-64 汇编

我正在尝试将 C 代码转换为 x86 64 我的目标是反转链表传入的两个参数是 head ptr 和 offset to 以获取指针字段的地址即指向列表中下一个节点的指针据我了解 head ptr是通过rdi寄存器传入的 offset
如何在WinMobile6上启用ARMv6非对齐访问？

ARMv6 引入了一个很棒的功能未对齐的内存访问这使得代码中的某些事情变得更加简单和更快但微软只在winCE6中提供了API 现在大多数 PDA 都基于 WinMobile6 基于 CE 5 x 默认情况下禁用未对齐访问我尝试在 C
是否有适用于双打 (__m128d) 的 Move (_mm_move_ss) 和 Set (_mm_set_ss) 内在函数？

多年来我有几次看到 in 中的内在函数float参数被转换为 m128使用以下代码 m128 b mm move ss m mm set ss a 例如 void MyFunction float y m128 a mm move ss
为什么 LED 保持亮起而不是闪烁？

这是使用 pic16f676 中的 TIMER0 中断使 LED 闪烁的 MPASM 代码端口 A 的引脚 0 RA0 未切换至关闭位置请帮忙我是图片组装的新手我想掌握图片有没有高手帮我学习一下我需要以 1 秒的间隔眨眼代码是
错误：无法识别的指令 [ORG]

我试图编写一个引导加载程序以在 dos box 中使用我写了下面的代码 BITS 16 tell the assembler that its a 16 bit code ORG 0x7C00 Origin tell the assemb
如何恢复 x86-64 寄存器保存约定

fibonacci cmpq 1 rdi ja recursive movl 1 eax ret recursive push rbp push r10 movq rdi r10 leaq 2 rdi rdi call fibonacci
如果默认禁用 A20 线，如何在 0xFFFFFFF0 处访问 BIOS ROM？

我正在阅读有关 A20 线的信息http wiki osdev org A20 Line http wiki osdev org A20 Line 这似乎表明 A20 线默认被禁用在Pentium上如果硬复位后立即输出的地址为0xFFF
如何在 AVX/AVX2 中递增向量

我想使用内在函数来增加 SIMD 向量的元素最简单的方法似乎是为每个元素加 1 如下所示 note vec inc之前已设置为1 vec mm256 add epi16 vec vec inc 但是是否有任何特殊指令来增加向量类似于in
如何在汇编中使用 ReadString？

mov edx offset Prompt1 call WriteString mov ecx 32 mov edx offset String1 call ReadString 现在我该如何访问String1 如何将其移入寄存器以便对其
在现代 x86-64 上计算 64 位整数的整数 Log10 的最快方法是什么？

标题我找到了大量 32 位示例但没有找到完整的 64 位示例使用这个帖子 https codegolf stackexchange com questions 47290 fastest way to compute order of
如何使 gcc 为 -fpatchable-function-entry 发出多字节 NOP？

gcc确实有能力使用多字节用于对齐循环和函数的 NOP 然而当我尝试 fpatchable function entry option https gcc gnu org onlinedocs gcc Instrumentation Opt

随机推荐

Grails 插件 bean 的重写方法

Spring Security 插件提供了一个名为 springSecurityService 类型的 beangrails plugins springsecurity SpringSecurityService 我需要覆盖getCurr
在php中为长时间运行的进程创建后台进程

好吧如果这是另一个问题的重复请原谅我但经过搜索后我还没有找到明确的答案我基本上想做的是让我的 php Web 应用程序触发一些事件例如电子邮件发送器或报告生成器这些事件可能需要几分钟才能完成并立即将控制权返回到页面我来自 NE
如何在 IIS7 Windows Server 2008 R2 上启用 TLS1.2

我有一个在 IIS7 上提供服务的 Windows Server 2008 R2 我启用了 TLS 1 2 如下所示但不幸的是我的一位客户据说他们使用 TLS 1 2 时出现 SSL 连接错误当我尝试使用 OpenSSL 检查时 TL
从 fortran 而不是 C 调用 C++ 函数

是否可以从 FORTRAN 调用 C 函数例如 include
线程实时记录

我正在编写一个用于调整照片大小的简单脚本我想要一个带有文本字段的小部件其中在调整每个文件大小后会显示消息 usr bin python3 coding utf 8 import time sys from PyQt5 QtCore im
如何在 Swift 中从自定义编码/解码的 json 中删除数据模型 nil 字段

我正在尝试找到一种干净的方法来删除数据模型可选属性如果它 nil当在 Swift 中自定义编码解码我的数据模型时我的用例 import Foundation public struct Message public let txnID
如何从 PIG 中生成的包（其大小可能会有所不同）中提取第一个元组？

我正在生成一个信息包其大小包内元组的数量可能会有所不同由此我想动态提取第一个元素我该怎么做呢使用DataFu UDF FirstTupleFromBag http datafu incubator apache org do
C++ 精度：字符串到双精度

在对转换为双精度的字符串执行一些操作后我遇到了双精度的精度问题 include
访问 GridPane 节点时出现问题

我希望你能帮助我做一个我想做的小项目我正在尝试使用 JavaFX 的 GUI 创建视频游戏但遇到了一些麻烦这是我为练习而编写的代码我不知道为什么这不起作用 public class Main extends Application
预览期间找不到基于上传文件创建的 StreamedContent

我在 jsf 页面上创建了一个文件上传对话框和一个图像库每次上传图像后图库应显示迄今为止上传的所有图像图像将存储在后端 bean 中并且应该由图库从后端 bean 动态获取由于某种原因图库显示上传的图像标签但不显示引用图像因
选择每个类别的前 10 条记录

我想在一个查询中返回每个部分的前 10 条记录任何人都可以帮助如何做到这一点吗部分是表中的列之一数据库是 SQL Server 2005 我想返回按输入日期排列的前 10 名部分分为业务部分本地部分和特色部分对于某个特定日期我
codeigniter CSRF 错误：“不允许您请求的操作。”

我在 codeigniter 的配置文件中启用了 csrf protection 选项并使用 form open 函数来创建我的表单但是当我提交表单时出现以下错误不允许您请求的操作我已经完成了类似这个主题的答案与我的问题最相关
Pandas 列中所有字数的总和

我有一个包含字符串的 pandas 列我想获得整列中所有单词的字数在不循环每个值的情况下执行此操作的最佳方法是什么 df pd DataFrame a some words lots more words hi 当运行于df a 你应该
使用 Java 创建具有相似名称的文件而不覆盖现有文件

我想知道是否可以创建多个具有相似名称的文件而不覆盖当前文件例如如果我有一个文件 xyz txt 下次我创建它时应该是 xyz 1 txt try File makefile new File output txt FileWriter
c11 _Generic 泛型关联的结果表达式的每个分支都必须有效吗？

我似乎无法将参数传递给需要不同参数的函数或传递给实现第一个类型的子集的其他 Generic 宏 define DEBUG PRINT x Generic x debug print options DEBUG PRINT CUSTOM T
ORACLE NLS_LANG

如何设置和检查NLS LANG设置我做到了 set NLS LANG DANISH DENMARK WE8ISO8859P2 在命令提示符下但我不知道它是否正确这取决于操作系统和命令解释器 Linux bash echo NLS LA
CSS：根据其 href 设置链接样式

我的网站上有一个我想要设置样式的第三方链接但它没有任何我可以定位的类或 ID 它唯一拥有的就是它独特的 href 值是否可以根据其 href 值设置锚标记的样式您可以使用 href css 选择器来设置样式a基于链接的标签 a hre
如何使用 Python 获取 SVG 路径的高度、宽度和长度？

我有一个 svg 其中有大量这样的路径
FCM 字段“数据”必须是 JSON 数组

您好我正在与邮差一起制作我的 json 对象 FCM 消息但是当我尝试发送时 to fzvihT7dFUI APA91bFVhnWAxXVjlWiiHIs9ZUyL1DE2hZO6GpItJtReh3hcKF1kD6mLuQq9fNP9
repz ret：为什么这么麻烦？

的问题repz ret已经在这里介绍了 1 以及其他来源 2 3 还算满意然而在阅读这两个来源时我找到了以下问题的答案是什么actual定量比较中的惩罚ret or nop ret 尤其是在后一种情况下当大多数函数要么有 100

repz ret：为什么这么麻烦？

repz ret：为什么这么麻烦？ 的相关文章

随机推荐

热门标签

repz ret：为什么这么麻烦？的相关文章