为什么指令高速缓存对齐可以提高组相联高速缓存实现的性能？

2024-03-18

我有一个关于指令缓存对齐的问题。我听说，对于微优化，对齐循环使其适合缓存行可以稍微提高性能。我不明白为什么那会有什么作用。

我了解缓存命中的概念及其对计算速度的重要性。

但似乎在组关联缓存中，相邻的代码块不会映射到同一个缓存组。因此，如果循环跨越代码块，CPU 仍应获得缓存命中，因为该相邻块尚未被前一个块的执行逐出。这两个块都可能在循环期间保持缓存。

所以我能想到的是，如果对齐可以有所帮助的说法是真实的，那么它一定是来自某种其他效果。

切换缓存行有成本吗？

缓存命中是否存在差异，一种是您获得命中，另一种是您命中当前正在读取的同一缓存行？

将整个函数（或函数的热门部分，即通过它的快速路径）保留在较少的缓存行中可以减少 I-cache 占用空间。因此，它可以减少缓存未命中的次数，包括在启动时大部分缓存未命中的情况。在缓存行结束之前循环结束可以给硬件预取时间来获取下一个缓存行。

访问 L1i 缓存中存在的任何行都需要花费相同的时间。（除非你的缓存使用路径预测：这引入了“缓慢打击”的可能性。看这些幻灯片 https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-823-computer-system-architecture-fall-2005/lecture-notes/l08_caches_2.pdf提及并简要描述这个想法。显然MIPS r10k的L2缓存使用了它，所以也是如此阿尔法21264 https://www.csee.umbc.edu/portal/help/architecture/alpha21264a.pdf的L1指令缓存在其 2 路关联 64kiB L1i 中使用“分支目标”与“顺序”方式。或者查看谷歌搜索时出现的任何学术论文cache way prediction就像我一样。）

除此之外，其影响并不在于缓存行边界，而在于超标量 CPU 中对齐的取指令块。你是对的，影响不是来自你正在考虑的事情。

See 现代微处理器 90 分钟指南！ http://www.lighterra.com/papers/modernmicroprocessors/超标量（和乱序）执行的介绍。

Many superscalar CPUs do their first stage of instruction fetch using aligned accesses to their I-cache. Lets simplify by considering a RISC ISA with 4-byte instruction width¹ and 4-wide fetch/decode/exec. (e.g. MIPS r10k, although IDK if some of the other stuff I'm going to make up reflects that microarch exactly).

   ...
 .top_of_loop:
    insn1                ; at address 16*n + 12
      ; 16-byte boundary here
    insn2                ; at address 16*n + 0
    insn3                ; at address 16*n + 4
    b  .top_of_loop      ; at address 16*n + 8

    ... after loop       ; at address 16*n + 12
    ... after loop       ; at address 16*n + 0

如果没有任何类型的循环缓冲区，则每次执行时，获取阶段都必须从 I-cache 中获取循环指令。但每次迭代至少需要 2 个周期，因为循环跨越两个 16 字节对齐的读取块。它无法在一次未对齐的读取中读取 16 字节的指令。

但是，如果我们对齐循环的顶部，则可以在单个循环中获取它，如果循环体没有其他瓶颈，则允许循环以 1 个循环/迭代运行。

   ...
    nop                  ; at address 16*n + 12         ; NOP padding for alignment
 .top_of_loop:       ; 16-byte boundary here
    insn1                ; at address 16*n + 0
    insn2                ; at address 16*n + 4
    insn3                ; at address 16*n + 8
    b  .top_of_loop      ; at address 16*n + 12

    ... after loop       ; at address 16*n + 0
    ... after loop       ; at address 16*n + 4

对于不是 4 条指令的倍数的较大循环，仍然会在某处进行部分浪费的获取。不过，通常最好它不是循环的顶部。对于不适合的代码，尽早将更多指令放入管道有助于 CPU 找到并利用更多指令级并行性purely取指令遇到瓶颈。

一般来说，调整分支目标（包括函数入口点）乘以 16 可能会获胜（代价是较低的代码密度带来更大的 I-cache 压力）。如果您在 1 或 2 条指令之内，则一个有用的权衡可以是填充到下一个 16 的倍数。例如因此在最坏的情况下，一个读取块至少包含 2 或 3 条有用的指令，而不仅仅是 1 条。

这就是 GNU 汇编器支持的原因.p2align 4,,8 https://sourceware.org/binutils/docs/as/P2align.html#P2align：如果距离 8 个字节或更近，则填充到下一个 2^4 边界。事实上，GCC 确实针对某些目标/架构使用该指令，具体取决于调整选项/默认值。

在非循环分支的一般情况下，您也不希望跳转到缓存行末尾附近。那么您可能会立即遇到另一个 I-cache 未命中。

脚注1：

该原理也适用于具有可变宽度指令的现代 x86，至少当它们具有解码的 uop 缓存未命中迫使它们实际从 L1I 缓存获取 x86 机器代码时。并且适用于较旧的超标量 x86，如 Pentium III 或 K8，没有 uop 缓存或环回缓冲区（无论对齐如何，都可以使循环高效）。

但 x86 解码非常困难，需要多个管道阶段，例如对一些简单的find指令边界，然后将指令组馈送到解码器。如果预解码可以赶上，则仅初始提取块对齐，并且阶段之间的缓冲区可以隐藏解码器中的气泡。

https://www.realworldtech.com/merom/4/ https://www.realworldtech.com/merom/4/显示了 Core2 前端的详细信息：16 字节读取块，与 PPro/PII/PIII 相同，提供预解码阶段，可扫描最多 32 字节并查找最多 6 个指令 IIRC 之间的边界。然后，将另一个缓冲区提供给完整的解码阶段，该阶段可以将最多 4 条指令（5 条带有 test 或 cmp + jcc 的宏融合）解码为最多 7 个 uops...

Agner Fog 的微架构指南 https://agner.org/optimize/有一些关于优化 x86 asm 以解决 Pentium Pro/II 与 Core2 / Nehalem 与 Sandybridge 系列以及 AMD K8/K10 与 Bulldozer 与 Ryzen 上的读取/解码瓶颈的详细信息。

现代 x86 并不总是受益于对齐。代码对齐会产生一些影响，但它们通常并不简单，而且并不总是有益的。事物的相对对齐可能很重要，但通常对于诸如哪些分支在分支预测器条目中彼此别名，或者微指令如何打包到微指令缓存之类的事情而言。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么指令高速缓存对齐可以提高组相联高速缓存实现的性能？的相关文章

长延迟指令

I would like a long latency single uop x861 instruction in order to create long dependency chains as part of testing mic
可以直接使用程序集访问缓存吗？

就效率而言缓存是一个核心问题我知道缓存通常会自动发生但是我想自己控制缓存的使用因为我认为我可以比一些不知道确切程序的启发式方法做得更好因此我需要汇编指令来直接移入或移出高速缓存单元 like movL1 address con
GCC最高指令集，兼容多种架构

我正在由具有不同架构的机器组成的集群上运行作业 gcc march native Q help target grep march cut f3给了我其中之一 broadwell haswell ivybridge sandybridge
在 x86-64 中使用 32 位寄存器/指令的优点

有时 gcc 使用 32 位寄存器而我希望它使用 64 位寄存器例如以下 C 代码 unsigned long long div unsigned long long a unsigned long long b return a b
在 x86-64 asm 中：如果源操作数是两个立即值，是否有办法优化两个相邻的 32 位存储/写入内存？

有没有一个好的方法来优化这段代码 x86 64 mov dword ptr rsp 0 mov dword ptr rsp 4 0 其中立即值可以是任何值不一定为零但在这种情况下始终是立即常量原双店还慢吗硬件中的写组合和 op 的并
现代 x86 成本模型

我正在编写一个带有 x86 后端的 JIT 编译器并一边学习 x86 汇编程序和机器代码我大约 20 年前使用过 ARM 汇编器对这些架构之间成本模型的差异感到惊讶具体来说内存访问和分支在 ARM 上的成本很高但等效的堆栈操作和
如何确定 Windows 10 上可执行二进制文件的体系结构

给定一些Random exe在 Windows 上我如何确定它的CPU架构例如Intel ARM 以及它的位数例如 32 或 64 我可以使用文件资源管理器其他工具或编程方法中的属性吗 Cygwin https www cygw
字大小及其指示

请参阅下面关于各种指令集架构中的字长以及它与汇编语言的关系的问题感谢您提供的所有帮助先说几个事实如有错误请指正处理器架构的字长表示编辑其中一些是错误的请参阅下面 Seva 的帖子每个寄存器的最大尺寸每个内存地址的最大尺寸
#pragma pack、模板类型定义和结构对齐

使用 Visual Studio 或 gcc 如果有的话 pragma pack push 16 typedef std map
CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？

这似乎是一个奇怪的问题假设缓存行的大小为 64 字节此外假设 L1 L2 L3 具有相同的缓存行大小 this https stackoverflow com a 15333156 8385554帖子说英特尔酷睿 i7 就是这种情况
为什么x86分页没有特权环的概念？

早在 1982 年当 Intel 发布 80286 时他们在分段方案中添加了 4 个特权级别环 0 3 由全局描述符表 GDT 和局部描述符表 LDT 中的 2 位指定在 80386 处理器中 Intel 添加了分页功能但令人惊讶
在 x86 ASM 中测试零通常哪个更快：“TEST EAX, EAX”与“TEST AL, AL”？

测试 AL 中的字节是否为零非零通常哪个更快 TEST EAX EAX TEST AL AL 假设之前有一个 MOVZX EAX BYTE PTR ESP 4 指令加载了一个带有零扩展的字节参数到 EAX 的其余部分防止了我已经知道的组
为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
为什么我的空循环在 Intel Skylake CPU 上作为函数调用时运行速度是原来的两倍？

我正在运行一些测试来比较 C 和 Java 并遇到了一些有趣的事情在 main 调用的函数中而不是在 main 本身中运行具有优化级别 1 O1 的完全相同的基准代码导致性能大约翻倍我正在打印 test t 的大小以毫无疑问地验
没有 FPU 的处理器中的浮点计算

是否可以在没有浮点单元的嵌入式处理器中执行浮点运算是的您只需要在软件中完成即可你的编译器可能会提供支持 http gcc gnu org onlinedocs gccint Soft float library routines ht
使用 NEON 优化 Cortex-A8 颜色转换

我目前正在执行颜色转换例程以便从 YUY2 转换为 NV12 我有一个相当快的函数但没有我预期的那么快主要是由于缓存未命中 void convert hd uint8 t orig uint8 t result uint32 t wi
POD 结构或标准布局类型的成员是否保证根据其对齐要求进行对齐？

给定一个 POD 结构在 C 03 中或一个标准布局类型在 C 11 中所有成员都有基本对齐要求是否可以保证每个成员都根据其对齐要求进行对齐换句话说对于所有成员m k in m0 mn标准布局类型的 S struct S T0
我们可以拥有一台只用寄存器作为内存的计算机吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案寄存器是计算机中最快的存储器那么如果我们想构建一台只有寄存器甚至没有缓存的计算机可能吗我什至考虑用寄存器代替磁盘尽管它们本质上是易
当前的 x86 架构是否支持非临时加载（来自“正常”内存）？

我知道有关此主题的多个问题但是我没有看到任何明确的答案或任何基准测量因此我创建了一个处理两个整数数组的简单程序第一个数组a非常大 64 MB 第二个数组b很小无法放入 L1 缓存程序迭代a并将其元素添加到相应的元素中b在模块化
这种尺寸对齐是如何工作的

对于所提供的评论我无法理解以下代码这段代码的作用是什么以及等效的代码是什么8 aligned segment size must be 4 aligned attr gt options ssize 3 Here ssize is o

随机推荐

为什么使用 twitter bootstrap 的多模式会出现过多递归错误？

我尝试在另一个模态中包含一个模态但是我收到了类似的错误too much recursion在火狐浏览器中我使用了最新的 jQuery 和 Twitter bootstrap 但仍然有这个问题这里是plunker http plnkr
Windows 服务托管 TCP WCF 服务

我正在尝试在 Windows 2008 R2 服务器上托管 WCF 服务作为 Windows 服务我按照 msdn 提供的指示进行操作在这里找到 http msdn microsoft com en us library ff64981
如何在不创建用户帐户的情况下只允许每人（电脑/手机）对网站上的 1 个帖子投 1 票？

在学习 Meteor 框架的过程中我正在将 Yik Yak 移动应用程序重新创建为 Web 应用程序但该应用程序是完全匿名的没有用户帐户但您仍然只能对帖子投赞成票或反对票一次如何使这项工作有效您想要的可能不仅仅需要 JavaSc
网格视图数据绑定事件

如何使用网格视图的数据绑定事件以及如何调用它有人可以详细说明一下吗我像这样在按钮上绑定 gridview DataTable dt placedStudentManager GetPlacedStudentList sb passoutY
set.pop() 是确定性的吗？

我知道 python 集合的元素是没有顺序的调用pop方法返回任意元素我对此很满意我想知道当集合具有相同的历史记录时 pop 是否总是返回相同的元素当然在一个版本的 python 中我不介意 python 的不同版本实现是否做
在 Android 密钥库中存储 hmac 密钥

我使用下面的代码创建 hmac 密钥并将其作为字符串返回 KeyGenerator keyGen null try keyGen KeyGenerator getInstance HmacSHA256 catch NoSuchAlgorit
如何使用目标接口将编译选项添加到 CMake FetchContent 依赖项

我有一个使用 CMake 的依赖项FetchContent需要使用一些构建标志来构建 cmake DFLAG ON 这个问题也被问到here https stackoverflow com questions 68708076 how to
在 Elastic Beanstalk 上运行 .config 文件？

我正在尝试在我的弹性豆茎上运行自定义 config 文件我正在按照以下说明进行操作这个链接 http www tonmoygoswami com 2013 05 how to enable gzip on amazon elastic h
在 C# 中使用 RSA

如何在 C 中使用 RSA 加密技术加密文本或任何其他媒体我需要使用任何外部库还是有任何内置的东西一个小示例代码会有所帮助 Use 系统安全加密 RSACryptoServiceProvider http msdn microsof
OpenShift action_hooks 不可执行

当我在 OpenShift 中创建测试 DIY 应用程序时 action hooks工作正常但现在我创建了一个实际的应用程序当我推送更改时它们不会触发我做了一些调查发现了问题由于某种原因操作挂钩无法执行我检查过它们在测试应用
在 C# 中无法获得与 Python 中相同的哈希值

我有一个字符串需要对其进行哈希处理才能访问 API API 创建者在 Python 中提供了一个 codenippet 它对代码进行哈希处理如下所示 hashed string hashlib sha1 string to hash h
定义 Netfilter 挂钩函数的正确方法是什么？

我正在编写一个内核模块更具体地说一个网络过滤器模块适用于 Linux 我试图使其与各种内核兼容但入口功能给我带来了麻烦从 LXR 中我可以看到nf hookfntypedef 在内核 3 13 中发生了变化 Linux 3 12
PHP：将字符串中的前导零连接到个位数

我有这个示例字符串 hello77boss2america 9 22 fr99ee 9 应在字符串的所有个位数前面添加前导 0 结果应该是 hello77boss02america 09 22 fr99ee 09 我尝试了下面的代码 str
更改 Google Maps JavaScript API v3 圈外的地图不透明度

所以我目前在地图上画了一个圆圈 var optionsCercle center latlang map map radius 1000 fillOpacity 0 1 strokeWeight 0 this circ new google
如何将数据从活动传递到正在运行的服务

我想定期向服务器发送数据我正在使用后台Service为此但我想在数据更新时发送并且我正在获取更新的数据Activity和Service在后台运行那么我如何将数据传递给运行Service from Activity Using Int
如何在地图图钉注释中显示图像？

我有一个视图 gt gt 子视图 mkmapview in that i want to show image my current image is like this 我想这样展示我怎样才能做到这一点我如何在此注释中添加图像您正在
itertool 和 multiprocessing，如何并行生成所有可能的组合

我有以下代码它生成产生给定总和 n 的所有可能组合然而对于大数字 n 此代码需要很长时间有没有办法可以跨多个处理器并行化我的代码 from itertools import combinations with replacement
访问 Pundit 策略中的会话参数

看来 Pundit 策略不访问会话参数 As 构造不将会话识别为有效的变量或方法有什么方法可以访问会话或其他参数吗 class MyModelPolicy def create contructs Construct where id s
如何在Python上计算文件中的“test”单词数量？

我有一个由许多字符串组成的文件好像 sdfsdf sdfsdfsdf sdfsdfsdf 测试 gggg uff 测试测试ffffffff sdgsdgsdgsdg sdgsdgsdgsdg uuuttt 555555555 ddfdfd
为什么指令高速缓存对齐可以提高组相联高速缓存实现的性能？

我有一个关于指令缓存对齐的问题我听说对于微优化对齐循环使其适合缓存行可以稍微提高性能我不明白为什么那会有什么作用我了解缓存命中的概念及其对计算速度的重要性但似乎在组关联缓存中相邻的代码块不会映射到同一个缓存组因此如果循环跨

为什么指令高速缓存对齐可以提高组相联高速缓存实现的性能？

为什么指令高速缓存对齐可以提高组相联高速缓存实现的性能？ 的相关文章

随机推荐

热门标签

为什么指令高速缓存对齐可以提高组相联高速缓存实现的性能？的相关文章