intel core i7 处理器使用哪种缓存映射技术？

2024-03-03

我了解了不同的缓存映射技术，例如直接映射和完全关联或集关联映射，以及这些技术之间的权衡。 (维基百科 https://en.wikipedia.org/wiki/Cache_placement_policies)

但我很好奇现在Intel core i7和AMD处理器用的是哪一种？

这些技术是如何演变的？以及还有哪些需要改进的地方？

现代高性能CPU中基本上不使用直接映射缓存。相同大小的组相联高速缓存在命中率方面的巨大优势超过了节能，而控制逻辑的复杂性仅增加了一点。如今晶体管预算非常大。

软件中至少有几个彼此间隔为 4k 倍数的阵列是很常见的，这会在直接映射缓存中产生冲突未命中。（如果循环需要一次迭代所有数组，则调整具有多个数组的代码可能会涉及倾斜它们以减少冲突遗漏）

现代 CPU 的速度非常快，以至于 DRAM 延迟超过 200 个核心时钟周期，即使对于功能强大的乱序执行 CPU 来说，这个延迟也太大了，无法很好地隐藏缓存未命中的情况。

多级缓存必不可少（并且使用的是所有高性能CPU）为最热门的数据（例如，每个时钟最多 2 次加载和 1 次存储 https://electronics.stackexchange.com/questions/329789/how-can-cache-be-that-fast/329955#329955，在 L1D 缓存和向量加载/存储执行单元之间具有 128、256 甚至 512 位路径），同时仍然足够大以缓存合理大小的工作集。对于典型工作负载来说，构建一个非常大/非常快/高度关联的缓存，其性能与当前的多级缓存一样，在物理上是不可能的；当数据必须物理传输很远时，光速延迟是一个问题。电力成本也将令人望而却步。（事实上，功率/功率密度是现代 CPU 的主要限制因素，请参见现代微处理器：90 分钟指南！ http://www.lighterra.com/papers/modernmicroprocessors/.)

在我所知道的所有 x86 CPU 中，所有级别的缓存（除了 uop 缓存）都有物理索引/物理标记。大多数设计中的 L1D 缓存从页面偏移下方获取索引位，因此也是 VIPT，允许 TLB 查找与标签获取并行发生，但不会出现任何别名问题。因此，不需要在上下文切换或其他任何情况下刷新缓存。（看有关多级缓存的更多信息，请参阅此答案 https://stackoverflow.com/questions/4666728/why-is-the-size-of-l1-cache-smaller-than-that-of-the-l2-cache-in-most-of-the-pro/38549736#38549736一般情况和 VIPT 速度技巧，以及一些实际 x86 CPU 的一些缓存参数。）

私有（每核）L1D / L1I 和 L2 缓存是传统的组关联缓存，通常是 8 路或 4 路，用于小/快速缓存。所有现代 x86 CPU 上的高速缓存行大小均为 64 字节。数据缓存是回写式的。（AMD Bulldozer 系列除外，其中 L1D 使用小型 4kiB 写入组合缓冲区进行直写。）

http://www.7-cpu.com/ http://www.7-cpu.com/对于各种微架构（包括许多 x86）具有良好的缓存组织/延迟数、带宽和 TLB 组织/性能数像哈斯韦尔 http://www.7-cpu.com/cpu/Haswell.html.

英特尔 Sandybridge 系列中的“L0”解码 uop 缓存是集关联且虚拟寻址的。最多 3 个块（最多 6 个微指令）可以缓存 32 字节机器代码块中指令的解码结果。有关的：涉及 Intel SnB 系列 CPU 上微编码指令的循环的分支对齐 https://stackoverflow.com/questions/26907523/branch-alignment-for-loops-involving-micro-coded-instructions-on-intel-snb-famil。（uop 缓存对于 x86 来说是一个巨大的进步：x86 指令是可变长度的并且难以快速/并行解码，因此缓存内部解码结果以及机器代码 (L1I$) 具有显着的功率和吞吐量优势。仍然需要解码器，因为 uop 缓存不大；它在循环（包括中到大循环）中最有效。这避免了 Pentium4 的错误（或基于当时传输器大小的限制），即解码器较弱并依赖于跟踪缓存。）

现代英特尔（和 AMD，我认为）L3 又名 LLC 又名最后一级缓存使用的索引功能不仅仅是地址位范围。它是一个哈希函数，可以更好地分配事物，以减少固定步幅的冲突。根据英特尔的说法，我的缓存应该是 24 路关联，尽管它是 12 路，这是怎么回事？ https://stackoverflow.com/questions/37162132/according-to-intel-my-cache-should-be-24-way-associative-though-its-12-way-how#comment82934821_47974587.

从尼黑勒姆开始，英特尔使用了large 包括的共享 L3 缓存，过滤内核之间的一致性流量。即，当一个核心读取另一个核心的 L1d 中处于修改状态的数据时，L3 标签会指示哪个核心，因此 RFO（读取所有权）只能发送到该核心，而不是广播。现代 Intel CPU L3 缓存是如何组织的？ https://stackoverflow.com/questions/28891349/how-are-the-modern-intel-cpu-l3-caches-organized。包容性属性很重要，因为这意味着私有 L2 或 L1 缓存不能在 L3 不知道的情况下拥有缓存行的副本。如果它在私有缓存中处于独占或修改状态，L3 将具有该行的无效数据，但标签仍会说明哪个核心可能有副本。绝对没有副本的核心不需要发送有关它的消息，从而节省了核心和 L3 之间的内部链路的功耗和带宽。看为什么片上缓存一致性会继续存在 http://Why%20On-Chip%20Cache%20Coherence%20is%20Here%20to%20Stay有关英特尔“i7”（即 Nehalem 和 Sandybridge 系列，它们是不同的架构，但使用相同的缓存层次结构）中片上缓存一致性的更多详细信息。

Core2Duo具有共享的最后一级缓存 (L2)，但在 L2 未命中时生成 RFO（读取所有权）请求的速度很慢。因此，具有适合 L1d 的小缓冲区的内核之间的带宽与不适合 L2 的大缓冲区的内核之间的带宽一样慢（即 DRAM 速度）。当缓冲区适合 L2 但不适合 L1d 时，大小范围很快，因为写入核心将自己的数据逐出到 L2，而其他核心的负载可以在不生成 RFO 请求的情况下命中。（看图 3.27：2 个线程的核心 2 带宽 http://Memory%20part%202:%20CPU%20caches在 Ulrich Drepper 的《每个程序员都应该了解内存》中。 (完整版在这里 https://stackoverflow.com/questions/8126311/what-every-programmer-should-know-about-memory/47714514#47714514).

Skylake-AVX512 具有更大的每核 L2（1MiB，而不是 256k），以及每核更小的 L3 (LLC) 切片。不再具有包容性。它使用网状网络而不是环形总线将核心相互连接。看这篇 AnandTech 文章 https://www.anandtech.com/show/11550/the-intel-skylakex-review-core-i9-7900x-i7-7820x-and-i7-7800x-tested/4（但其他页面上的微架构细节有一些不准确，看我留下的评论 https://www.anandtech.com/comments/11550/the-intel-skylakex-review-core-i9-7900x-i7-7820x-and-i7-7800x-tested/565778).

From 英特尔® 至强® 处理器可扩展家族技术概述 https://software.intel.com/en-us/articles/intel-xeon-processor-scalable-family-technical-overview

因为有限责任公司的非包容性，LLC 中缺少缓存行并不表示该行不存在于任何内核的私有缓存中。因此，当高速缓存行未在 LLC 中分配时，使用窥探过滤器来跟踪内核的 L1 或 MLC 中的高速缓存行的位置。在上一代 CPU 上，共享 LLC 本身负责此任务。

这种“窥探过滤器”只有在不会出现漏报的情况下才有用。发送无效或 RFO 是可以的（MESI https://en.wikipedia.org/wiki/MESI_protocol）到没有行副本的核心。当另一个核心请求独占访问某行时，让一个核心保留该行的副本是不行的。因此，它可能是一个包含标签的跟踪器，它知道哪些核心可能拥有哪一行的副本，但不缓存任何数据。

或者也许窥探过滤器在不严格包含所有 L2 / L1 标签的情况下仍然有用。我不是多核/多插槽监听协议方面的专家。我think相同的监听过滤器还可以帮助过滤套接字之间的监听请求。（在 Broadwell 及更早版本中，只有四路和更高版本的 Xeon 具有针对核心间流量的窥探过滤器；仅双插槽 Broadwell Xeon 及更早版本不会过滤两个插槽之间的监听请求 https://stackoverflow.com/questions/48872306/what-comes-after-intel-xeon-broadwell-dual-processors.)

AMD 锐龙对核心集群使用单独的 L3 缓存 https://www.anandtech.com/show/11170/the-amd-zen-and-ryzen-7-review-a-deep-dive-on-1800x-1700x-and-1700/9，因此必须在每个集群的 L3 中复制跨多个核心共享的数据。同样重要的是，来自一个集群中的核心的写入需要更长的时间才能对另一集群中的核心可见，并且一致性请求必须通过集群之间的互连。（类似于多插槽 Intel 系统中的插槽之间，每个 CPU 包都有自己的 L3。）

因此，这为我们提供了 NUCA（非统一缓存访问），类似于多插槽系统中常见的 NUMA（非统一内存访问），其中每个处理器都内置了一个内存控制器，并且访问本地内存是比访问连接到另一个插槽的内存更快。

最新的 Intel 多插槽系统具有可配置的监听模式，因此理论上您可以调整 NUMA 机制，使其最适合您正在运行的工作负载。看Intel 关于 Broadwell-Xeon 的页面 https://software.intel.com/en-us/articles/intel-xeon-processor-e5-2600-v4-product-family-technical-overview获取可用侦听模式的表格和说明。

另一个进步/进化是IvyBridge 及更高版本的 L3 中的自适应替换策略 http://blog.stuffedcow.net/2013/01/ivb-cache-replacement/。当某些数据具有时间局部性但工作集的其他部分要大得多时，这可以减少污染。（即循环一个巨大的数组伪LRU https://en.wikipedia.org/wiki/Pseudo-LRU（L1 和 L2 缓存使用的）将逐出所有内容，留下 L3 缓存仅缓存数组中不会很快再次触及的数据。自适应替换试图缓解这个问题。）显然 https://stackoverflow.com/questions/76977137/why-number-of-processor-cycles-required-to-process-a-single-array-element-grows?noredirect=1#comment135718763_76977137英特尔使用某种形式LFU 更换 https://en.wikipedia.org/wiki/Least_frequently_used这些天至少在 L1 和 L2 中。（TODO：找到更多权威和详细的信息。）

进一步阅读：

《每个程序员都应该了解的内存知识》中有多少仍然有效？ https://stackoverflow.com/questions/8126311/what-every-programmer-should-know-about-memory/47714514#47714514
为什么 Skylake 在单线程内存吞吐量方面比 Broadwell-E 好很多？ https://stackoverflow.com/questions/39260020/why-is-skylake-so-much-better-than-broadwell-e-for-single-threaded-memory-throug？（多核 Xeon CPU 上的单线程内存带宽受 max_concurrency/延迟限制，而不是 DRAM 带宽）。
http://users.atw.hu/instlatx64/ http://users.atw.hu/instlatx64/用于内存性能计时结果
http://www.7-cpu.com/ http://www.7-cpu.com/用于缓存/TLB 组织和延迟数。
http://agner.org/optimize/ http://agner.org/optimize/有关微体系结构详细信息（主要是关于执行管道，而不是内存）和 asm / C++ 优化指南。
Stack Overflow 的 x86 标签 wiki https://stackoverflow.com/tags/x86/info有一个性能部分，其中包含指向这些内容以及更多内容的链接。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

intel core i7 处理器使用哪种缓存映射技术？的相关文章

这段汇编语言代码是什么意思？

我是一名学生刚刚开始学习汇编语言为了更好地理解它我只是用 C 写了一个简短的代码并将其转换为汇编语言奇怪的是我有点听不懂代码是 include
为 Visual Studio 应用程序设置平台目标的目的是什么？

对于任何 VS 项目都可以在该项目的构建属性中设置平台目标您可以将其设置为任何 CPU x86 x64 或 Itanium 我的问题是如果我将此值设置为 x86 是否意味着我无法在 x64 计算机上运行该项目如果是这样为什么还要使
如何在汇编语言中换行打印多个字符串

我试图在汇编中的不同行上打印多个字符串但使用我的代码它只打印最后一个字符串我对汇编语言非常陌生所以请耐心等待 section text global start start mov edx len mov edx len1 mov
为什么x86分页没有特权环的概念？

早在 1982 年当 Intel 发布 80286 时他们在分段方案中添加了 4 个特权级别环 0 3 由全局描述符表 GDT 和局部描述符表 LDT 中的 2 位指定在 80386 处理器中 Intel 添加了分页功能但令人惊讶
当我打开在 Xcode 4 中创建的 Google 地图项目时，Xcode 5 会警告我的架构设置

我刚刚更新到新发布的 Xcode 5 我正在开发一个使用 Google 地图 iOS SDK 的 iOS 应用程序当我在 Xcode 4 中开发时我改变了我的Architectures在我的项目设置中进行设置按照 Google 的步骤
如何在 Linux x86_64 上模拟 iret

我正在编写一个基于 Intel VT 的调试器由于当 NMI Exiting 1 时 iret 指令在 vmx guest 中的性能发生了变化所以我应该自己处理vmx主机中的NMI 否则 guest会出现nmi可重入错误我查了英特尔手
程序集比较标志理解

我正在努力理解汇编程序中的以下代码片段 if EAX gt 5 EBX 1 else EBX 2 在汇编程序中可以写如下根据我的书模拟jge操作说明 https www felixcloutier com x86 jcc您通常会使用
AVX-512 指令编码 - {er} 含义

在 Intel x86 指令集参考中有许多 AVX 512 指令在指令中具有可选的 er 例如 VADDPD 的一种形式定义为 EVEX NDS 512 66 0F W1 58 r VADDPD zmm1 k1 z zmm2 zmm3 m
linux x86 汇编语言 sys_read 调用的第一个参数应为 0 (stdin)

我正在编写一个简单的汇编程序来从标准输入读取如 scanf 这是我的代码 section bss num resb 5 section txt global start start mov eax 3 sys read mov ebx 0
如何在程序中将自己缝合到自己的尾部，无限循环地封装 64KB 代码段？

如果指令的顺序执行经过偏移量 65535 则8086将从同一代码段中的偏移量 0 处获取下一个指令字节接下来的 COM 程序利用这一事实不断将其整个代码总共 32 个字节缝合到自己的尾部环绕在 64KB 代码段中你可以称之为二元
是否可以在VM内使用VMX CPU指令？

VM guest 内部的进程是否有可能使用 VMX AMD V VT x CPU 指令然后由外部 VMM 处理而不是直接在 CPU 上处理 Edit 假设外部VM使用VMX本身来管理其虚拟客户机即它在Ring 1中运行如果可能的话是
在 x86 程序集中存储大量布尔值的最佳方法是什么？

最近我一直在处理充满布尔值的大型数组目前我将它们存储在 bss部分有一个 space指令它允许我创建字节数组但是由于我只需要存储布尔值因此我希望从数组中逐位读取和写入数据目前我能想到的最好方法是有一个 space指令所需存储
为什么我的代码显示垃圾？

当我也想打印列表中的每个数字时我的代码显示垃圾有什么问题吗输出应如下所示给定的数组是 2G 4 PT为什么这是垃圾总数是 7 Code ASSUME CS CODE DS DATA SS STK ORG 0000H DATA SEG
是否可以在Linux上将C转换为asm而不链接libc？

测试平台为Linux 32位但也欢迎 Windows 32 位上的某些解决方案这是一个c代码片段 int a 0 printf d n a 如果我使用 gcc 生成汇编代码 gcc S test c 然后我会得到 movl 0 28 e
添加冗余赋值可以在未经优化的情况下编译时加快代码速度

我发现一个有趣的现象 include
我们可以拥有一台只用寄存器作为内存的计算机吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案寄存器是计算机中最快的存储器那么如果我们想构建一台只有寄存器甚至没有缓存的计算机可能吗我什至考虑用寄存器代替磁盘尽管它们本质上是易
为什么在展开的 ADD 循环内重新初始化寄存器会使其运行速度更快，即使循环内有更多指令？

我有以下代码 include
汇编器8086将32位数字除以16位数字

我尝试将 32 位数字除以 16 位数字例如 10000000h 除以 2000h 根据我尝试做的设计除以右 4 位数字除以除数然后左 4 位数字除以除数这是我的代码 DATA num dd 10000000h divisor dw
超标量和 VLIW

我想问一些关于ILP的问题超标量处理器是标量处理器和矢量处理器的混合体那么我可以说矢量处理器的架构遵循超标量吗同时处理多个指令不会使体系结构超标量因为流水线多处理器或多核体系结构也可以实现这一点这意味着什么我读过超标量 CP
Clang 编译器 (x86)：80 位长双精度

我正在尝试在 x86 Windows 平台上使用本机 80 位长双精度海湾合作委员会选项 mlong double 80 https gcc gnu org onlinedocs gcc x86 Options html似乎不适用于 cl

随机推荐

如何在 Android 设备上的 ionic2 中获取 IMEI

我试图在 ionic 2 中获取 Android 设备的 IMEI 但到目前为止还没有成功在 ionic 1 中我只使用了 ngCordova 插件例如 cordova uidhttps github com hygieiasoft
如何使用 __import__ 导入 *

使用以下命令执行以下操作的最佳方法是什么 import 这样我就可以动态指定模块 from module import 我发现的唯一方法 module import module globals locals for k in dir mo
FB 在新窗口中分享

我已经使用以下代码进行了 FB 共享 a target blank href http 3A 2F 2Fwww facebook com 2Fshare php 3Fu 3Dhttp 3A 2F 2Fferalmotion com 2Fsh
如果数字前面有减号，如何将其格式化为 Lac 或 Crores

将数字转换为十万千万卢比 https en wikipedia org wiki Indian numbering system仅适用于正数尝试转换为字符串并返回但这对我不起作用我还需要转换负数例如 330000应该转换为 3 30
如何将额外的数据存储到多卷曲信息处理程序中？

我无法在多卷曲场景中找到有关特定卷曲句柄的更多信息这是代码 job count 5 while eachPr prList gt fetch for job number 1 job number lt job count job num
自由终端时间、积分目标和微分方程作为约束

我正在尝试解决一个最优控制问题该问题涉及最小化具有固定状态但自由终端时间的积分目标这是一个相对简单的问题可以通过解析来解决 Gekko 的解决方案与解析不符我不确定我做错了什么我遵循了几个 Gekko 示例来解决这个问题任何帮助
以有限并发数并行执行

我想在 Silverlight 5 中以有限的并发性并行执行异步操作我的代码是这样的 public async void btn click object s RoutedEventArgs e await DoAllWork priva
如何将 TeamCity 构建版本获取到非托管 DLL 和 OCX 控件中？

我有一个包含托管 C 和非托管 C 项目的 TeamCity 构建解决方案是否有类似于 Assembly Info Patcher 的 TeamCity 实用程序可以更改非托管 C DLL 和 OCX 项目的 rc 文件中的版本号以匹配
使用 if() 重命名子文件夹中的文件

我正在尝试使用逗号分隔值重命名 PDF 文件当我的所有 PDF 都位于一个文件夹中时以下脚本有效 myHeader echo fileName newName Import Csv PSScriptRoot list names txt
如何在 JavaScript MVC3 Razor 视图引擎 .cshtml 中创建会话变量

我正在使用 MVC3 和 Razor View 引擎我有 cshtml 页面因为我有一个 JavaScript 函数在该 JavaScript 函数内我想创建 Session 变量并在同一 JavaScript 函数中检索该会话如
如何阻止 Visual Studio 在函数定义和立即调用之间插入空格？

我正在使用 Visual Studio JSLint 插件来保持我的 javascript 秩序除了这个问题之外它似乎工作得很好如果我输入 x function 然后把分号放在最后 Visual studio将其更正为 x funct
限制多行文本框输入，以便打印所有内容

我确信这是一个常见问题我不知道是否有通用的解决方案我的问题是当用户在 GUI 中查看所述多行文本框时他们可以向下滚动而不是问题然而当我进行打印时某些文本有时会超出该文本框给定区域的底部我们将保持简单并说它不是一个富文本框
Jenkins 中的 SVN 签出有时会失败

我们在 Jenkins 中使用 SVN 签出时遇到问题已经有一段时间了有时会失败并出现以下错误 org tmatesoft svn core SVNException svn E175002 Connection reset svn E1
在 Ruby 中，如何删除字符串中的所有字符直到子字符串匹配？

假设我有一个字符串 Hey what s up dude how s it going 我想删除all之前的字符 how s 或使用正则表达式 str Hey what s up dude how s it going str gsub h
Serilog MSSQL Sink 不将日志写入数据库

我创建了一个 Net 类库 4 6 2 并创建了由其他接口例如控制台应用程序调用的 serilog 实现现在当我使用文件接收器类型时日志将被写入文件但使用 MSSQL 接收器时日志不会这样做日志表是使用 autoCreate
动态添加 wpf 控件以包裹面板

我正在尝试将控件动态添加到窗口上的环绕面板但是在将两个环绕面板控件添加到原始环绕面板控件后它不再添加这是我用来添加图像的代码 Random rn new Random ImageContainer Children Add displ
Magento - 如何在 header.phtml 中获取购物车项目总数

我正在使用 Magento 电子商务并且我已通过空白模板修改了 header phtml 代码这是我的代码但它显示为空白
在 Flask python 中调用 POST 请求时无法解码 JSON 对象

我用 python 编写了一个简单的 REST ful Web 服务器flask以下步骤tutorial http blog miguelgrinberg com post designing a restful api with pyth
Java 中 ByteBuffer 部分的原子读取和写入

我有一个字节缓冲区 http docs oracle com javase 6 docs api java nio ByteBuffer html在java中并且想要读取然后有条件地修改该字节例如使用如下方法 public void
intel core i7 处理器使用哪种缓存映射技术？

我了解了不同的缓存映射技术例如直接映射和完全关联或集关联映射以及这些技术之间的权衡维基百科 https en wikipedia org wiki Cache placement policies 但我很好奇现在Intel core

intel core i7 处理器使用哪种缓存映射技术？

intel core i7 处理器使用哪种缓存映射技术？ 的相关文章

随机推荐

热门标签

intel core i7 处理器使用哪种缓存映射技术？的相关文章