VIPT Cache：TLB 和 Cache 之间的连接？

2023-12-13

我只是想澄清这个概念，并且可以找到足够详细的答案，这些答案可以帮助我们了解硬件中的所有内容实际上是如何工作的。请提供任何相关详细信息。

对于 VIPT 缓存，内存请求会并行发送到 TLB 和缓存。

从 TLB 中我们可以获得转换后的物理地址。从缓存索引中，我们获得标签列表（例如，从属于一组的所有缓存行）。

然后将翻译后的 TLB 地址与标签列表进行匹配以找到候选者。

My question is where is this check performed ?
- 在缓存中？
- 如果不在缓存中，还能在哪里？
If the check is performed in Cache, then
- 是否有从 TLB 到缓存模块的边带连接来获取需要翻译后的物理地址与标签地址进行比较吗？

有人可以解释一下“实际上”是如何实现的以及缓存模块和 TLB（MMU）模块之间的连接吗？

我知道这取决于具体的架构和实现。但是，当有 VIPT 缓存时，你所知道的实现是什么？

Thanks.

在这个细节级别，您必须将“缓存”和“TLB”分解为它们的组成部分。它们在使用 VIPT 速度黑客与标签获取并行翻译的设计中非常紧密地互连（即利用所有索引位都低于页面偏移量，从而“免费”翻译。相关：为什么大多数处理器中L1缓存的大小都小于L2缓存的大小？)

L1dTLB 本身很小/速度很快内容可寻址存储器具有（例如）64 个条目和 4 路组关联（英特尔Skylake）。大页通常通过并行检查的第二个（和第三个）数组来处理，例如对于 2M 页面为 32 条目 4 路，对于 1G 页面：4 条目完全（4 路）关联。

但现在，简化你的心理模型并忘记大页面。 L1dTLB 是单个 CAM，检查它是单个查找操作。

“缓存”至少由以下几部分组成：

存储标签+数据的SRAM数组
控制逻辑根据索引位获取一组数据+标签。（高性能 L1d 缓存通常与标签并行地获取集合中所有方式的数据，以减少命中延迟，而不是像使用更大、关联度更高的缓存那样等待选择正确的标签。）
比较器根据翻译后的地址检查标签，如果其中之一匹配，则选择正确的数据，否则会触发错误处理。（并且在命中时，更新 LRU 位以将此方式标记为“最近使用”）。有关不带 TLB 的 2 路关联高速缓存的基础知识图，请参见https://courses.cs.washington.edu/courses/cse378/09wi/lectures/lec16.pdf#page=17. The =圆圈内是比较器：如果标签宽度输入相等，则生成布尔 true 输出。

L1dTLB 并未真正与 L1D 缓存分开。我实际上并不设计硬件，但我认为现代高性能设计中的加载执行单元的工作原理如下:

AGU 根据寄存器 + 位移生成地址。（如果非零则为段基数。）

（有趣的事实：Sandybridge 系列乐观地缩短了此过程以实现简单的寻址模式：[reg + 0-2047]如果 reg 值与以下地址位于相同的 4k 页中，则加载使用延迟比其他寻址模式低 1creg+disp. 当基址+偏移量与基址位于不同页面时是否会受到惩罚？)
索引位来自地址的页内偏移部分，因此它们不需要从虚拟转换为物理。或者说翻译是无效的。这种具有 PIPT 缓存非混叠功能的 VIPT 速度只要满足以下条件即可发挥作用：L1_size / associativity <= page_size。例如32kiB / 8 路 = 4k 页。

索引位选择一个集合。对于该组的所有方式，标签+数据都是并行获取的。（这需要消耗电力来节省延迟，并且可能只对 L1 来说值得。更高的关联性（每组有更多的方式）L3 缓存绝对不值得）
在 L1dTLB CAM 数组中查找地址的高位。
标签比较器接收翻译后的物理地址标签和从该组中提取的标签。
如果存在标记匹配，则缓存会按照匹配方式从数据中提取正确的字节（使用地址的行内偏移量低位和操作数大小）。

或者，它可以更早地使用偏移位来从每路仅获取一个（对齐的）字，而不是获取完整的 64 字节行。没有高效未对齐负载的 CPU 肯定是这样设计的。我不知道这是否值得为支持未对齐负载的 CPU 上的简单对齐负载节省电量。

但现代 Intel CPU（P6 及更高版本）不会因未对齐的加载微指令而受到任何惩罚，即使对于 32 字节向量也是如此，只要它们不跨越缓存行边界即可。并行 8 路的字节粒度索引可能比仅获取整个 8 x 64 字节并在获取+TLB 发生时设置输出复用（基于行内偏移、操作数大小和）的成本更高。特殊属性，例如零或符号扩展或广播负载。因此，一旦标签比较完成，来自所选方式的 64 字节数据可能会进入已配置的多路复用器网络，该网络会获取正确的字节并进行广播或符号扩展。

AVX512 CPU 甚至可以执行 64 字节全行加载。

如果 L1dTLB CAM 中没有匹配项，则整个缓存获取操作将无法继续。我不确定 CPU 是如何设法将其管道化，以便在解决 TLB 未命中问题时其他负载可以继续执行；执行单元可能会在 L1dTLB 更新后重做加载或存储地址。该过程涉及检查 L2TLB（Skylake：4k 和 2M 的统一 1536 条目 12 路，1G 的 16 条目），如果失败，则进行页面遍历。

我假设 TLB 未命中会导致标签+数据获取被丢弃。一旦找到所需的翻译，它们将被重新获取。当其他负载运行时，没有地方可以存放它们。

最简单的是，它可以在翻译准备好时重新运行整个操作（包括从 L1dTLB 获取翻译），但它可以通过缩短流程并直接使用翻译而不是放入来降低 L2TLB 命中的延迟将其放入 L1dTLB 中并再次将其取出。

显然，这要求 dTLB 和 L1D 真正设计在一起并紧密集成。因为他们只需要互相交谈，所以这是有道理的。硬件页面遍历通过 L1D 缓存获取数据。（页表始终具有已知的物理地址，以避免出现第 22 条规则/先有鸡还是先有蛋的问题）。

在 Intel CPU 上，显然加载 uop一旦调度器被调度就离开调度器到执行单元，因此它们不会从那里重播。也许加载执行单元或加载缓冲区条目跟踪待处理的 TLB 未命中？加载缓冲区条目跟踪正在进行的高速缓存未命中，但在这种情况下，地址转换已完成并且已知是无故障的，并且它们只需在数据到达时将数据转发到相关微指令。

从 TLB 到 Cache 是否有边带连接？

我不会将其称为边带连接。加载/存储 AGU 是only使用 L1dTLB 的事物。类似地，L1iTLB 仅由也读取 L1i 高速缓存的代码获取单元使用。（页遍历硬件还需要更新 TLB 条目，可能与加载或存储地址执行单元分开。TLB 更新可以由硬件预取逻辑触发，以预取下一个虚拟页的 TLB 条目。）

如果有二级TLB，它通常是统一的，因此L1iTLB和L1dTLB都会检查它是否丢失。就像分离的 L1I 和 L1D 缓存通常会检查统一的 L2 缓存（如果它们未命中）。

外部缓存（L2、L3）非常普遍 PIPT。转换发生在 L1 检查期间，因此物理地址可以发送到其他缓存。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

VIPT Cache：TLB 和 Cache 之间的连接？的相关文章

Hibernate NoCacheRegionFactoryAvailableException

我遇到了一个奇怪的 Hibernate 异常我无法解释它告诉我我正在使用二级缓存但没有在哪里hibernate cfg xml我是否指定二级缓存这是例外情况 org hibernate cache NoCacheRegionFact
第一次播放声音时 AVAudioPlayer 启动缓慢

我试图消除通过 iPhone 上的 AVAudioPlayer 播放非常短不到 2 秒音频文件时的启动延迟首先代码 NSString audioFile NSString stringWithFormat caf NSBundle
如何在create-react-app中为index.html指定Cache-Control标头

我正在尝试遵循 create react app dev 的指导生产构建文档 https create react app dev docs production build static file caching 为了向用户提供最佳性能
使用二级缓存时，nhibernate 查询缓存和实体缓存有什么区别？

我正在尝试设置 nhibernate 二级缓存我在这篇文章中看到 http www gitshah com 2012 03 nhibernate and caching part 2 html我想了解查询缓存和实体缓存之间的区别它说你需要
如何通过点积获得峰值 CPU 性能？

Problem 我一直在研究 HPC 特别是使用矩阵乘法作为我的项目请参阅我的个人资料中的其他帖子我在这些方面取得了不错的成绩但还不够好我退后一步看看我在点积计算方面能做得如何点积与矩阵乘法点积更简单并且允许我测试 HPC
HTML5 应用程序缓存与浏览器缓存

当前浏览器中实现了 applicationCache 我的应用程序缓存清单文件更改版本号然后触发 applicationCache 更新事件强制浏览器从服务器下载清单文件中提到的新资源假设我已经在这些资源上配置了远期到期标头这些文件
避免 AngularJS 部分视图在 IE 中缓存

我正在开发一个 ASP NET MVC 应用程序它也有一些 angularJS 我有一个主页其中有不同的选项卡当您单击它们时它们会加载角度部分视图主页是这样的 div class widget div div class widg
无法让 Azure 缓存正常工作。 “暂时出现故障，请稍后重试。”

那么今天我安装了azure SDK 2 1 并且使用单个 WorkerRole 创建了一个新项目使用 NuGet 获取缓存包将角色的缓存设置为并置在 app config 中将主机设置为 WorkerRole1 评论安全部分
如何在高速缓存中存储图像

我对此完全空白我想从 URL 下载图像并且必须将其存储在内部以便下次我不需要连接到网络而是从缓存中检索它但我不知道该怎么做谁能帮我提供一个代码片段 import java io BufferedInputStream impor
使用 NEON 优化 Cortex-A8 颜色转换

我目前正在执行颜色转换例程以便从 YUY2 转换为 NV12 我有一个相当快的函数但没有我预期的那么快主要是由于缓存未命中 void convert hd uint8 t orig uint8 t result uint32 t wi
使用 NSCache 实现缓存过期

我正在使用 NSCache 在我的应用程序中实现缓存我想为其添加过期时间以便在一段时间后它将获取新数据有哪些选择以及最好的方法是什么我应该查看访问缓存时的时间戳并使之无效吗缓存是否应该通过使用固定间隔计时器自动使自身失效缓存是否
F# 正确使用序列缓存

我正在尝试将 Seq cache 与我制作的函数一起使用该函数返回最多为 N 的素数序列不包括数字 1 我无法弄清楚如何将缓存的序列保留在范围内但仍然使用它在我的定义中 let rec primesNot1 n 2 n gt Seq
通过分布式数据库聚合作业优化网络带宽

我有一个分布式联合数据库结构如下数据库分布在三个地理位置节点每个节点集群有多个数据库关系数据库是 PostgreSQL MySQL Oracle 和 MS SQL Server 的混合体非关系数据库是 MongoDB 或 Ca
为什么 data.table `:=` 的 knit 缓存失败？

这在精神上与this https stackoverflow com q 15267018 1900520问题但机制上一定不同如果您尝试缓存knitr包含一个块data table 分配然后它的行为就好像该块尚未运行并且后面的块看不到
如何在 Laravel 5 中通过键获取所有缓存项的列表？

Laravel 中的 Cache 类具有 get itemKey 等方法来从缓存中检索项目以及 Remember itemKey myData1 myData2 来将项目保存在缓存中还有一个方法可以检查缓存中是否存在某个项目 Cache
如何用C语言编写程序来测量缓存的速度？

编写一个程序并尝试比较如果可以的话测量从主存和缓存访问数据的时间如果可以的话那么如何衡量每一级缓存的速度呢您需要想出一个启发式方法强制 100 或非常接近缓存未命中希望您有缓存失效操作码和 100 缓存命中万岁这适用于
缓存一致性是否始终可以防止读取过时的值？失效队列允许吗？

在 MESI 协议中仅当将缓存行保持在独占修改状态时才写入缓存行要获取独占状态您可以向持有同一高速缓存行的所有核心发送无效请求但是是否存在一种微架构其中某些内核会在实际使缓存线无效之前做出确认响应如果确实如此那不是违反了缓存
make_shared<>() 中的 WKWYL 优化是否会给某些多线程应用程序带来惩罚？

前几天我偶然看到这个非常有趣的演示 http channel9 msdn com Events GoingNative GoingNative 2012 STL11 Magic Secrets作者 Stephan T Lavavej 其中提
添加冗余赋值可以在未经优化的情况下编译时加快代码速度

我发现一个有趣的现象 include
是否可以调整AppFabric缓存服务器来存储更大的对象？

当我假设将较大的对象图添加到缓存中时我收到 AppFabric 缓存服务器错误错误代码子状态连接已终止可能是由于服务器或网络问题或序列化对象大小大于服务器上的 MaxBufferSize 请求的结果未知我确信这不是网络问题我能

随机推荐

丢失了我的密钥库，只有 SHA1

我不小心删除了我的keystore文件现在我无法在 Google Play 中更新我的应用程序我只有其中的 SHA1 指纹我想知道是否有办法创建一个新的密钥库并在那里插入该 SHA1 代码这样我就可以使用密钥库再次管理我的应用程序
如何根据张量流中的某些谓词从队列中过滤张量？

如何使用谓词函数过滤存储在队列中的数据例如假设我们有一个存储特征和标签张量的队列我们只需要那些满足谓词的张量我尝试了以下实现但没有成功 feature label queue dequeue if predicate featur
C++ 传递函数指针

我有以下功能 static void p 我想将指向 p 的函数指针传递给函数 x void x void ptr 我正在尝试以下操作但它不起作用 x ptr 注意 x 和 p 属于不同的类我收到以下编译错误 invalid conve
如果一个字段已填满，是否可以禁用另一个字段的输入？

如果另一个字段包含 MS Dynamics AX 2012 中的数据我想禁用表字段的输入更新1 如果 Field1 有输入 Field2 和 Field3 必须为空字段1 字段2 字段3 客户编号身份证号 1 0000000001
Flutter - Android 在发布模式下不请求许可 - 自动拒绝

在一周内我不再问这个问题之后我就来了我一直在尝试解决Android没有权限的问题我用 Flutter 开发了这个应用程序并将其上传到 Play 商店进行开放测试但是在发布模式下它永远不会请求许可只是从来没有控制台 logc
log4j2：注册自定义触发策略

我为 log4j2 编写了一个自定义 TriggeringPolicy 它应该按照以下建议在每个小时天 your interval 结束时滚动 log 文件这个帖子尽管我遵循 TimeBasedTriggeringPolicy 约定命
“vaGetDisplay”和“vaGetDisplayDRM”的错误[重复]

这个问题在这里已经有答案了将 ubuntu 操作系统从 14 04 更新到 16 04 后我使用以下配置安装了 ffmpeg 库 PATH HOME bin PATH PKG CONFIG PATH HOME ffmpeg build
Delphi如何旋转png图像？

如何在 Delphi 中旋转 png 图像并保持其透明度我通过加载它TPNGObject 然后我正在使用Canvas StretchDraw MyRect the TPNGObject 但我不知道如何旋转它问题是如果您使用画布进行旋转
使用自定义类根据其他数组对 NSArray 进行排序

我迫切需要对数组进行排序情况如下我需要根据另一个数组中的其他对象类重新排列排序和替换数组 ParentClass NSObject NSString name NSNumber type 这是父类填充parentArray pare
如何在asp.net中打开MS Office word？

在我的应用程序中当用户单击特定链接按钮时 MS Word 必须打开我如何为此编写代码谢谢无法保证当用户单击网页上的链接按钮时将打开特定应用程序打开的应用程序由用户的浏览器和操作系统设置决定作为开发人员您可以指定MIME类型您
如何针对 Google Api 撤销身份验证令牌客户端

我正在尝试使用 Google Api 客户端代码撤销令牌我的代码看起来像这样 get https accounts google com o oauth2 revoke token accessToken function window
单击 jQuery 中的链接时如何防止模糊()运行？

i have
将一个表中的值插入到另一表中

我有这段代码来选择 jobseeker 表中的所有字段并且应该通过将 userType 设置为 admin 来更新 user 表其中 userID userID 此 userID 是我的用户中的一个用户数据库然后该语句应该将 jo
在编译时获取泛型类

虽然我知道由于类型擦除您实际上无法在运行时获取泛型的类型但我想知道是否可以在编译时获取它 class ObjectHandle
手动更改线型顺序并偏移 ggplot 中的误差线

使用这些数据 Data lt structure list value c 180 528 180 147 468 151 194 568 210 SE c 21 7869586486209 21 0831764730322 21 2726
设置redirectMode =“ResponseRewrite”时，CustomErrors不起作用

在旧站点中我通过添加来更改 CustomErrors 的工作方式redirectMode ResponseRewrite 3 5 SP1 中的新增功能
注入 Jersey Resource 类

我确实尝试过以下链接如何将协作者连接到 Jersey 资源 and 访问 Jersey Resource 类中的外部对象但我仍然无法找到一个工作示例来演示如何注入资源类我没有使用 Spring 或 Web 容器我的资源是 package
无法加载文件或程序集“Windows，Version=255.255.255.255，Culture=neutral，PublicKeyToken=null，ContentType=WindowsRuntime”

安装 vs2012 并更新我的 vs2010 WPF 项目后我在 WPF 设计器中收到以下错误无法加载文件或程序集 Windows Version 255 255 255 255 Culture neutral PublicKeyTok
Javascript：如何延迟返回 img.complete 的值

我编写了一个脚本来测试 IMG 标签中的 SVG 支持 function SVGinIMG var SVGdata data image svg xml base64 PHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5v
VIPT Cache：TLB 和 Cache 之间的连接？

我只是想澄清这个概念并且可以找到足够详细的答案这些答案可以帮助我们了解硬件中的所有内容实际上是如何工作的请提供任何相关详细信息对于 VIPT 缓存内存请求会并行发送到 TLB 和缓存从 TLB 中我们可以获得转换后的物理地址从

VIPT Cache：TLB 和 Cache 之间的连接？

VIPT Cache：TLB 和 Cache 之间的连接？ 的相关文章

随机推荐

热门标签

VIPT Cache：TLB 和 Cache 之间的连接？的相关文章