CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？

2024-05-04

这似乎是一个奇怪的问题..

假设缓存行的大小为 64 字节。此外，假设 L1、L2、L3 具有相同的缓存行大小（this https://stackoverflow.com/a/15333156/8385554帖子说英特尔酷睿 i7 就是这种情况）。

有两个对象A, B在内存上，其（物理）地址是N字节间隔。为了简单起见，我们假设A位于缓存边界上，即其地址是64的整数倍。

1) If NA由CPU获取，B也会被读入缓存。因此，如果B需要，并且缓存行尚未被驱逐，CPU 取指B在很短的时间内。每个人都很高兴。

2) If N>> 64（即远大于 64），当A由CPU获取，B不与一起读入缓存行A。所以我们说“CPU不喜欢四处追逐指针”，这是避免堆分配的基于节点的数据结构的原因之一，例如std::list.

我的问题 is, if N> 64 但仍然很小，比如说N= 70，换句话说，A and B不适合一个缓存行，但相距不太远，当A由CPU加载，进行提取B所花费的时钟周期数与以下情况时所花费的时钟周期数相同：N比64大很多吗？

改写 - 当A已加载，让t表示获取所花费的时间B, is t(N=70）远小于或几乎等于，t(N=9999999）？

我问这个问题是因为我怀疑t(N=70）远小于t(N=9999999），因为CPU缓存是等级制度.

如果有定量研究就更好了。

至少有三个因素可以使 A 丢失后更快地获取 B。首先，处理器可以推测性地获取下一个块（独立于任何基于步幅的预取引擎，这将取决于在时间和位置上彼此靠近地遇到的两次未命中以确定步幅；单位步幅预取不需要确定步幅值[它是一个]并且可以在第一次错过之后开始）。由于这种预取会消耗内存带宽和片上存储，因此它通常具有节流机制（可以简单到具有适度大小的预取缓冲区，并且仅在内存接口足够空闲时才进行高度推测性预取）。

其次，由于 DRAM 被组织成行，并且更改行（在单个存储体内）会增加延迟，因此如果 B 与 A 位于同一 DRAM 行中，则对 B 的访问可能会避免行预充电的延迟（以关闭先前打开的行））并激活（打开新行）。（这也可以提高内存带宽利用率。）

第三，如果B与A位于同一地址转换页中，则可以避免TLB。（在许多设计中，分层页表遍历在附近区域也更快，因为可以缓存分页结构。例如，在 x86-64 中，如果 B 与 A 位于同一 2MiB 区域中，则 TLB 未命中可能只需执行一次内存访问因为页目录可能仍被缓存；此外，如果 B 的转换与 A 的转换位于同一 64 字节缓存行中，并且 A 的 TLB 未命中是最近发生的，则缓存行可能仍然存在。）

在某些情况下，我们还可以通过将可能丢失的对象以固定的、有序的步幅排列在一起来利用基于步幅的预取引擎。这似乎是一个相当困难且有限的上下文优化。

一种明显的跨步方式可以increase延迟是通过引入冲突未命中来实现的。大多数缓存使用简单的模二幂索引，且关联性有限，因此二步长幂（或到同一缓存集的其他映射）可能会将不成比例的数据量放置在有限数量的集合中。一旦超过关联性，就会发生冲突遗漏。（已提出倾斜关联性和非二次幂模索引来减少此问题，但这些技术尚未得到广泛采用。）

（顺便说一句，指针追踪特别慢的原因不仅仅是空间局部性低，而是在对 A 的访问完成之后才能开始对 B 的访问，因为存在数据依赖性，即无法获取 B 的延迟与获取 A 的延迟重叠。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？的相关文章

HTML5 应用程序缓存与浏览器缓存

当前浏览器中实现了 applicationCache 我的应用程序缓存清单文件更改版本号然后触发 applicationCache 更新事件强制浏览器从服务器下载清单文件中提到的新资源假设我已经在这些资源上配置了远期到期标头这些文件
CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？

这似乎是一个奇怪的问题假设缓存行的大小为 64 字节此外假设 L1 L2 L3 具有相同的缓存行大小 this https stackoverflow com a 15333156 8385554帖子说英特尔酷睿 i7 就是这种情况
在 x86 Intel VT-X 非根模式下，是否可以在每个指令边界传递中断？

除了不将中断传送到虚拟处理器的某些正常指定条件 cli if 0 等之外客户机中的所有指令实际上都是可中断的吗也就是说当传入的硬件中断先传递给 LAPIC 然后传递给处理器时据说会发生一些内部魔法将其转换为虚拟中断给来宾使用虚
为什么x86分页没有特权环的概念？

早在 1982 年当 Intel 发布 80286 时他们在分段方案中添加了 4 个特权级别环 0 3 由全局描述符表 GDT 和局部描述符表 LDT 中的 2 位指定在 80386 处理器中 Intel 添加了分页功能但令人惊讶
当我打开在 Xcode 4 中创建的 Google 地图项目时，Xcode 5 会警告我的架构设置

我刚刚更新到新发布的 Xcode 5 我正在开发一个使用 Google 地图 iOS SDK 的 iOS 应用程序当我在 Xcode 4 中开发时我改变了我的Architectures在我的项目设置中进行设置按照 Google 的步骤
Flask：缓存静态文件（.js、.css）

我真的找不到任何这方面的资源那么如何将视图函数的缓存与静态文件即 css js 分开我想将静态对象缓存一周另一方面我只需要缓存函数视图几分钟当我执行以下操作时 from flask ext cache import Cach
为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
Intel 64 和 IA-32 上的 MESI 有何意义

MESI 的要点是保留共享内存系统的概念然而对于存储缓冲区事情就变得复杂了一旦数据到达 MESI 实现的缓存下游内存就会保持一致然而在此之前每个核心可能对内存位置 X 中的内容存在分歧具体取决于每个核心的本地存储缓冲区中的
GitHub Actions：如何缓存测试容器的 Docker 映像？

我使用 Testcontainers 在 GitHub Actions 中执行一些测试 Testcontainers 提取我的测试中使用的图像不幸的是每次构建时都会再次提取图像如何在 GitHub Actions 中缓存图像 GitH
在 SPA 中加载外部脚本和样式文件

我有一种 SPA 它使用 API 来获取数据该 SPA 有一些实例它们都使用通用样式和脚本文件所以我的问题是当我更改这些文件中的一行时我将必须打开每个实例并更新文件这对我来说真的很耗时一种方法是将这些文件放在服务器中的文件夹中
不可靠网络和低带宽的 Java ORM 策略

我正在寻找 Hibernate 作为需要在不可靠网络中工作的系统我们需要对一个中央数据库进行读写访问但它可以通过一个相当不稳定的 Wi Fi 网络来访问此外可能会出现断电而导致应用程序无法完全关闭的情况因此任何解决方案都必须具有能
如何在高速缓存中存储图像

我对此完全空白我想从 URL 下载图像并且必须将其存储在内部以便下次我不需要连接到网络而是从缓存中检索它但我不知道该怎么做谁能帮我提供一个代码片段 import java io BufferedInputStream impor
通过分布式数据库聚合作业优化网络带宽

我有一个分布式联合数据库结构如下数据库分布在三个地理位置节点每个节点集群有多个数据库关系数据库是 PostgreSQL MySQL Oracle 和 MS SQL Server 的混合体非关系数据库是 MongoDB 或 Ca
本地化 ASP.NET 资源的滑动过期

假设我们有 2 个站点 myDomain AU 和 myDomain RU 具有相同的代码和本地化资源文件 resx 和 ru resx 我们预计大多数英语用户将使用 AU 网站大多数俄语用户将使用 RU 网站但是如果 AU 域的某些
为什么在读取字典时要锁定

我对我正在阅读的一本关于线程的书 C 3 in a Nutshell 中的代码列表感到困惑在应用程序服务器中的线程安全主题中给出了以下代码作为 UserCache 的示例 static class UserCache static
用于请求带有临时缓存的远程 Observable 的 RxJava 模式

用例是这样的我想暂时缓存最新发出的昂贵的Observable响应但在它过期后返回到昂贵的源Observable并再次缓存它等等一个非常基本的网络缓存场景但我真的很难让它工作 private Observable
我们可以拥有一台只用寄存器作为内存的计算机吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案寄存器是计算机中最快的存储器那么如果我们想构建一台只有寄存器甚至没有缓存的计算机可能吗我什至考虑用寄存器代替磁盘尽管它们本质上是易
如何确定lru_cache所需的maxsize？

如果我们创建一个类似返回斐波那契数列的递归函数并使用lru cache 真正的总督是什么max size范围很明显我们在计算每一项时只需要最后两项但是设置maxsize to 2并运行第一个1000计算需要很长时间才能完成我尝试使
超标量和 VLIW

我想问一些关于ILP的问题超标量处理器是标量处理器和矢量处理器的混合体那么我可以说矢量处理器的架构遵循超标量吗同时处理多个指令不会使体系结构超标量因为流水线多处理器或多核体系结构也可以实现这一点这意味着什么我读过超标量 CP
如何清除 APC 缓存而不使 Apache 崩溃？

如果 APC 存储大量条目清除它们会导致 httpd 崩溃如果 apc clear cache user 花费的时间超过 phps max execution time 调用 apc clear cache 的脚本将在之前被 php

随机推荐

PapaParse 与 Angular JS

喜欢 PapaParse 漂亮的 CSV 解析器和解解析器任何人都可以帮助我将其与 Angular JS 结合起来吗我喜欢让 PapaParse 以 Angular 方式工作正在尝试解决方案实际上我没有做任何花哨的事情来加载它只需
Xamarin 中 QR 扫描后的处理对话框

我在Xamarin应用程序中使用QR码扫描仪当它扫描QR码时它会执行一些操作大约需要一分钟而在执行操作时我想在屏幕上显示一个加载对话框但是它没有显示在屏幕上并且在应用程序的其他地方它运行得很好 Code var expec
如何配置Android AccessibilityService

我正在研究AndroidAccessibilityService想要查看所有可能发生的事件类型手势和关键事件我能够收到所有public void onAccessibilityEvent final AccessibilityEvent
Fabric.js 如何在不拉伸文本的情况下水平调整 IText 大小

我在父 Group 对象中有这个 IText 对象当我选择组并水平以及垂直调整其大小时 IText 也会调整大小这使得文本拉伸并且看起来很糟糕现在我想做的是将 IText 中心本身保持其纵横比放在组内我怎样才能做到这一点我
关于合并排序代码中的组合步骤的困惑

我有一个关于数组上的合并排序如何工作的问题我理解划分步骤它将输入数组划分为 1 长度的元素然而当谈到合并部分组合步骤时我感到困惑例如给定输入 3 5 1 8 2 除法过程将产生 5 个元素 3 5 1 8 2 我只
在 Swift 3 中从 UUID 获取数据

我用 Objective C 编写了以下代码我试图在 Swift 3 中使用它一些等效函数似乎在 Swift 3 中不可用下面的代码是 Objective C 中的代码 NSUUID vendorIdentifier UIDevice
适用于 Angular 2+ 的具有多个日期选择的日历

我需要显示一个日历并让用户选择多个日期例如2017 年 1 月 2 日 2017 年 1 月 3 日 2017 年 1 月 4 日也就是说不是一个范围而是多个日期在 Angular 1 x 中我使用了gm datepickerM
PHP - Paypal API 表单和安全性 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我在我的电子商务应用程序上使用标准 php paypal 表单进行付款我注意到只有 firebug 的人可以在通过立即付款按钮发
如何切换到新数据库

我想将我的 django 项目部署到生产环境并将其与一个新的空数据库关联我做了如下操作创建一个新的空数据库更新了settings py并将数据库名称指向新的数据库名称删除了我的应用程序下的migrations文件夹运行 pyth
在sql server中透视固定的多列表

我有一个需要为报告服务进行旋转的表格 DateCreated Rands Units Average Price Success Unique Users 2013 08 26 0 0 0 0 0 2013 08 27 0 0 0 0 0
Microsoft Graph API 中的一个或多个属性包含无效值

我想在 Azure Active Directory B2C 上创建用户我按照给定链接中的每个步骤进行操作Here https learn microsoft com en us azure active directory b2c ac
如何重定向到外部404页面Python Flask

我正在尝试将 404 重定向到外部 URL 如下所示 app route 404 def http error handler error return flask redirect http www exemple com 404 404
将 vbCrLf 应用于文本框的内容

我在 Excel vba 项目中有一个用户窗体在设计时它是空的在表单初始化事件中我有以下代码 Private Sub UserForm Initialize txtSQL value SELECT MyName ColY vbCrLf
在 gridLayout 中从右向左放置项目

我有一个GridLayout在我的其中一个布局中我想从右到左放置项目这意味着我希望将单元格 1 1 放在布局的右上角我已经测试了这些代码GridView so far 1 android gravity right and andro
如何在 php 数组中添加条件？

这是数组 anArray array theFirstItem gt a first item if True conditionalItem gt it may appear base on the condition theLastIt
未初始化成员的警告在 C++11 上消失

我编译这个简单的程序 include
使用回溯（而不是 DFS）背后的直觉

我正在解决单词搜索 https leetcode com problems word search description LeetCode com 上的问题给定一个 2D 板和一个单词查找该单词是否存在于网格中该单词可以由顺序相邻单
使用 swift 在 WKWebView 上显示活动指示器

我正在处理以下代码并尝试在页面加载时在视图中显示活动指示器我尝试实施WKNavigationDelegate方法但我失败了因为没有任何显示对于如何解决这个问题有任何的建议吗我没有设置 SupportWebView 视图dele
在哪里存储字符串值？在 strings.xml 中还是在常量类中？

在android中我们可以将字符串值存储在strings xml文件中或某些常量类中作为静态最终变量在某些情况下是否有理由选择一个而不是另一个简而言之代码中使用的值始终使用常量类优点代码保持集成并且您的包可以在其他项目上下
CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？

这似乎是一个奇怪的问题假设缓存行的大小为 64 字节此外假设 L1 L2 L3 具有相同的缓存行大小 this https stackoverflow com a 15333156 8385554帖子说英特尔酷睿 i7 就是这种情况

CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？

CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？ 的相关文章

随机推荐

热门标签

CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？的相关文章