对 x86 上 L1 缓存行的独占访问？

2023-11-25

如果有一个 64 字节的缓冲区被大量读/写，那么它很可能会保留在 L1 中；但有什么办法可以强制这种行为吗？

例如，给予一个核心对这 64 字节的独占访问权限，并告诉它不要与其他核心或内存控制器同步数据，以便这 64 字节始终存在于一个核心的 L1 中，无论 CPU 是否认为它使用得足够频繁。

不，x86 不允许你这样做。您可以强制驱逐clfushopt，或（在即将推出的 CPU 上）仅写回而不逐出clwb，但您无法在缓存中固定一行或禁用一致性。

您可以将整个 CPU（或单个核心？）置于缓存即 RAM（又名无填充）模式，以禁用与内存控制器的同步，并禁用写回数据。Cache-as-Ram（无填充模式）可执行代码。它通常由 BIOS/固件在配置内存控制器之前的早期启动中使用。它不能按行使用，并且几乎可以肯定在这里没有实际用处。有趣的事实：离开此模式是的用例之一invd，它会删除缓存数据而不写回，而不是wbinvd.

我不确定 no-fill 模式是否会阻止从 L1d 驱逐到 L3 或其他什么；或者如果数据在驱逐时被丢弃。因此，您只需避免访问 7 个以上的其他缓存行，这些缓存行是您在 L1d 中关心的缓存行的别名，或者是 L2/L3 的等效项。

如果能够强制一个核心无限期地挂在 L1d 行上，并且不响应将其写回/共享的 MESI 请求，那么如果其他核心触及该行，则它们很容易锁定。显然，如果存在这样的功能，则需要内核模式。（对于硬件虚拟化，需要虚拟机管理程序特权。）它还可能阻止硬件 DMA（因为现代 x86 具有缓存一致性 DMA）。

因此，支持这样的功能需要 CPU 的很多部分来处理无限期的延迟，目前可能存在一些上限，如果存在这样的情况，该上限可能比 PCIe 超时短。（我不编写驱动程序或构建真正的硬件，只是猜测这一点）。

正如@fuz 指出的，违反一致性的指令（xdcbt) was 在 PowerPC 上尝试过（在 Xbox 360 CPU 中），由于错误推测指令的执行而导致灾难性的结果。所以就是hard来实施。

你通常不需要这个。

如果线路使用频繁，LRU 替换将使其保持热状态。如果它以足够频繁的间隔从 L1d 丢失，那么它可能会在 L2 中保持热度，L2 也是核心和私有的，并且在最近的设计中速度非常快（Intel 自 Nehalem 以来）。英特尔在 Skylake-AVX512 以外的 CPU 上的包容性 L3 意味着留在 L1d 也意味着留在 L3。

所有这些意味着对于一个核心大量使用的线路来说，在任何频率下，一直到 DRAM 的完整高速缓存未命中都不太可能发生。所以吞吐量应该不成问题。我想您可能需要这种实时延迟，其中函数的一次调用的最坏情况运行时间很重要。从代码的其他部分中的缓存行进行虚拟读取可能有助于保持热状态。

然而，如果来自 L3 高速缓存中其他核心的压力导致该行从 L3 中逐出，则具有包容性 L3 的 Intel CPU 也必须强制从仍处于热状态的内部高速缓存中逐出。 IDK 是否有任何机制可以让 L3 知道某条线路在核心的 L1d 中大量使用，因为这不会生成任何 L3 流量。

我不知道这在实际代码中是一个很大的问题。 L3 是高度关联的（如 16 路或 24 路），因此在发生驱逐之前需要发生很多冲突。 L3 还使用更复杂的索引函数（就像真正的哈希函数，而不仅仅是通过取连续的位范围进行取模）。在 IvyBridge 及更高版本中，它还使用自适应替换策略来减轻由于接触大量不会经常重用的数据而导致的驱逐。http://blog.stuffedcow.net/2013/01/ivb-cache-replacement/.

也可以看看intel core i7 处理器使用哪种缓存映射技术？

@AlexisWilke 指出对于某些用例，您可以使用向量寄存器而不是缓存行。 使用 ymm 寄存器作为“类似内存”的存储位置。您可以在全球范围内将一些向量规则专用于此目的。要在 gcc 生成的代码中得到这个，也许可以使用-ffixed-ymm8，或将其声明为易失性全局寄存器变量。 (如何通知 GCC 不要使用特定寄存器)

使用 ALU 指令或存储转发从向量寄存器获取数据将为您提供有保证的延迟，并且不会出现数据缓存缺失。但对于极低延迟来说，代码缓存未命中仍然是一个问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对 x86 上 L1 缓存行的独占访问？的相关文章

当我使用可变参数而不是常量参数时，为什么我的内联表 UDF 慢得多？

我有一个表值内联 UDF 我想过滤该 UDF 的结果以获得一个特定值当我使用常量参数指定过滤器时一切都很好并且性能几乎是瞬时的当我使用可变参数指定过滤器时它会花费明显更大的时间块大约是逻辑读取的 500 倍和持续时间的 20 倍
即使在急切加载之后，belongs_to 关联也会单独加载

我有以下关联 class Picture lt ActiveRecord Base belongs to user end class User lt ActiveRecord Base has many pictures end 在我的
在 x86 汇编中将 64 位常量移至内存

我正在使用 Intel x64 程序集 NASM 编译器尝试将 0x4000000000000000 常量移至内存该常量在 ieee 754 标准双精度中应等于 2 0 我正在使用的代码是 define two 0x4000000000
如何最大限度地提高服务器性能？

我一直在努力了解性能和可扩展性并想知道开发人员系统管理员正在做什么来提高他们的系统的效率为了标准化答案如果您能尽力回答以下任一问题将会有所帮助 Profile Magazine publication on Joomla Jobs
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
从类模板参数为 asm 生成唯一的字符串文字

我有一个非常特殊的情况我需要为类模板中声明的变量生成唯一的汇编程序名称我需要该名称对于类模板的每个实例都是唯一的并且我需要将其传递给asm关键字 see here https gcc gnu org onlinedocs gcc 12
独立滚动矩阵的行

我有一个矩阵准确地说是 2d numpy ndarray A np array 4 0 0 1 2 3 0 0 5 我想滚动每一行A根据另一个数组中的滚动值独立地 r np array 2 0 1 也就是说我想这样做 print np
检查两个数是否是彼此的排列？

给定两个数字 a b 使得 1 例如 123 是 312 的有效排列我也不想对数字中的数字进行排序如果您指的是数字的字符例如 1927 和 9721 则至少有几种方法如果允许排序一种方法是简单地sprintf将它们放入两个缓冲
为什么在展开的 ADD 循环内重新初始化寄存器会使其运行速度更快，即使循环内有更多指令？

我有以下代码 include
NHibernate - CreateCriteria 与 CreateAlias

假设以下场景 class Project public Job Job class Job public Name 假设我想使用 Criteria API 搜索其 Job 名称为 sumthing 的所有项目我可以使用 CreateAli
我可以让这个 Ruby 代码更快并且/或使用更少的内存吗？

我有一个Array of StringRuby 中的对象由如下单词组成 animals cat horse dog cat dog bird dog sheep chicken cow 我想将其转换为另一个Array of String对象
Javascript 定时通知 - setTimeout、setInterval

我正在创建一个网络应用程序允许用户管理日历 CRUD 事件任务提醒等我正在尝试实现一个功能他们将在事件任务前 x 分钟收到弹出提醒根据我的理解使用 javascript 确实只有一种方法可以做到这一点登录时检查数据库中是
Erlang 中的接受器池和负载平衡？

From http www erlang org doc man gen tcp html accept 1 http www erlang org doc man gen tcp html accept 1 值得注意的是 accept 调
何时可以重用avx指令中的源寄存器

在 avx 指令中用作源的寄存器何时可以在指令开始处理后重用例如我想使用vgatherdps该指令消耗两个 ymm 寄存器其中之一是位移索引我意识到vgatherdps由于数据的局部性较差因此需要花费大量时间来收集位移索引寄存器
使用 React.forwardRef 与自定义 ref prop 的价值

我看到React forwardRef从反应文档来看似乎是将引用传递给子功能组件的认可方式 const FancyButton React forwardRef props ref gt
Grub 和进入实模式（低级汇编语言编程）

我一直在开发一个玩具操作系统并一直使用 grub 作为我的引导加载程序最近尝试使用 VGA 时我发现无法使用硬件中断我发现这是因为我被 grub 置于保护模式有人知道如何在不删除 grub 的情况下回到实模式吗如果您使用 GRU
无法识别的仿真模式：MinGW32 上的 elf_i386

我正在尝试制作内核但无法链接C与程序集一起输出这ld 我收到错误无法识别的仿真模式 elf i386 我正在使用 Windows 10 专业版以及 MinGW32 和 MSYS 我正在使用的代码 link ld link ld OUT
TypeScript 编译速度极慢 > 12 秒

只是把它放在那里看看其他人是否也遇到这个问题我已经使用 webpack 作为我的构建工具使用 typescript 构建了一个 Angular 2 应用程序一切都运行良好但是我注意到 typescript 编译超级超级慢我现在只有
将字段中的位扩展到掩码中所有（重叠+相邻）集位的最快方法？

假设我有 2 个名为 IN 和 MASK 的二进制输入实际字段大小可能是 32 到 256 位具体取决于用于完成任务的指令集每次调用时两个输入都会改变 Inputs IN 1100010010010100 MASK 000111101
Intel：序列化指令和分支预测

英特尔架构开发人员手册 http www intel com content www us en architecture and technology 64 ia 32 architectures software developer v

随机推荐

如何在git中查看旧版本的文件夹

我需要从原点提取更改问题是其中一个库已更新到最新版本它使我的应用程序部分崩溃我想提取最近的更改然后返回到仅一个文件夹的先前或特定版本其中包含导致该问题的 lib txt 文件有什么办法可以做到这一点吗 git checkou
setMethod("$<-") 和 set setReplaceMethod("$") 有什么区别？

Question 当编程时r与s4面向对象系统当一个人必须使用setReplaceMethod 我不明白与setMethod添加时 lt 到函数的名称做setMethod lt and setReplaceMethod 是平等的吗文档
C# 中“get”和“set”属性的用途是什么

我看到一些 get set 方法来设置值谁能告诉我这样做的目的吗 public string HTTP USER NAME get return UserName set UserName value public string HTTP
TensorFlow 2.0 [条件 x == y 不按元素成立：]

我正在使用 TensorFlow 2 和 Keras 训练国际象棋程序以前如果我在与模型训练相同的脚本中加载数据我就可以完成这项工作但随着数据集变得更大腌制数据然后重新加载它会更快当我这样做时即使将模型修剪到一层以简化问题我
在 Node.js 中使用串口进行异步/等待

使用 Node js 致力于 PC 和基于 Arduino 的硬件之间的通信最后一个设备是用 G 代码实现的所以如果我发送 G0 我将收到两行一个用于确认已收到指令第二个用于确认数据我想使用 async await 但出了点问题
CORS：为什么我成功获得了预检选项，但发布后仍然出现 CORS 错误？ [关闭]

Closed 这个问题是无法重现或由拼写错误引起目前不接受答案我有一个使用 axios 发出 http 请求的 Vue 前端以及一个使用express 的 Node 后端它们位于不同的域本地运行时 BE端口是3080 FE端口是3
为什么Java中的private static field = new Singleton不懒呢？

我读了很多关于 Singleton 的文章其中大多数作者都说 Java 中 Singleton 的这种变体 public class Singleton private static Singleton instance new Sing
在某个元素之前添加元素

我有这个代码 td div class imagebutton abc div td 我想在这段代码中添加另一个元素如下所示 p blablablalblablab p td div class imagebutton abc div t
如何判断 Perl 脚本是否在 CGI 上下文中执行？

我有一个 Perl 脚本它将从命令行作为 CGI 运行从 Perl 脚本中我如何知道它是如何运行的最好的选择是检查GATEWAY INTERFACE环境变量它将包含服务器正在使用的 CGI 协议的版本这几乎总是CGI 1 1 T
使用 VB 6 代码从任务管理器结束进程

我需要粗略地终止一个应用程序以便我可以在我的数据库中获得该应用程序的幻像订阅者这不能通过关闭应用程序来产生手动地如果我们从任务管理器终止应用程序幻影订阅者将存在现在我需要在 VB 6 代码中自动完成它帮助谢谢有两种方法 S
使用 download.file() 从 HTTPS 下载文件

我想使用 R 读取在线数据download file 如下所示 URL lt https d396qusza40orc cloudfront net getdata 2Fdata 2Fss06hid csv download file UR
C（非 C++）有限域（伽罗瓦域）线性代数库

我正在寻找一个有限域伽罗瓦域C 的精确线性代数库 C 是不可接受的因为我需要能够编写一个 Haskell 绑定到它这显然是C 很难我找到了类似的图书馆FFLAS FFPACK and Givaro但这些是 C 模板库 In part
地址清理程序不适用于 Windows 上的 bash

目前在 Windows 上的 Ubuntu Bash 上运行 llvm clang clang format 和 clang modernize 我想使用谷歌发布的一套清理工具包括地址内存和线程清理 fsanitize 选项似乎都不起作
将字符串转换为 long long

我正在使用 VS 2008 创建一个 C DLL 非托管项目我需要将 char 转换为 long long 类型有简单的方法吗提前致谢最简单的方法是使用 std stringstream 它也是最类型安全的 std strings
兼容类型和参数类型限定符

这两个声明的类型是否兼容 void f char char void f char restrict char restrict 或类似 void g char void g char const 我很难在标准中找到涵盖该问题的任何内容我
Dropwizard HK2注射液

我对使用 dropwizard 还很陌生目前我正在尝试实现 HK2 依赖注入这在资源内部工作得很好但在资源外部却不起作用这是我正在做的事情 Client client new JerseyClientBuilder environm
输入特征以获得默认参数提升

免责声明我知道这个问题的答案我认为这可能会引起一些普遍的兴趣问题我们怎样才能拥有一种类型特征能够产生由执行而产生的类型默认参数促销动机我希望能够可移植地使用变量参数例如 void foo char const fmt Ple
ASP MVC C#：是否可以将动态值传递到属性中？

好吧我对 C 很陌生我正在尝试使用 ASP MVC2 创建一个小网站我想创建我自己的授权属性但如果可能的话我需要传递一些值例如 CustomAuthorize GroupID Method Parameter public Ac
如何改进该 Java 代码以查找字符串中的子字符串？

最近我被要求提交一份工作问题的解决方案 Problem 在字符串中查找子字符串 Input Little star s deep dish pizza sure is fantastic Search deep dish pizza Ou
对 x86 上 L1 缓存行的独占访问？

如果有一个 64 字节的缓冲区被大量读写那么它很可能会保留在 L1 中但有什么办法可以强制这种行为吗例如给予一个核心对这 64 字节的独占访问权限并告诉它不要与其他核心或内存控制器同步数据以便这 64 字节始终存在于一个核心的

对 x86 上 L1 缓存行的独占访问？

你通常不需要这个。

对 x86 上 L1 缓存行的独占访问？ 的相关文章

随机推荐

热门标签

对 x86 上 L1 缓存行的独占访问？的相关文章