对于尚未在缓存中的地址，CLFLUSH 如何工作？

2024-02-05

我们正在尝试使用 Intel CLFLUSH 指令在用户空间刷新 Linux 中进程的缓存内容。

我们创建一个非常简单的 C 程序，首先访问一个大数组，然后调用 CLFLUSH 刷新整个数组的虚拟地址空间。我们测量 CLFLUSH 刷新整个数组所需的延迟。程序中数组的大小是一个输入，我们将输入从 1MB 更改为 40MB，步长为 2MB。

根据我们的理解，CLFLUSH 应该刷新内容在缓存中。因此，我们期望看到刷新整个数组的延迟首先随数组的大小线性增加，然后在数组大小大于 20MB（即我们程序的 LLC 的大小）后延迟应该停止增加。

然而实验结果却相当令人惊讶，如图所示。当数组大小大于 20MB 后，延迟不会停止增加。

我们想知道，如果该地址尚未在缓存中，那么在 CLFLUSH 将地址从缓存中刷新之前，CLFLUSH 是否可能会引入该地址？我们还尝试在Intel软件开发人员手册中进行搜索，但没有找到任何关于如果地址不在缓存中CLFLUSH将做什么的解释。

下面是我们用来绘制该图的数据。第一列是数组的大小（以 KB 为单位），第二列是刷新整个数组的延迟（以秒为单位）。

任何建议/意见都非常感激。

[修改的]

前面的代码是不必要的。 CLFLUSH 在用户空间中可以更容易地完成，尽管它具有相似的性能。所以我删除了那些乱七八糟的代码，以免造成混乱。

SCENARIO=Read Only
1024,.00158601000000000000
3072,.00299244000000000000
5120,.00464945000000000000
7168,.00630479000000000000
9216,.00796194000000000000
11264,.00961576000000000000
13312,.01126760000000000000
15360,.01300500000000000000
17408,.01480760000000000000
19456,.01696180000000000000
21504,.01968410000000000000
23552,.02300760000000000000
25600,.02634970000000000000
27648,.02990350000000000000
29696,.03403090000000000000
31744,.03749210000000000000
33792,.04092470000000000000
35840,.04438390000000000000
37888,.04780050000000000000
39936,.05163220000000000000

SCENARIO=Read and Write
1024,.00200558000000000000
3072,.00488687000000000000
5120,.00775943000000000000
7168,.01064760000000000000
9216,.01352920000000000000
11264,.01641430000000000000
13312,.01929260000000000000
15360,.02217750000000000000
17408,.02516330000000000000
19456,.02837180000000000000
21504,.03183180000000000000
23552,.03509240000000000000
25600,.03845220000000000000
27648,.04178440000000000000
29696,.04519920000000000000
31744,.04858340000000000000
33792,.05197220000000000000
35840,.05526950000000000000
37888,.05865630000000000000
39936,.06202170000000000000

你想看看Skylake的新优化指南，Intel推出了另一个版本的clflush，称为clflush_opt，它是弱有序的，在你的场景中会表现得更好。

请参阅此处的第 7.5.7 节 -http://www.intel.com/content/dam/www/public/us/en/documents/manuals/64-ia-32-architectures-optimization-manual.pdf http://www.intel.com/content/dam/www/public/us/en/documents/manuals/64-ia-32-architectures-optimization-manual.pdf

一般来说，CLFLUSHOPT 吞吐量高于 CFLUSH，因为 CLFLUSHOPT 根据较小的一组进行排序内存流量如上文和第 7.5.6 节所述。这 CLFLUSHOPT 的吞吐量也会有所不同。使用 CLFLUSHOPT 时，刷新修改的缓存线将经历比在未修改状态下刷新缓存行。 CLFLUSHOPT将提供对于任何一致性的缓存行，性能均优于 CFLUSH 状态。 CLFLUSHOPT 更适合刷新大缓冲区（例如大于许多 KBytes），与 CFLUSH 相比。在单线程中应用程序中，使用 CLFLUSHOPT 的刷新缓冲区可能高达 9X 比使用带有 Skylake 微架构的 CFLUSH 更好。

本节还解释了刷新修改数据的速度较慢，这显然来自于写回惩罚。

至于增加的延迟，您是否正在测量遍历地址范围并清除每行所需的总时间？在这种情况下，即使数组大小超过了 LLC 大小，您也会线性依赖于数组大小。即使这些行不存在，clflush 也必须由执行引擎和内存单元处理，并查找每行的整个缓存层次结构，即使它不存在。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对于尚未在缓存中的地址，CLFLUSH 如何工作？的相关文章

从 C# 调用非托管 dll。拿2

我编写了一个 C 程序它调用一个 C DLL 将命令行参数回显到文件中当使用 rundll32 命令调用 c 时它显示命令行参数没有问题但是当从 c 内部调用它时它不会显示我问了这个问题 https stackoverflow
使用 getopt_long (C++) 如何为两个需要参数编写长选项和短选项？

include
如何查找boost运行时版本

我正在编写一个使用 boost 的 C 库在这个库中我想包含有关用于编译我的库的二进制版本的 boost 版本的信息我可以使用宏BOOST VERSION这很好我还想确定哪个是 boost 的运行时版本以便我可以与用于编译我的库的
每个 CPU 核心处于 C0 电源状态的时间

任何帮助弄清楚如何做到这一点都会很棒在过去一秒内每个 CPU 核心处于 C0 电源状态的时间有多少这是针对 Mac 应用程序的因此需要 Objective C cocoa 和 c OS X 没有任何公开 CPU c 状态的 API
VBA 中的 VSTO：AddIn.Object 有时不返回任何内容 (null)

Given VSTO 插件 An override object RequestComAddInAutomationService 它返回一个名为的类的实例Facade在我的场景中 Excel 2007 中的 VBA 宏可访问AddIn O
Code First - 实体框架 - 如何公开外键

我有以下数据对象 public class Customer System Data Entity ModelConfiguration EntityTypeConfiguration
使用 C 创建立体声正弦波

我正在尝试用 C 创建立体声正弦 WAV 并且可能有不同的可能是空白的左声道和右声道使用此函数为每个通道生成一个音调 int16 t create tone float frequency float amplitude float
是否可以用 C# 为 Android 编写应用程序？

我们都知道Android运行Dalvik VM程序通常开发人员用 Java 编写程序并将其编译为 Dalvik 字节码我想知道是否有可能创建一个可以接受 C 代码并将其编译为 Dalvik 字节码的编译器嗯这是一种选择或者您可以在
平衡两轮机器人而不使其向前/向后漂移

我正在尝试设计一个控制器来平衡 2 轮机器人约 13 公斤并使其能够抵抗外力例如如果有人踢它它不应该掉落也不应该无限期地向前向后漂移我对大多数控制技术 LQR 滑模控制 PID 等都很有经验但我在网上看到大多数人使用 L
Xamarin 无法从异步获取实例

我编写了一个通过蓝牙连接到 ESP32 的 Xamarin Forms 应用程序现在我想从 MainPage xaml 页面的 CustomControl JoystickControl 获取值我已经这样尝试过了 MainPage xa
读取所有进程内存以查找字符串变量c#的地址

我有 2 个用 C 编写的程序第一个名为 ScanMe 的程序包含一个包含值 FINDMEEEEEEE 的字符串变量以及一个值为 1546 22915487 的双精度变量另一个名为 MemoryScan 的程序读取第一个程序的所有内存
为什么 MISRA:2012 需要函数原型？

我想知道为什么 MISRA 2012 需要函数原型在下面的示例中这两个原型并不是真正必要的 include
如何在 Xamarin.Mac 中执行终端命令并读入其输出

我们正在编写一个 Xamarin Mac 应用程序我们需要执行像 uptime 这样的命令并将其输出读取到应用程序中进行解析这可以做到吗在 Swift 和 Objective C 中都有 NTask 但我似乎无法在 C 中找到任何示
如何带参数调用外部程序？

我想在我的代码中调用一个 Windows 程序并使用代码本身确定的参数我不想调用外部函数或方法而是调用 WinXP 环境中的实际 exe 或批处理脚本文件 C 或 C 将是首选语言但如果使用任何其他语言更容易完成此操作请告诉我
为什么 OOP 中静态类的最佳实践有所不同？

我目前正在阅读有关 Java 最佳实践的内容我发现根据这本书 https rads stackoverflow com amzn click com 0321356683我们必须优先选择静态类而不是非静态类我记得在 C 最佳实践中我们
如何从标准输入读取一行，阻塞直到找到换行符？

我试图从命令行的标准输入一次读取任意长度的一行我不确定是否能够包含 GNU readline 并且更喜欢使用库函数我读过的文档表明getline应该可以工作但在我的实验中它不会阻塞我的示例程序 include
更新插入 MongoDB 时如何防止出现“_t”字段？

我有一个应用程序它使用 MongoDB 的 C 驱动程序将 Upsert 插入 MongoDB 数据库当我打电话给Update函数我无法指定我要更新的类型然后 t字段插入元素的类型这是我用来更新插入的代码 collection U
什么是多重重继承？

我将以下称为多重重新继承直接继承一个类一次并通过继承其一个或多个后代来间接继承一次或多次通过继承一个类的两个或多个后代来间接继承一个类两次或多次我想知道它是否存在以及如何明确访问嵌入的子对象 1 Professional C 2n
lambda 表达式是多线程的吗？

lambda 表达式是多线程的吗假设当你将数学公式编写为 lambda 方法时当你将其传递给另一个方法时它会是多线程的吗不是100 清楚你问的是什么您是否想问 lambda 是否自然地在不同的线程上运行如果是这样则它们只是 S
组合框由于某种原因被链接

我有以下代码来填充 3 个组合框 private void PopulateDDLs SqlConnection connection SqlCommand command SqlDataReader reader DataTable dt

随机推荐

ViewPager 内部片段问题

我在查看某些片段内部的寻呼机时遇到问题为了使用视图寻呼机我使用 FragmentPagerAdapter 当然我得到了java lang IllegalStateException 递归进入executePendingTransacti
更改淘汰赛绑定的应用顺序

我正在创建一个 Knockout 绑定它将作为 jQuery 小部件的包装器该小部件将事件处理程序应用于子元素不幸的是小部件的事件处理直接应用于子元素而不是委托问题是我有一个foreach绑定在同一元素上但我需要应用自定义绑定
mySQL 中的 NOT DISTINCT 查询

我被要求在一个简单的员工数据库列上为此创建一个查询包括 ninumber 名字姓氏地址 SuperVisorNiNumber 员工和主管都保存在同一张表中并通过他们的编号进行引用我被要求构建的查询是 v 查找员工的 NI 号码员
如果给函数一个列表，则自动使用列表理解/map() 递归

作为一名 Mathematica 用户我喜欢自动遍历列表的函数 Mathematica 人们称之为请参阅http reference wolfram com mathematica ref Listable html http re
如何使用OCR（TesseractOCR）php库

我使用此链接克隆了 OCR 的 git 库 git clone git github com thiagoalessio tesseract ocr for php git 然后我只需按照以下步骤包含所需的文件example http th
在 SQL Server 中添加两个列值来填充第三列，这可以在没有触发器/存储过程的情况下完成吗？

对此我有一个非常具体的问题我知道我可以使用SUM然而为了对两列的值求和除了运行基本查询之外还需要处理一些其他要求表中需要存在第三列其中将包含两列的值每当创建行或更新其他列中的两个值中的任何一个时都需要更新第三列是否可以通过
javafx快照不显示应用程序或场景

您好我正在使用 JavaFx WebView 创建 HTML 页面的屏幕截图它工作正常但我想知道是否可以在不启动图形 Windows 中的应用程序的情况下执行此操作我的意思是没有比这更轻量级的方法来获取屏幕截图 public cla
Javascript .innerHTML 但不包括内部 div

考虑到我有这个div div class ResCheckIn div class ResDtlLabel Check in div Thursday October 18 2018 div 我只是想获取字符串 Thursday Octob
调用本机函数“ISNULL”时参数计数不正确

我有一个查询试图从 MS SQL Server 2008 转换为 MySQL 它在 MSSQL 上运行良好我收到错误 Incorrect parameter count in the call to native function ISN
为什么我不能 mmap /proc/self/maps？

具体来说为什么我可以这样做 FILE fp fopen proc self maps r char buf 513 buf 512 NULL while fgets buf 512 fp gt NULL printf s buf 但不是这
应用程序线程与服务线程

将冗长的网络访问代码放置在活动的线程或服务的线程中有何优点缺点对申请有何影响我正在编写一个流音频播放器从我到目前为止所读到的内容来看将代码放入服务中仍然会最终阻塞应用程序因此需要一个新线程有谁知道放置这段代码是否更有意义在一项
React 中的异步 xmlhttprequest

我正在尝试在react中实现异步XMLHttpRequest 这是我的尝试 var xhr new XMLHttpRequest var json obj status false xhr open GET https jsonplaceh
通过 SQL 更新单个记录并获取已更新记录的 id 的最佳方法是什么？ (Java/MSSQL)

我知道我可以像这样更新单个记录但如何才能访问已更新记录的 id 呢我使用的是 MSSQL 所以不能使用 Oracle RowId update myTable set myCol foo where itemId in select t
Erlang课程并发练习：我的答案可以改进吗？

我正在做这个练习erlang org 课程 http www erlang org course exercises html conc 2 编写一个以N开头的函数在环中处理并发送围绕所有消息 M 次环中的进程之后消息已发送至进
使用 IAM 授权从 EC2 访问 AWS API Gateway (NodeJS)

也许我要走一座桥到很远的地方但这就是我得到的为授权设置了 AWS IAM 的 AWS API Gateway 方法允许访问该方法的策略附加了该策略的 EC2 角色具有该角色的 EC2 已启动我希望 EC2 上的 NodeJS 程
共享 Facebook API ID 和密钥安全吗？

我正在开发一个与 Facebook 通信的基于网络的开源应用程序其中一个文件包含 Facebook API ID 和密钥与世界其他地方分享这些信息可以吗非常重要的是您never分享您的应用秘密您的应用程序 ID 完全不重要任何访
拥有 constexpr 静态字符串会导致链接器错误

以下程序给我一个链接时错误 include
从终端 (Bash) 将 xcodeproj 应用内购买转换为 pkg 文件或如何将 xcarchive 文件转换为 pkg 文件？

我正在尝试创建一个 bash 脚本来自动创建应用内购买 pkg 文件我现在的脚本成功创建了所有应用内购买 xcodeproj 项目然后使用此命令将它们存档 xcodebuild scheme nameOfProject archive
如何获取祖父母/祖先进程ID？

我想知道如果可能的话如何获取进程的祖父母或更进一步的pid 更具体地说我想要一个进程在进程树中打印其深度例如当从以下内容开始时 int main int creator id int getpid pid t pid1 for
对于尚未在缓存中的地址，CLFLUSH 如何工作？

我们正在尝试使用 Intel CLFLUSH 指令在用户空间刷新 Linux 中进程的缓存内容我们创建一个非常简单的 C 程序首先访问一个大数组然后调用 CLFLUSH 刷新整个数组的虚拟地址空间我们测量 CLFLUSH 刷新整个数

对于尚未在缓存中的地址，CLFLUSH 如何工作？

对于尚未在缓存中的地址，CLFLUSH 如何工作？ 的相关文章

随机推荐

热门标签

对于尚未在缓存中的地址，CLFLUSH 如何工作？的相关文章