Xeon CPU (E5-2603) 向后内存预取

2024-02-04

Xeon CPU (E5-2603) 中的向后内存预取与向前内存预取一样快吗？

我想实现一种需要对数据进行前向循环和后向循环的算法。

由于每次迭代都需要上次迭代的结果，因此我无法反转循环的顺序。

您可以运行实验来确定数据预取器是否能够处理前向顺序访问和后向顺序访问。我有一个 Haswell CPU，因此预取器可能与您的 CPU (Sandy Bridge) 中实现的预取器不同。

下图显示了以四种不同方式遍历数组时每个元素访问可观察到的延迟：

数组向前顺序初始化，然后以同样的方式遍历。我将这种模式称为forfor.
数组先向前顺序初始化，然后向后顺序遍历（从最后一个元素到第一个元素）。我将这种模式称为forback.
数组按向后顺序初始化，然后以同样的方式遍历。我将这种模式称为backback.

x 轴表示元素索引，y 轴表示 TSC 周期中的延迟。我已配置我的系统，使 TSC 周期大约等于核心周期。我已经绘制了两次运行的测量值forfor called forfor1 and forfor2。每个元素的平均延迟如下：

forfor1：9.9 个周期。
forfor2：15 个周期。
forback：35.8 个周期。
backback：40.3 个周期。

L1 访问延迟对任何测量噪声都特别敏感。 L2 访问延迟应该是12个周期 https://www.7-cpu.com/cpu/Haswell.html平均而言，但由于周期数较少的噪声，我们可能仍会在 L1 命中时得到 12 个周期的延迟。在第一轮运行中forfor，大多数延迟是 4 个周期，这清楚地表明 L1 命中。在第二轮比赛中forfor，大多数延迟为 8 或 12 个周期。我认为这些也可能是 L1 热门歌曲。在这两种情况下，都有一些 L3 命中和很少的主存访问。对彼此而言forback and backback，我们可以看到大多数延迟都是 L3 命中。这意味着 L3 预取器能够处理向前和向后遍历，但 L1 和 L2 预取器则不能。

然而，访问是一个接一个地快速连续执行的，其间基本上没有计算。因此，如果 L2 预取器确实尝试向后预取，它可能会太晚获取数据，因此仍然会产生类似 L3 的延迟。

请注意，我没有在数组的两次遍历之间刷新缓存，因此第一次遍历可能会影响第二次遍历中测量的延迟。

这是我用来进行测量的代码。

/* compile with gcc at optimization level -O3 */
/* set the minimum and maximum CPU frequency for all cores using cpupower to get meaningful results */ 
/* run using "sudo nice -n -20 ./a.out" to minimize possible context switches, or at least use "taskset -c 0 ./a.out" */
/* make sure all cache prefetchers are enabled */
/* preferrably disable HT */
/* this code is Intel-specific */
/* see the note at the end of the answer */

#include <stdint.h>
#include <x86intrin.h>
#include <stdio.h>

// 2048 iterations.
#define LINES_SIZE 64
#define ITERATIONS 2048 * LINES_SIZE
// Forward
#define START 0
#define END ITERATIONS
// Backward
//#define START ITERATIONS - LINES_SIZE
//#define END 0
#if START < END
#define INCREMENT i = i + LINES_SIZE
#define COMP <
#else
#define INCREMENT i = i - LINES_SIZE
#define COMP >=
#endif

int main()
{
  int array[ ITERATIONS ];
  int latency[ ITERATIONS/LINES_SIZE ];
  uint64_t time1, time2, al, osl; /* initial values don't matter */

  // Perhaps necessary to prevents UB?
  for ( int i = 0; i < ITERATIONS; i = i + LINES_SIZE )
  {
     array[ i ] = i; 
  }

  printf( "address = %p \n", &array[ 0 ] ); /* guaranteed to be aligned within a single cache line */

  // Measure overhead.
  _mm_mfence();                      
  _mm_lfence();                      /* mfence and lfence must be in this order + compiler barrier for rdtsc */
  time1 = __rdtsc();                 /* set timer */
  _mm_lfence();                      /* serialize rdtsc with respect to trailing instructions + compiler barrier for rdtsc */
  /* no need for mfence because there are no stores in between */
  _mm_lfence();                      /* mfence and lfence must be in this order + compiler barrier for rdtsc */
  time2 = __rdtsc();
  _mm_lfence();                      /* serialize rdtsc with respect to trailing instructions */
  osl = time2 - time1;

  // Forward or backward traversal.
  for ( int i = START; i COMP END; INCREMENT )
  {

     _mm_mfence();                      /* this properly orders both clflush and rdtsc */
     _mm_lfence();                      /* mfence and lfence must be in this order + compiler barrier for rdtsc */
     time1 = __rdtsc();                 /* set timer */
     _mm_lfence();                      /* serialize rdtsc with respect to trailing instructions + compiler barrier for rdtsc */
     int temp = array[ i ];             /* access array[i] */
     _mm_lfence();                      /* mfence and lfence must be in this order + compiler barrier for rdtsc */
     time2 = __rdtsc();
     _mm_lfence();                      /* serialize rdtsc with respect to trailing instructions */
     al = time2 - time1;

     printf( "array[ %i ] = %i \n", i, temp );         /* prevent the compiler from optimizing the load */
     latency[i/64] = al - osl;

  }

  // Output measured latencies.
  for ( int i = 0; i < ITERATIONS/LINES_SIZE; ++i )
  {
     printf( "%i \n", latency[i] );
  }

  return 0;
}

这些实验的目的是测量各个访问延迟，以确定每次访问从哪个缓存级别提供服务。然而，由于存在LFENCE指令时，测量结果可能包括加载指令在流水线的其他阶段所需的延迟。此外，编译器将一些 ALU 指令放置在定时区域中，因此测量可能会受到这些指令的影响（可以通过在汇编中编写代码来避免这种情况）。这可能会导致难以区分 L1 中命中的访问和 L2 中命中的访问。例如，一些 L1 延迟测量报告为 8 个周期。尽管如此，forback and backback测量结果清楚地表明大多数访问都在 L3 中命中。

如果我们有兴趣测量访问内存层次结构的特定级别的平均延迟，那么使用指针追踪可以提供更准确的结果。事实上，这是测量内存延迟的传统方法。

如果您以硬件预取器（尤其是 L2 或 L3 的预取器）难以预测的模式访问大量数据，则软件预取器可能非常有用。然而，一般来说，正确地进行软件预取是很困难的。此外，我得到的测量结果表明 L3 预取器可以向前和向后预取。如果在内存访问和计算方面都具有良好的并行性，那么 OoO 执行可以隐藏很大一部分 L3 访问延迟。

关于正确运行程序的重要注意事项：事实证明，如果我没有使用输出重定向运算符 > 将所有输出重定向到文件，即所有输出都将打印在终端上，则所有测量的延迟将接近 L3 命中延迟。这样做的原因是printf每次迭代都会调用它，它会污染大部分 L1 和 L2 缓存。因此请务必使用 > 运算符。您还可以使用(void) *((volatile int*)array + i)代替int tmp = array[i]如提议的this https://stackoverflow.com/a/51977139/4230618 and this https://stackoverflow.com/a/52086874/4230618回答。这样就更靠谱了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Xeon CPU (E5-2603) 向后内存预取的相关文章

为什么x86分页没有特权环的概念？

早在 1982 年当 Intel 发布 80286 时他们在分段方案中添加了 4 个特权级别环 0 3 由全局描述符表 GDT 和局部描述符表 LDT 中的 2 位指定在 80386 处理器中 Intel 添加了分页功能但令人惊讶
在未排序的整数列表中最优搜索 k 个最小值

我刚刚接受采访时提出了一个问题我很好奇答案应该是什么问题本质上是假设您有一个包含 n 个整数的未排序列表您如何找到此列表中的 k 个最小值也就是说如果您有一个 10 11 24 12 13 列表并且正在寻找 2 个最小值您将得
MSMQ 慢速队列读取

我正在使用一个开源 Net 库它在底层使用 MSMQ 大约一两周后服务速度变慢时间不准确但一般猜测看来发生的情况是来自 MSMQ 的消息每 10 秒才被读取一次通常它们会立即被读取因此它们将在 T 10 秒 T 20 秒
为什么比较匹配的字符串比比较不匹配的字符串更快？ [复制]

这个问题在这里已经有答案了这里有两个测量值 timeit timeit toto 1234 number 100000000 1 8320042459999968 timeit timeit toto toto number 100000
内容长度标头与分块编码

我正在尝试权衡设置的利弊Content LengthHTTP 标头与使用分块编码从我的服务器返回可能大文件的比较使用持久连接需要其中之一来符合 HTTP 1 1 规范我看到了的优点Content Length标头是下载对话框可以显
在 R 中替换数据帧中最低列表值的最有效方法

我有一个数据框 df 其中包含为每个受试者记录的数字列表向量用于测试项目的两次重复 subj item rep vec s1 1 1 2 1 4 5 8 4 7 s1 1 2 1 1 3 4 7 5 3 s1 2 1 6 5 4 1 2
Flask：缓存静态文件（.js、.css）

我真的找不到任何这方面的资源那么如何将视图函数的缓存与静态文件即 css js 分开我想将静态对象缓存一周另一方面我只需要缓存函数视图几分钟当我执行以下操作时 from flask ext cache import Cach
Nasm 打印到下一行

我用 nasm Assembly 编写了以下程序 section text global start start Input variables mov edx inLen mov ecx inMsg mov ebx 1 mov eax 4
为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
为什么 hibernate 在 SAVE 之前执行 SELECT？

为什么 hibernate 在保存对象之前要进行选择我在互联网上找不到有用的信息这是每次保存之前的正常行为吗我发现这个话题选择 hibernateTemplate save 的查询运行 https stackoverflow com
glBlitFramebuffer 渲染缓冲区和渲染全屏纹理哪个更快？

哪个更快更高效使用 OpenGL 纹理作为 CUDA 表面并在四边形上渲染新样式使用渲染缓冲区作为 CUDA 表面并使用 glBlitFramebuffer 进行渲染 None
Angularjs 在生产中禁用调试数据

我正在尝试按照角度文档中的建议禁用生产服务器中的调试数据here https docs angularjs org guide production 补充一点我并没有真正看到性能和加载时间有任何改进这是我的代码在 app js 中的样子
如何减少 JSF 中的 javax.faces.ViewState

减少 JSF 中视图状态隐藏字段大小的最佳方法是什么我注意到我的视图状态约为 40k 这会在每次请求和响应时下降到客户端并返回到服务器特别是到达服务器时这对用户来说会显着减慢我的环境 JSF 1 2 MyFaces Tomcat T
在 SPA 中加载外部脚本和样式文件

我有一种 SPA 它使用 API 来获取数据该 SPA 有一些实例它们都使用通用样式和脚本文件所以我的问题是当我更改这些文件中的一行时我将必须打开每个实例并更新文件这对我来说真的很耗时一种方法是将这些文件放在服务器中的文件夹中
更改二维数组元素的值会更改整个列

当我打印我的arrvalue 我得到了 2D 数组的正确值但是当我退出 while 循环时我的值都是错误的我不确定我做错了什么 num runs n 4 x np linspace 1 1 n y np linspace 1 1 n
LINQ 函数的顺序重要吗？

基本上正如问题所述 LINQ 函数的顺序是否重要表现显然结果仍然必须相同 Example myCollection OrderBy item gt item CreatedDate Where item gt item Code g
Java 基准测试 - 为什么第二个循环更快？

我对此很好奇我想检查哪个函数更快所以我创建了一些代码并执行了很多次 public static void main String args long ts String c sgfrt34tdfg34 ts System current
为什么在排序输入上插入到树中比随机输入更快？

现在我一直听说从随机选择的数据构建二叉搜索树比有序数据更快这仅仅是因为有序数据需要显式重新平衡以将树高度保持在最低限度最近我实现了一个不可变的treap http en wikipedia org wiki Treap 一种特殊的二叉搜
如何在 Linux x86_64 上模拟 iret

我正在编写一个基于 Intel VT 的调试器由于当 NMI Exiting 1 时 iret 指令在 vmx guest 中的性能发生了变化所以我应该自己处理vmx主机中的NMI 否则 guest会出现nmi可重入错误我查了英特尔手
为什么 std::atomic 比 volatile bool 慢很多？

多年来我一直使用 volatile bool 来控制线程执行并且效果很好 in my class declaration volatile bool stop In the thread function while stop do th

随机推荐

如何将 RGB 或 HEX 颜色代码分组为更大的颜色组集？

我正在分析大量图像并提取主要颜色代码我想将它们分组为通用颜色名称范围例如绿色深绿色浅绿色蓝色深蓝色浅蓝色等我正在寻找一种与语言无关的方式来自己实现一些东西如果有我可以研究的例子来实现这一点我将非常感激在机器学习领域你
在 Apple iAP 中哪里可以找到有关 SSServerErrorDomain 的说明？

我们有一个应用程序它收集了一些来自 Apple iAP 购买的错误代码在collect dashboard中我们看到一些错误代码报告但找不到确切的含义例如 SSServerErrorDomain 2004 SSServerErro
ImportError：无法导入名称 ABCMeta - Linux 上 PyDev 中的 Python 错误

我在 Linux 上使用 PyDev 编写代码时遇到了这个奇怪的错误即使像这样的简单代码也会产生错误 print Hello World 错误就在这里 True Traceback most recent call last File u
如何在 Windows Phone 8 应用程序中检查互联网连接可用性

我正在开发Windows Phone 8 应用程序在此应用程序中我必须连接到服务器才能获取数据因此在连接到服务器之前我想检查设备的互联网连接是否可用如果互联网连接可用那么只有我会从服务器获取数据否则我会显示错误消息请告诉我
AWS 放大在公共目录中添加文件

当我在放大选项中提供密钥时我正在使用 AWS amplify 在 s3 存储桶中上传视频它会创建一个公共文件夹然后获取该密钥 Amplify Storage uploadFile user hello 123321 mp4 examp
Dropbox 应用只能与一个 Dropbox 帐户交互

我的需要是有一个简单的网络表单还可以让人们上传一些 pdf 文件我认为我可以做的由于上传文件的大小和数量是将这个应用程序的后端绑定到我的 dropbox 帐户或我的 box com 帐户这两种服务都提供类似的 API 来构建应用程
在 JavaScript 中将音频从 getUserMedia() 编码为 .OGG [重复]

这个问题在这里已经有答案了我正在开发一个 HTML5 项目将 iOS 应用程序转换为基于 Web 的应用程序应用程序内容创建的一部分是录音我尝试在 JavaScript 中复制它而不使用插件到目前为止我已经能够从 getUser
java xpath从xml中删除元素

我正在尝试从 xml 文件中删除元素和子元素特别是名为 Testlogging 的附加程序首先这是我的 xml 文件的外观
防止重新渲染在包装组件中启动 useState 的同级组件

我对 React 不太有经验但我有一个非常简单的设置 export default function App const title setTitle useState still empty const myFunction title
尝试获取 iOS MKCoordinateSpan 的跨度大小（以米为单位）

当我需要做一个MKCoordinateRegion 我执行以下操作 var region MKCoordinateRegion FromDistance coordinate RegionSizeInMeters RegionSizeInM
为什么使用邻接矩阵或邻接表？

我刚刚开始学习图表让我困惑的是为什么我们需要使用外部数据结构如矩阵或列表存储图的哪些顶点连接到其他顶点为什么每个顶点不能像决策树中的节点那样只保存对其连接的顶点的引用对我来说这似乎更直观 Thanks 嗯这来自于一种设计理念
获取受 linq 中扩展方法影响的类型列表

如何获取ndepend cqlinq中扩展方法扩展的类型列表使用反射来编码这似乎有点麻烦而 ndepend 已经存在了 NDepend 代码模型没有直接的方法来解析方法参数类型因此我们可以通过依赖于从方法名称中提取的字符串格式化扩展
如何在邮递员的当前时间戳中添加更多时间？

我知道我可以将当前时间戳添加到请求中如下所示 postman setEnvironmentVariable pickUpTime new Date toISOString 但是我想在 Postman 的当前时间戳上添加 10 分钟后的
如果 Bootstrap 加载了 Webpack (Rails)，像 modal() 这样的方法将不起作用

在我的 Rails 5 应用程序中如果我使用标头加载 Bootstrap 4
PKCS1-padding/RSA加密ios objc和java的区别

我正在开发适用于 ios 和 Android 的应用程序我对加密任务还比较陌生在过去的 3 天里我一直在用头撞墙因为我无法运行 RSA 加密两个客户端都从 java 服务器接收公钥在android中我没有任何问题显然因为它与
JUnit 4：在运行测试之前在测试套件中设置内容（如测试的 @BeforeClass 方法，仅适用于测试套件）

我想对安静的网络服务进行一些功能测试该测试套件包含一堆测试用例每个测试用例在 Web 服务上执行几个 HTTP 请求当然 Web 服务必须运行否则测试将失败启动 Web 服务需要几分钟它会执行一些繁重的数据提升因此我希望尽
有没有一种优雅的方法来告诉 eslint 确保我们没有使用任何 ES6 语法/函数？

有没有一种优雅的方式告诉 ESLint 确保我们没有使用任何 ES6 EMCAScript 2015 语法函数我发现以下答案有些帮助但似乎它并不能解决所有问题例如我不知道如何捕获 Object assign 的用法如何通过 ES
Python 中的 Numba jit 警告解释

我已经定义了以下递归数组生成器并使用 Numba jit 来尝试加速处理基于这个答案 https stackoverflow com questions 4407984 is it possible to vectorize recur
Python JSON 序列化 Decimal 对象

我有一个Decimal 3 9 作为对象的一部分并希望将其编码为 JSON 字符串该字符串应如下所示 x 3 9 我不关心客户端的精度所以浮动就可以了有没有好的方法来序列化这个 JSONDecoder 不接受 Decimal 对象
Xeon CPU (E5-2603) 向后内存预取

Xeon CPU E5 2603 中的向后内存预取与向前内存预取一样快吗我想实现一种需要对数据进行前向循环和后向循环的算法由于每次迭代都需要上次迭代的结果因此我无法反转循环的顺序您可以运行实验来确定数据预取器是否能够处理前向顺序访问

Xeon CPU (E5-2603) 向后内存预取

Xeon CPU (E5-2603) 向后内存预取 的相关文章

随机推荐

热门标签

Xeon CPU (E5-2603) 向后内存预取的相关文章