用于顺序内存访问的编译器嵌套循环优化。

2024-02-13

我在矩阵乘法基准测试中遇到了一个奇怪的性能问题（Metis 中的 matrix_mult）MOSBENCH http://pdos.csail.mit.edu/mosbench/套房）。基准测试经过优化，可平铺数据，使活动工作集大小为 12kb（3 个 32x32 整数的平铺），并且适合 L1 缓存。长话短说，交换最里面的两个循环在某些数组输入大小（4096、8192）上的性能差异几乎为 4 倍，而在其他数组输入大小上大约有 30% 的差异。问题本质上归结为按顺序访问元素而不是以跨步模式访问元素。我认为某些数组大小会产生错误的跨步访问，从而产生大量缓存行冲突。从 2 路关联 L1 更改为 8 路关联 L1 时，性能差异明显较小。

我的问题是为什么 gcc 不优化循环排序以最大化顺序内存访问？

下面是问题的简化版本（请注意，性能时间高度依赖于 L1 配置。下面所示的数字来自使用 -O3 编译的 64K L1 2 路关联的 2.3 GHZ AMD 系统）。

N = ARRAY_SIZE // 1024
int* mat_A = (int*)malloc(N*N*sizeof(int));
int* mat_B = (int*)malloc(N*N*sizeof(int));
int* mat_C = (int*)malloc(N*N*sizeof(int));

// Elements of mat_B are accessed in a stride pattern of length N
// This takes 800 msec  
for (int t = 0; t < 1000; t++) 
   for (int a = 0; a < 32; a++) 
      for (int b = 0; b < 32; b++)
         for (int c = 0; c < 32; c++) 
            mat_C[N*a+b] += mat_A[N*a+c] * mat_B[N*c+b];

// Inner two loops are swapped
// Elements are now accessed sequentially in inner loop
// This takes 172 msec  
for (int t = 0; t < 1000; t++) 
   for (int a = 0; a < 32; a++) 
      for (int c = 0; c < 32; c++) 
         for (int b = 0; b < 32; b++)
            mat_C[N*a+b] += mat_A[N*a+c] * mat_B[N*c+b];

gcc 可能无法证明指针不重叠。如果您可以使用非标准扩展，您可以尝试使用__限制 http://gcc.gnu.org/onlinedocs/gcc/Restricted-Pointers.html.
gcc 没有充分利用您的体系结构来避免为每个处理器重新编译的必要性。使用选项-march http://gcc.gnu.org/onlinedocs/gcc/i386-and-x86_002d64-Options.html#i386-and-x86_002d64-Options为您的系统设置适当的值可能会有所帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于顺序内存访问的编译器嵌套循环优化。的相关文章

如何捕获未发送到 stdout 的命令行文本？

我在项目中使用 LAME 命令行 mp3 编码器我希望能够看到某人正在使用什么版本如果我只执行 LAME exe 而不带参数我会得到例如 C LAME gt LAME exe LAME 32 bits version 3 98 2
在c#中执行Redis控制台命令

我需要从 Redis 控制台获取客户端列表输出以在我的 C 应用程序中使用有没有办法使用 ConnectionMultiplexer 执行该命令或者是否有内置方法可以查找该信息 CLIENT LIST是服务器命令而不是数据库
如何判断计算机是否已重新启动？

我曾经使用过一个命令行 SMTP 邮件程序作为试用版的限制它允许您在每个 Windows 会话中最多接收 10 封电子邮件如果您重新启动计算机您可能还会收到 10 个以上我认为这种共享软件破坏非常巧妙我想在我的应用程序中复制它
JNI 将 Char* 2D 数组传递给 JAVA 代码

我想从 C 代码通过 JNI 层传递以下指针数组 char result MAXTEST MAXRESPONSE 12 12 8 3 29 70 5 2 42 42 在java代码中我写了以下声明 public static native
如何填充 ToolStripComboBox？

我发现它很难将数据绑定到ToolStripComboBox 好像没有这个ValueMember and DisplayMember特性怎么绑定呢访问toolstripcombobox中包装的组合框并访问其ValueMember Disp
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
使用可变参数包类型扩展的 C++ 函数调用者包装器

我绑定了一些 API 并且绑定了一些函数签名如下所示 static bool WrapperFunction JSContext cx unsigned argc JS Value vp 我尝试将对象和函数包装在 SpiderMonkey
在Linux中，找不到框架“.NETFramework，Version=v4.5”的参考程序集

我已经设置了 Visual studio 来在我的 Ubuntu 机器上编译 C 代码我将工作区我的代码加载到 VS 我可以看到以下错误 The reference assemblies for framework NETFramewo
C# 存档中的文件列表

我正在创建一个 FileFinder 类您可以在其中进行如下搜索 var fileFinder new FileFinder new string C MyFolder1 C MyFolder2 new string
类型约束

我有以下类层次结构 class Header IEnumerable
IQueryable 单元或集成测试

我有一个 Web api 并且公开了一个端点如下所示 api 假期 name name 这是 Web api 的控制器 get 方法 public IQueryable
等待 IAsyncResult 函数直至完成

我需要创建等待 IAsyncResult 方法完成的机制我怎样才能做到这一点 IAsyncResult result contactGroupServices BeginDeleteContact contactToRemove Uri
检测到严重错误 c0000374 - C++ dll 将已分配内存的指针返回到 C#

我有一个 c dll 它为我的主 c 应用程序提供一些功能在这里我尝试读取一个文件将其加载到内存然后返回一些信息例如加载数据的指针和内存块的计数到 c Dll 成功将文件读取到内存但在返回主应用程序时程序由于堆损坏而崩溃检测
WPF DataGridTemplateColumn 组合框更新所有行

我有这个 XAML 它从 ItemSource 是枚举的组合框中选择一个值我使用的教程是 http www c sharpcorner com uploadfile dpatra combobox in datagrid in wpf h
Unity：通过拦截将两个接口注册为一个单例

我有一个实现两个接口的类我想对该类的方法应用拦截我正在遵循中的建议Unity 将两个接口注册为一个单例 https stackoverflow com questions 1394650 unity register two inter
String.Empty 与 "" [重复]

这个问题在这里已经有答案了可能的重复 String Empty 和有什么区别 https stackoverflow com questions 151472 what is the difference between string
堆栈是向上增长还是向下增长？

我在 C 中有这段代码 int q 10 int s 5 int a 3 printf Address of a d n int a printf Address of a 1 d n int a 1 printf Address of a
使用 omp_set_num_threads() 将线程数设置为 2，但 omp_get_num_threads() 返回 1

我有以下使用 OpenMP 的 C C 代码 int nProcessors omp get max threads if argv 4 NULL printf argv 4 s n argv 4 nProcessors atoi argv
如何在richtextbox中使用多颜色[重复]

这个问题在这里已经有答案了我使用 C windows 窗体并且有 richtextbox 我想将一些文本设置为红色一些设置为绿色一些设置为黑色怎么办呢附图片 System Windows Forms RichTextBox有一个
灵气序列解析问题

我在使用 Spirit Qi 2 4 编写解析器时遇到一些问题我有一系列键值对以以下格式解析

随机推荐

-webkit-transform 的替代方案：transformY？

我正在创建一个 chrome 扩展它在特定页面的顶部显示 iframe 该 iframe 被固定并放置在打开 body 标签之前为了给这个 iframe 预留一个位置我使用 CSS 向下移动主体包括固定元素 webkit trans
AngularJS 中 !$pristine 与 $dirty 之间有什么区别

最近我读了一些关于 angularJS 表单验证的教程如下所示 p p 但我觉得 pristine and dirty是相等的那么我可以使用下面的吗 p p 我认为这两个属性之间存在细微差别这取决于您的用例 setDirty 将表单设
如何获取node.js中的所有memcached数据？

首先我的目的是当用户关闭浏览器时用户会话数据应该过期现在的问题是我的服务器需要 memcached 才能正常工作因此我想从已关闭浏览器的 memcached 中删除该特定用户会话我不想清除所有内存缓存以便剩余用户的会话仍然存在
nvcc 和 NVIDIA-smi 显示的不同 CUDA 版本

我对运行时显示的不同 CUDA 版本感到非常困惑which nvcc and nvidia smi 我在 ubuntu 16 04 上安装了 cuda9 2 和 cuda10 现在我将PATH设置为指向cuda9 2 所以当我跑步时 whi
如何在 ASP.NET 应用程序中实现多语言服务器错误？

我的 ASP NET Web 应用程序在 web config 中有以下部分
从 Laravel 外部推送到 Laravel 队列 (NodeJS)

我有一个 Laravel 5 3 安装作为纯 API 应用程序运行需要从多个不同的应用程序进行连接一切都工作正常毕竟我们谈论的是 Laravel P 除了我不明白一件事我有一个 MQTT 服务器它正在侦听来自多个设备的消息无论是
Node.js 的 Liquid 模板 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有谁知道有没有港口液体模板 https github com tobi liquid对于 Node j
Logstash：Mutate { gsub ... } 不起作用

mutate add field gt eee gt 2016 uaie gsub gt eee 2016 2015 这确实会创建一个字段 eee 但 gsub 会not更新它为什么 add field 在底层过滤器成功时运行在您的情况
计算 DFFITS 作为回归中杠杆率和影响力的诊断

我正在尝试手动计算 DFFITS 获得的值应该等于通过以下方式获得的第一个值dffits功能不过我自己的计算肯定有问题 attach cars x1 lt lm speed dist data cars all observations
Firefox 是否有相当于 Chrome 的“translateZ(0);”强制GPU加速CSS动画？

我有一个 CSS3 过渡在 Chrome 中如丝绸般平滑但在 Firefox 最新版本中却不稳定我知道我可以通过设置在 Chrome 中强制 GPU 加速 DOM 对象 webkit transform 翻译Z 0 on it 我可
理解为什么弗洛伊德的龟兔赛跑算法在应用于整数数组时有效

我试图解决这个leetcode问题https leetcode com problems find the duplicate number https leetcode com problems find the duplicate nu
无法在 Windows 上使用 Redis 绑定 TCP 侦听器 *:6379

我在 Windows 上使用 Redis 2 8 这是我从 github 版本下载的解压后我设置了 maxheapredis windows conf文件运行后redis server redis windows conf I get
FFMpeg - 添加背景音乐

这是我所拥有的 input1 avi 包含声音的视频 input2 avi 不包含声音的视频 music mp3 音频文件我想向视频添加背景音乐 music mp3 文件 C input1 avi i C music mp3 shorte
Django Nginx X-Accel-Redirect 用于 Webfaction 上受保护的文件

如果你想折磨某人直到时间结束只需让他们配置 Django 和 Nginx X Accel Redirect 即可这实际上是不可能的我已经尝试了很多天了我试图只允许在 webfaction 上使用 Nginx 从 django 中的登
如何在“where value in...”子句中使用参数？

当我只有一个状态代码作为参数时这是有效的当 parm list 中有多个 state code 时如何使代码正常工作要求 1 我不想在游标定义中对状态代码进行硬编码 2 我确实想在我的 where 子句中允许多个州代码例如我想运
Dot Net 核心应用程序的 Xunit 单元测试

我最近开始学习单元测试现在需要使用 Xunit 和 Moq 为 dot net core 应用程序编写单元测试我可以编写一些非常基本的内容但是当为复杂的类编写它们时我有点陷入困境下面是我将要为其编写测试的课程 public cla
如何在使用maven构建的spring boot 2 java应用程序中使用groovy解释（带有spring-aop注释）？

我有一个 spring boot 2 java 应用程序想使用解释未编译的 groovy 代码来注入 aop 从阅读 spring 文档来看这听起来像是可能的但我找不到任何示例 AOP 建议脚本化 Bean https docs
如何在没有 Spring Boot 的情况下阻止或防止 Spring MVC 4 应用程序的 XSS

如何保护清理采用原始 JSON 主体并通常输出 JSON 响应且不使用 Spring Boot 的应用程序我只看到一个可能有效并使用 JsonComponent 的好例子如果我们不使用 jsoncomponent 如何过滤掉请求以从整
如何在 Fragment 上启动 Zxing？

我有一个包含两个片段的活动我想在其中一个片段上运行 ZXING 扫描仪目前我在另一项类似的活动中这样做 gt new IntentIntegrator this initiateScan opens up Scan intent gt
用于顺序内存访问的编译器嵌套循环优化。

我在矩阵乘法基准测试中遇到了一个奇怪的性能问题 Metis 中的 matrix mult MOSBENCH http pdos csail mit edu mosbench 套房基准测试经过优化可平铺数据使活动工作集大小为 12kb

用于顺序内存访问的编译器嵌套循环优化。

用于顺序内存访问的编译器嵌套循环优化。 的相关文章

随机推荐

热门标签

用于顺序内存访问的编译器嵌套循环优化。的相关文章