为什么 2048x2048 与 2047x2047 数组乘法相比，性能会受到巨大影响？

2024-03-02

我正在做一些矩阵乘法基准测试，如前面提到的为什么 MATLAB 的矩阵乘法如此快？ https://stackoverflow.com/questions/6058139/why-is-matlab-so-fast-in-matrix-multiplication

现在我遇到了另一个问题，当将两个 2048x2048 矩阵相乘时，C# 和其他矩阵之间存在很大差异。当我尝试仅乘以 2047x2047 矩阵时，这似乎很正常。还添加了一些其他内容进行比较。

1024x1024 - 10 秒。

1027x1027 - 10 秒。

2047x2047 - 90 秒。

2048x2048 - 300 秒。

2049x2049 - 91 秒。（更新）

2500x2500 - 166 秒

对于 2k x 2k 的情况来说，存在三分半钟的差异。

使用 2dim 数组

//Array init like this
int rozmer = 2048;
float[,] matice = new float[rozmer, rozmer];

//Main multiply code
for(int j = 0; j < rozmer; j++)
{
   for (int k = 0; k < rozmer; k++)
   {
     float temp = 0;
     for (int m = 0; m < rozmer; m++)
     {
       temp = temp + matice1[j,m] * matice2[m,k];
     }
     matice3[j, k] = temp;
   }
 }

这可能与 L2 缓存中的冲突有关。

matice1 上的缓存未命中不是问题，因为它们是按顺序访问的。然而，对于 matice2，如果完整的列适合 L2 （即当您访问 matice2[0, 0]、matice2[1, 0]、matice2[2, 0] ...等时，没有任何内容被驱逐），那么没有问题matice2 的缓存也未命中。

现在要更深入地了解缓存的工作原理，如果变量的字节地址是 X，那么它的缓存行将是 (X >> 6) & (L - 1)。其中 L 是缓存中缓存行的总数。 L 始终是 2 的幂。这 6 个事实是因为 2^6 == 64 字节是缓存行的标准大小。

现在这意味着什么？这意味着如果我有地址 X 和地址 Y 并且 (X >> 6) - (Y >> 6) 可以被 L（即 2 的某个大幂）整除，它们将存储在同一个缓存行中。

现在回到你的问题 2048 年和 2049 年有什么区别，

当 2048 是你的尺寸时：

如果您采用 &matice2[x, k] 和 &matice2[y, k] 差值 (&matice2[x, k] >> 6) - (&matice2[y,k] >> 6) 将被 2048 * 4 整除（大小的浮动）。所以是2的大幂。

因此，根据 L2 的大小，您将遇到很多缓存行冲突，并且仅利用 L2 的一小部分来存储列，因此您实际上无法在缓存中存储完整的列，因此您的性能会很差。

当大小为 2049 时，差异为 2049 * 4，它不是 2 的幂，因此您的冲突会更少，并且您的列将安全地适合您的缓存。

现在为了检验这个理论，你可以做几件事：

像这样 matice2 [razmor, 4096] 分配您的数组 matice2 数组，并以 razmor = 1024、1025 或任何大小运行，您应该会看到与之前相比非常糟糕的性能。这是因为您强制对齐所有列以使其相互冲突。

然后尝试 matice2 [razmor, 4097] 并以任何大小运行它，您应该会看到更好的性能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 2048x2048 与 2047x2047 数组乘法相比，性能会受到巨大影响？的相关文章

Xamarin 测试记录器选项有错误。无法记录自动化测试

选项 gt Xamarin gt Xamarin Test Recorder 中的所有设置都有错误我的桌面上安装了 Visual Studio 2015 企业版以及 Xamarin 和 Xamarin Test Recorder 插件
为什么迭代器类型推导失败？ [复制]

这个问题在这里已经有答案了为什么这在 C 中不起作用为什么我不能限制foo的参数为std vector
基于多线程的 RabbitMQ 消费者

我们有一个 Windows 服务它监听单个 RabbitMQ 队列并处理消息我们希望扩展相同的 Windows 服务以便它可以监听 RabbitMQ 的多个队列并处理消息不确定使用多线程是否可以实现这一点因为每个线程都必须侦听阻
C# 中输入按键

我尝试了这段代码 private void textBox1 KeyPress object sender KeyPressEventArgs e if Convert ToInt32 e KeyChar 13 MessageBox Sho
C 中的双重否定：是否保证返回 0/1？

Is x 标准保证返回0 1 请注意我是not询问 C 其中定义了 bool 类型是的在 C99 中请参阅 6 5 3 3 4 逻辑非运算符的结果是0如果其操作数的值比较不等于0 1如果其操作数的值比较等于 0 结果具有类型in
在关键服务器上对字符串进行内存受限的外部排序，并合并和计算重复项（数十亿个文件名）

我们的服务器生成如下文件 c521c143 2a23 42ef 89d1 557915e2323a sign xml在其日志文件夹中第一部分是GUID 第二部分是名称模板我想计算具有同名模板的文件的数量例如我们有 c521c143
如何在 C# 中创建 PKCS12 .p12 文件？

这可能是一个n00b问题但我在这方面确实没有任何经验我需要创建一个包含 X509 证书和私钥的 p12 捆绑包我当前有两个对象 X509Certificate2 和包含关键信息的 RSAParameters 对象如何将它们合并到 p
无法在 Visual Studio 和 vcpkg 中构建 cmake 项目（致命错误 C1083）

我今天安装了vcpkg 启用了与Visual Studio的集成即 vcpkg集成安装并开始安装库我基本上安装了 cpprestsdk 并触发了 boost 库的安装然后我在 Visual Studio CMake 中打开该项目当
Bazel：将编译标志添加到默认 C++ 工具链

我想向默认的 C 工具链添加一些编译器和链接器标志以便我构建的所有目标本地或导入共享它们我知道可以定义我自己的工具链但我不想这样做因为它非常复杂且容易出错理想情况下我想要这样的东西 cc toolchain cc defaul
为什么 std::atomic 比 volatile bool 慢很多？

多年来我一直使用 volatile bool 来控制线程执行并且效果很好 in my class declaration volatile bool stop In the thread function while stop do th
C++ 更改屏幕方向问题 -- DEVMODE dmDisplayOrientation DMDO_90 undefined

我似乎无法编译一些 C 代码我正在翻转显示器的方向但 VS2008 告诉我 DMDO 90 和 DMDO 270 无法识别 error C2065 DMDO 90 undeclared identifier error C2065 DM
这个元组创建习惯有名字吗？

On the 增加邮件列表 http lists boost org Archives boost 2014 06 214213 php LouisDionne 最近发布了以下创建类似元组的实体的巧妙技巧 include
多个包含带有变量定义的头文件

我只是构建一个简单的 C 项目代码如下所示 head h ifndef HEAD H define HEAD H int my var 100 endif src1 cpp include head h src2 cpp include
我应该使用 Helgrind 还是 DRD 进行线程错误检测？

好像Valgrind http valgrind org docs manual manual html有两个工具都可以进行线程错误检测 Helgrind http valgrind org docs manual hg manual ht
从 cin 读取整数序列并将它们存储在向量中

这就是我读取整数的方法std cin并将它们存储在向量中 int number vector
如何在RcppParallel中调用用户定义的函数？

受到文章的启发http gallery rcpp org articles parallel distance matrix http gallery rcpp org articles parallel distance matrix 我
来自用户定义文字的整数字符序列，以字符串作为参数

目前只有双精度数可以在用户定义的文字中生成字符模板 template
没有 FPU 的处理器中的浮点计算

是否可以在没有浮点单元的嵌入式处理器中执行浮点运算是的您只需要在软件中完成即可你的编译器可能会提供支持 http gcc gnu org onlinedocs gccint Soft float library routines ht
在 Haskell 中增长数组

我想在 Haskell 中实现以下命令式算法给定一个序列对 e0 s0 e1 s1 e2 s2 en sn 其中 e 和 s 部分不一定是自然数不同的是在每个时间步都会随机选择该序列的一个元素例如 ei si 并根据 ei si
从 git 签出后 nuget dll 丢失

I have a C solution containing different projects On those projects I have some normal nuget packages like Newtonsoft Js

随机推荐

如何给用户添加角色？

我们使用 Yii2 框架的最后一个 alpha 版用户的角色已经创建但问题是如何分配给用户缺少文档对于 RBAC 的数据库版本请使用 DbManager 引用自 Alexufo use yii rbac DbManager r n
使用 vagrant、docker 和 git 进行项目布局

所以我最近发现了 docker 和 vagrant 并且我正在启动一个新的 Php 项目我想在其中使用两者 Vagrant 是为了拥有一个所有开发人员都可以使用的可互换环境 Docker 用于生产但也在 vagrant 机器内部因此开
docker-compose 中的 Hyperledger 浏览器无法与 Hyperledger 区块链配合使用

我正在尝试让 hyperledger explorer 与 docker compose 一起使用 hyperledger 区块链浏览器没有连接到 hyperledger 区块链网络它显示无法连接客户端对等点请检查配置和对等点状态不
Neo4j 还支持 XA 事务吗？

我的项目使用 spring boot 和 neo4j SDN spring data neo4j 作为数据访问层最近我遇到一个问题我需要跨存储持久化我需要更新neo4j和oracle数据库中的数据因此执行此操作的标准方法是 XA
Android AdView 泄漏，可能是由于某些内部后台线程造成的

我在由片段创建的窗口中显示 AdMob 广告横幅这有效但我遇到了奇怪的泄漏问题我还不明白当我多次打开和关闭应用程序时广告片段每次都会被正确销毁但控制该片段的 MainActivity 正在泄漏有罪的是代码中的这一行 adReq
如何将文件从一台服务器复制到另一台服务器？

我有一台服务器除了 xls 日志文件之外什么都没有每个文件为 5 15Mb 并且它是动态的因为文件可以在任何时间点添加现在我需要一种方法来使用 Ruby 执行以下过程通过将文件名从一台只有日志文件的服务器发送到另一台服务器来复制文
为什么 Any() 对 C# null 对象不起作用

打电话时Any http msdn microsoft com en us library bb337697在 C 中对于 null 对象它会抛出 ArgumentNullException 如果对象为 null 则肯定不存在任何并
谷歌驱动器应用程序脚本>“服务不可用：文档”？

我有一个脚本可以将 Google 电子表格中的文本写入 Google 文档当我尝试运行该函数时我在页面顶部收到红色消息Service unavailable Docs Dismiss 这是新的这个错误是什么意思谢谢除了 Pier
如何在Linux下编译c++程序？

我创建了一个文件 hi cpp 并编写了下面给出的命令 include
使用 FIRDatabase 之前必须调用 FIRApp.configure()。错误，即使我已经调用它[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我收到在使用 FIRDatabase 之前必须调用 FIRApp configure 错误即使我已经在 Appdel
Magento 目录页面中缺少分页

由于某种原因我的 Magento 目录页面上的分页现在丢失了有任何想法吗 tried this http www magentocommerce com boards viewthread 199172 现在可以了在catalogue
如何在Flutter中指定ListTile高度

在这段代码中我试图在页面的最顶部创建一个按钮或图块列表因为按钮对我来说效果不佳因此当单击其中一个时它会在页面的其余部分返回一个值问题是这里的图块占据了页面的一半以上这使得它看起来不一致我想限制瓷砖的高度我尝试将它们放在一排
XmlDictionaryReader 读取固定大小的归零流

有人能给我很好的解释为什么这会失败吗 const int bufferSize 2 1024 testValue 123456 var buffer new byte bufferSize var serializer new DataCo
在我的终端中运行“rvm get stable”没有任何作用。如何更新 RVM？

当我执行 rvm get stable 时什么也没有发生 Last login Sat Feb 11 18 22 14 on ttys000 Adams MacBook Pro adam rvm v rvm 1 8 3 by Wayne
如何使 Python 中的 json.dumps 忽略不可序列化字段

我正在尝试使用 Construct2 9 库序列化解析一些二进制数据的输出我想将结果序列化为 JSON packet是 Construct 类的实例Container 显然它包含一个隐藏的 io类型的BytesIO 查看输出dict pa
尝试使用 RSpec 测试 OmniAuth 时出现“真实 HTTP 连接已禁用”错误

我一直在尝试使用 RSpec 测试 OmniAuth 但尚未成功 In spec helper rb OmniAuth config test mode true OmniAuth config add mock twitter uid g
隐藏 SVG 会影响同一页面中的其他 SVG 样式

SVG 在同一页面中加载多次 SVG 用于显示值的图形表示想象一张地图其中每个区域都使用颜色代码显示给定值在每个 SVG 中每个区域都会动态应用 CSS 类来匹配所需的 SVG 图案填充 CSS 样式和模式在 SVG 文件中定义这
强制 jquery mouseover 在子级上时不触发，仅在父级上触发

我有一个 a with a img 在里面我希望当鼠标悬停在 a 这是有效的问题是如果我将光标移动到内部图像上它会再次触发有没有办法强制它在结束时触发 a 仅而不是孩子比父母小 my js logo a mouseover fu
git：如何查看下一次推送将发送的更改

我想查看接下来所有更改的列表push会做 git status似乎知道我已经做出了本地提交我如何让它告诉我这些是什么我一直在做的是这样的 git status On branch master Your branch is ahead
为什么 2048x2048 与 2047x2047 数组乘法相比，性能会受到巨大影响？

我正在做一些矩阵乘法基准测试如前面提到的为什么 MATLAB 的矩阵乘法如此快 https stackoverflow com questions 6058139 why is matlab so fast in matrix multi

为什么 2048x2048 与 2047x2047 数组乘法相比，性能会受到巨大影响？

为什么 2048x2048 与 2047x2047 数组乘法相比，性能会受到巨大影响？ 的相关文章

随机推荐

热门标签

为什么 2048x2048 与 2047x2047 数组乘法相比，性能会受到巨大影响？的相关文章