为什么这些矩阵乘法的性能如此不同？

2024-01-04

我用 Java 编写了两个矩阵类，只是为了比较它们的矩阵乘法的性能。一个类（Mat1）存储一个double[][] A成员所在行i矩阵的值为A[i]。其他类（Mat2）存储A and T where T是转置A.

假设我们有一个方阵 M，我们想要的乘积M.mult(M)。致电产品P.

当 M 是 Mat1 实例时，使用的算法是简单的：

P[i][j] += M.A[i][k] * M.A[k][j]
    for k in range(0, M.A.length)

在 M 是 Mat2 的情况下，我使用：

P[i][j] += M.A[i][k] * M.T[j][k]

这是相同的算法，因为T[j][k]==A[k][j]。在 1000x1000 矩阵上，第二个算法在我的机器上大约需要 1.2 秒，而第一个算法至少需要 25 秒。我原以为第二个会更快，但没想到这么快。问题是，为什么速度这么快？

我唯一的猜测是，第二个算法更好地利用了 CPU 缓存，因为数据以大于 1 个字的块的形式被拉入缓存，而第二个算法通过仅遍历行而受益，而第一个算法则忽略拉入的数据通过立即转到下面的行（内存中约 1000 个字，因为数组按行主要顺序存储）来进行缓存，没有缓存任何数据。

我问过某人，他认为这是因为更友好的内存访问模式（即第二个版本会导致更少的 TLB 软故障）。我根本没有想到这一点，但我可以看出它是如何减少 TLB 错误的。

那么，是哪一个呢？或者还有其他原因导致性能差异？

这是因为您的数据的位置。

在 RAM 中，矩阵虽然从您的角度来看是二维的，但它当然存储为连续的字节数组。与一维数组的唯一区别是偏移量是通过对您使用的两个索引进行插值来计算的。

这意味着如果您访问位置处的元素x,y它会计算x*row_length + y这将是用于引用指定位置处的元素的偏移量。

发生的情况是，一个大矩阵不仅仅存储在内存页面中（这就是操作系统管理 RAM 的方式，通过将其分割成块），因此如果您尝试访问某个内存页面，它必须在 CPU 缓存内加载正确的页面。尚不存在的元素。

只要您连续进行乘法，就不会产生任何问题，因为您主要使用一页的所有系数，然后切换到下一页，但如果您反转索引，会发生的情况是每个元素都可能包含在不同的内存页面，因此每次它都需要向 RAM 请求不同的页面，这几乎对于您执行的每一次乘法都是如此，这就是差异如此巧妙的原因。

（我相当简化了整个解释，只是为了给您围绕这个问题的基本想法）

无论如何，我不认为这是 JVM 本身造成的。它可能与您的操作系统如何管理 Java 进程的内存有关。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么这些矩阵乘法的性能如此不同？的相关文章

将 jar 作为 Linux 服务运行 - init.d 脚本在启动应用程序时卡住

我目前正在致力于在 Linux VM 上实现一个可运行的 jar 作为后台服务我已经使用了找到的例子here https gist github com shirish4you 5089019作为工作的基础并将 start 方法修改为
禁用 Eclipse Java 调试器的热代码替换 [重复]

这个问题在这里已经有答案了可能的重复如何在 Eclipse 中禁用热代码替换 https stackoverflow com questions 2594408 how do i disable hot code replace in
Grails 2.3.0 自动重新加载不起作用

我最近将我们的项目升级到 grails 2 3 0 一切工作正常除了每当我更改代码时自动重新加载都无法工作的问题这包括所有项目工件控制器域服务 gsps css 和 javascript 文件我的旧版本 grails 可以正常工
无法使用maven编译java项目

我正在尝试在 java 16 0 1 上使用 maven 构建 IntelliJ 项目但它无法编译我的项目尽管 IntelliJ 能够成功完成在此之前我使用maven编译了一个java 15项目但我决定将所有内容更新到16 0 1
为什么 java 编译器不报告 Intellij 中多播表达式的未经检查的强制转换警告？

为什么下面的代码没有报告 Intellij IDEA 的未经检查的警告jdk 1 8 0 121自从Supplier
C++ Exp 与 Log：哪个更快？

我有一个 C 应用程序需要比较两个值并决定哪个值更大唯一的复杂之处是一个数字在对数空间中表示而另一个则不是例如 double log num 1 log 1 23 double num 2 1 24 如果我想比较num 1 and
Java套接字：在连接被拒绝异常时重试的最佳方法？

现在我正在这样做 while true try SocketAddress sockaddr new InetSocketAddress ivDestIP ivDestPort downloadSock new Socket downloa
无法在 Spring Boot 测试中模拟 persistenceContext

我正在使用带有 Mockito 框架的 spring boot 测试来测试我的应用程序存储库类 EntityManager 之一作为参考我的班级如下所示 Repository Transactional Slf4j public cla
Firestore - RecycleView - 图像持有者

我不知道如何编写图像的支架我已经设置了 2 个文本但我不知道图像的支架应该是什么样子你能帮我告诉我图像的文字应该是什么样子才能正确显示吗 holder artistImage setImageResource model getArt
主线程如何在该线程之前运行？

我有以下代码 public class Derived implements Runnable private int num public synchronized void setA int num try Thread sleep 1
在java中实现你自己的阻塞队列

我知道这个问题之前已经被问过并回答过很多次了但我只是无法根据互联网上找到的示例找出窍门例如this http tutorials jenkov com java concurrency blocking queues html or t
Java 服务器-客户端 readLine() 方法

我有一个客户端类和一个服务器类如果客户端向服务器发送消息服务器会将响应发送回客户端然后客户端将打印它收到的所有消息例如如果客户端向服务器发送 A 则服务器将向客户端发送响应 1111 所以我在客户端类中使用 readLine 从服
将表值参数与 SQL Server JDBC 结合使用

任何人都可以提供一些有关如何将表值参数 TVP 与 SQL Server JDBC 一起使用的指导吗我使用的是微软提供的6 0版本的SQL Server驱动程序我已经查看了官方文档 https msdn microsoft com en
React Native：加载图像后应用程序性能不佳

加载图像似乎没有问题但是加载完毕后就出现问题了在我的应用程序中我在整个游戏中一张一张地加载卡片图像一旦我加载了 40 张卡片图像整个应用程序就会变得很慢它总是发生在第 40 个图像处当我在第 40 个图像之后继续加载更多卡片图
列表应该如何转换为具体的实现？

假设我正在使用一个我不知道源代码的库它有一个返回列表的方法如下所示 public List
Java 数组的最大维数

出于好奇在 Java 中数组可以有多少维爪哇language不限制维数但是JavaVM规范将维度数限制为 255 例如以下代码将无法编译 class Main public static void main String args
如何在 Quartz 调度程序中每 25 秒运行一次？

我正在使用 Java 的 Quartz Scheduling API 你能帮我使用 cron 表达式每 25 秒运行一次吗这只是一个延迟它不必总是从第 0 秒开始例如序列如下 0 00 0 25 0 50 1 15 1 40 2 0
如何在Java中正确删除数组[重复]

这个问题在这里已经有答案了我刚接触 Java 4 天从我搜索过的教程来看讲师们花费了大量精力来解释如何分配二维数组例如如下所示 Foo fooArray new Foo 2 3 但我还没有找到任何解释如何删除它们的信息从内存的情
嵌入式 Jetty - 以编程方式添加基于表单的身份验证

有没有一种方法可以按如下方式以编程方式添加基于表单的身份验证我用的是我自己的LdapLoginModule 最初我使用基本身份验证并且工作正常但现在我想在登录页面上进行更多控制例如显示徽标等有没有好的样品我正在使用嵌入式 jett
Android 和 Java 中绘制椭圆的区别

在Java中由于某种原因Ellipse2D Double使用参数 height width x y 当我创建一个RectF在Android中参数是 left top right bottom 所以我对适应差异有点困惑如果在 Java 中创

随机推荐

处理 TCP 提供程序：错误代码 0x68 (104)

我正在使用此代码将我的数据库与客户端同步 import pyodbc SYNC FETCH ARRAY SIZE 25000 define connection cursor connection pyodbc connect cursor
Wiremock：如何使用 API 将文件上传到文件夹 __files

wiremock 的文档说我们可以通过以下代码模拟检索文件的请求 request method GET url body file response status 200 bodyFileName path to myfile xml 但现
在MATLAB中读取带有逗号小数分隔符的txt文件[重复]

这个问题在这里已经有答案了我有一个这样的txt文件 1 6 2 6 5 5 1000 columns 0 1 4 2 5 1000 rows 即用代替作为小数点分隔符如何在 MATLAB 中正确读取此内容并输出 1 6 2 6 5
maven - 使用 Spring 进行接口和实现的单独模块

我们正在致力于 Maven 化我们的 java 项目我们希望在每个模块的接口和实现之间建立一个清晰的分离为此我们希望将每个模块分成两个子模块一个用于它们使用的接口和数据对象另一个用于实现例如 commons commons ap
我怎样才能做文本计时器

我想在用户单击重新发送时显示 1 分钟的计时器 Text text Re send modifier Modifier clickable color Color Blue 要创建具有 2 种颜色的文本您需要 annotatedStr
用嵌套对象展平数组

我有一个包含对象的数组可以有子对象子对象与父对象具有相同的结构基本上只是对象嵌套我想知道如何展平对象的结构以便获得所有对象的 id 包括嵌套对象的 id 例如这个结构 const data id 2 children id 1
使用注释配置的 Spring 控制台应用程序

我想创建 spring 控制台应用程序使用 maven 从命令行运行例如 mvn exec java Dexec mainClass package MainClass 我想要这个应用程序有某种服务和 dao 层吗我知道如何为 Web
ActiveAdmin 表单不保存嵌套对象

将 ActiveAdmin 与 Rails 4 结合使用我有两个模型 Document and Attachment它们之间是一对多的关系 models document rb class Document lt ActiveRecord
WooCommerce：根据自定义元值更改订单状态

我尝试每天运行以下函数以自动完成超过 10 天且具有特定自定义元值的所有处理订单我正在使用以下代码片段但这根本行不通知道为什么吗 function autoComplete orders wc get orders array st
将下拉子菜单保留在屏幕内的 jQuery 解决方案

我正在使用 bootstrap 作为我的下拉菜单但它有一个问题如果我的下拉菜单有多级子菜单那么它会显示在屏幕上并且会出现底部滚动条如何将子菜单保留在屏幕内我需要一个 jQuery 解决方案检查我的屏幕截图这是操场 http
如果选择单选按钮显示 Div - 8 个单选按钮/8 个 Div - 可以简化吗？

基本上我想要 8 个单选按钮如果选择一个单选按钮则下面会显示一个 div 如果选择另一个按钮则会显示另一个 div 一次仅显示一个 div 如果最初未选择任何按钮则不会显示任何 div 这是我的 HTML 它是相当标准的我并
将 nextjs 版本从 8 更改为 10 后，iOS 版 React-Player 中的音频播放问题

在我的 Nextjs v 10 项目中 react player 用于播放 mp3 文件我最近更新了该项目 next 10 react 17 0 2 react player 1 6 6 在我的组件中我使用这样的反应播放器
在 mvc 实体框架中填充下拉选择的文本框

我正在使用 Asp net MVC5 和实体框架我对这两种技术都是新手基本上我创建了一个表单当我从下拉菜单中选择值时在此表单中可以使用下拉菜单我想填写此表格上也提供的文本框这是我的控制器 public class ChainCo
Flutter：如何在 IconButton 中添加轮廓/描边边框？

如何在 IconButton 中添加轮廓描边边框我尝试使用堆栈但这并没有给出预期的输出这是我的代码 SliverAppBar leading Stack alignment Alignment center children Ico
dplyr，R：一次计算多列中的特定值[重复]

这个问题在这里已经有答案了我有一个数据框 md lt data frame a c 3 5 4 5 3 5 b c 5 5 5 4 4 1 c c 1 3 4 3 5 5 device c 1 1 2 2 3 3 myvars c a b
通过语音调用时，conv.user.storage 值不会跨会话保存

我正在尝试使用 conv user storage 为我的用户保存跨会话的信息即我想给他一个 ID 当我通过键盘调用我的操作时它会很好地保存我的用户存储 ID 当我从开发人员控制台再次运行该操作时它会在会话中 console log
context.xml 中 SQLite DB 的相对路径

是否可以在 Java Web 应用程序的 context xml 文件中使用 SQLite 数据库文件的相对路径目前我有
R - 我是否需要使用 print() 添加显式换行符？

如何在 R 中使用换行符 myStringVariable lt Very Nice I like myStringVariabel lt paste myStringVariable n sep 上面的代码不起作用 P S 在谷歌搜索此类
使用 Vue JS 2.6 和 VueCli 4.0 的 Webpack

我正在尝试使用以下命令安装 WebpackVueCli 4 0 使用较旧的已弃用的 Vue Cli 运行命令vue init webpack my project将搭建一个 webpack 就绪项目并将 babel SASS Lintin
为什么这些矩阵乘法的性能如此不同？

我用 Java 编写了两个矩阵类只是为了比较它们的矩阵乘法的性能一个类 Mat1 存储一个double A成员所在行i矩阵的值为A i 其他类 Mat2 存储A and T where T是转置A 假设我们有一个方阵 M 我们想要的乘积

为什么这些矩阵乘法的性能如此不同？

为什么这些矩阵乘法的性能如此不同？ 的相关文章

随机推荐

热门标签

为什么这些矩阵乘法的性能如此不同？的相关文章