矩阵乘法：为什么非阻塞优于阻塞？

2023-12-12

我试图通过阻止循环来提高缓存性能来加速矩阵乘法算法，但无论矩阵大小、块大小如何，非阻塞版本仍然明显更快（我已经尝试了 2 到 200 之间的许多值，效力） 2 及其他）和优化级别。

非阻塞版本：

  for(size_t i = 0; i < n; ++i)
  {
    for(size_t k = 0; k < n; ++k)
    {
      int r = a[i][k];
      for(size_t j = 0; j < n; ++j)
      {
        c[i][j] += r * b[k][j];
      }
    }
  }

被屏蔽的版本：

  for(size_t kk = 0; kk < n; kk += BLOCK)
  {
    for(size_t jj = 0; jj < n; jj += BLOCK)
    {
      for(size_t i = 0; i < n; ++i)
      {
        for(size_t k = kk; k < kk + BLOCK; ++k)
        {
          int r = a[i][k];
          for(size_t j = jj; j < jj + BLOCK; ++j)
          {
            c[i][j] += r * b[k][j];
          }
        }
      }
    }
  }

我还有一个 bijk 版本和一个 6 循环 bikj 版本，但它们的性能都优于非阻塞版本，我不明白为什么会发生这种情况。我遇到的每一篇论文和教程似乎都表明受阻止的版本应该明显更快。如果重要的话，我在 Core i5 上运行它。

尝试仅在一维上进行阻塞，而不是在两个维度上进行阻塞。

矩阵乘法详尽地处理两个矩阵中的元素。左侧矩阵上的每个行向量都会被重复处理，并放入右侧矩阵的连续列中。

如果矩阵不能同时装入缓存，则某些数据最终将不可避免地被多次加载。

我们能做的就是分解操作，以便我们一次处理大约缓存大小的数据量。我们希望缓存左操作数中的行向量，因为它会重复应用于多个列。但是我们应该（一次）只获取足够的列以保持在缓存的限制内。例如，如果我们只能获取 25% 的列，则意味着我们必须传递行向量四次。我们最终从内存中加载左矩阵四次，而右矩阵仅加载一次。

（如果要多次加载任何内容，则应该是左侧的行向量，因为它们在内存中是平坦的，这受益于突发加载。许多缓存架构可以比从内存更快地执行从内存到相邻缓存行的突发加载随机访问加载。如果正确的矩阵以列优先顺序存储，那就更好了：然后我们在平面数组之间进行叉积，它可以很好地预取到内存中。）

我们也不要忘记输出矩阵。输出矩阵也占用缓存中的空间。

我怀疑 2D 分块方法的一个缺陷是输出矩阵的每个元素都依赖于两个输入：左侧矩阵中的整个行和右侧矩阵中的整个列。如果矩阵被分块访问，则意味着每个目标元素被访问多次以累积部分结果。

如果我们做一个完整的行列点积，我们就不必访问c[i][j]不止一次;一旦我们采取专栏j进入行i，我们就完成了c[i][j].

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

矩阵乘法：为什么非阻塞优于阻塞？的相关文章

如何使用 VS2022 中的新控制台应用程序模板访问命令行参数

我想知道如何访问命令行参数因为这是在Program cs通过 Visual Studio 2022 中控制台应用程序的新模板创建文件 See https aka ms new console template for more infor
将列表数组中的值绑定到列表框

任何机构都可以给出一个简短的示例用于将列表数组中的值绑定到 c net 中的列表框这取决于您的列表数组的情况让我们从一个简单的示例开始 List
沿着长数据序列在固定大小的移动窗口中查找中值

给定一个数据序列可能有重复项一个固定大小的移动窗口从数据开始处每次迭代时移动窗口序列使得 1 从窗口中删除最旧的数据元素并添加新数据元素被推入窗口 2 求每次移动时窗口内数据的中位数以下帖子没有帮助有效地找到随机序列的中值
ASP.NET Core 中 AsNoTracking 的模拟或更好的解决方法

您如何模拟 AsNoTracking 或者是否有更好的解决方法来解决此问题 Example public class MyContext MyContextBase Constructor public MyContext DbContex
我可以将特定警告视为错误吗？

以下是我有时在学生代码中看到的模式的简化版本 bool foobar int a int b if a lt b return true 当然真正的代码要复杂得多 Visual Studio 报告警告 C4715 并非所有控制路径都会返回
memccpy 返回比 src 起始地址更低的内存地址

我有一个学校项目我必须重新编码memccpy 功能我使用 2 个程序来检查我的代码是否正常工作第一个是只有一个主程序的小程序第二个程序是另一个学生开发的可以找到here https github com yyang42 mouli
为什么我在这段代码中不断得到两个相同的随机值？ [复制]

这个问题在这里已经有答案了可能的重复为什么我的随机数生成器在 C 中不是随机的 https stackoverflow com questions 932520 why does it appear that my random num
本地主机和 request.Url.Authority

我的应用程序通过 URL 中的公司标识符分隔用户 company1 app com company2 app com 我正在本地 PC 上进行测试请求如下 company1 localhost com 但是我的 request Url
Docker 不遵循构建目录中的符号链接

我正在对一个应用程序进行 Docker 化其中涉及通过 Clang 将二进制文件与其他 C 文件链接我们维护二进制文件的符号链接版本因为它们在整个代码库中使用我的 Docker 构建目录包含整个代码库包括源文件以及这些源文件的符号
我可以在 ASP.NET MVC 中使用 [CompressFilter] 而不破坏甜甜圈缓存吗

我正在努力获得压缩过滤器 http www thegrubbsian com p 202 使用甜甜圈缓存并遇到问题发生的情况是整个页面都被缓存而不仅仅是甜甜圈的来源CompressFilter我正在使用的是下面的我从原始来源 ht
C++ 中类型信息何时向后流动？

我刚刚看了 Stephan T Lavavej 的演讲CppCon 2018关于类模板参数推导在哪里某个点 https youtu be H ut6j1BYU t 941他顺便说在 C 中类型信息几乎永远不会向后流动我不得不说几
为什么 C++20 范围不只提供管道语法？

我知道这个问题听起来很奇怪所以这里有一些背景信息最近我很失望地了解到 C 20 范围内的映射缩减并不像人们所期望的那样工作即 const double val data transform accumulate 不起作用你必须这样
验证域用户凭据

我需要一种方法来验证 Windows 上本机 C 的用户密码对输入的是用户名和密码用户可以是 DOMAIN user 格式基本上我需要编写一个函数如果用户密码是有效的本地帐户则返回 true 第1部分如果用户密码在给定的域
函数中的重复参数检查

我经常有调用层次结构因为所有方法都需要相同的参数如果我不想将它们放在实例级别类的成员那么我总是问我在每个方法中检查它们的有效性是否有意义例如 public void MethodA object o if null o throw
Xamarin.Android JmDNS 绑定问题

我开始研究 Xamarin Android 的 JmDNS 绑定我设法构建了绑定但无法从代码中引用它 https github com ytn3rd monodroid bindings tree master JmDNS https
将华氏温度转换为摄氏度的 C 程序始终打印零

我需要一些关于用 C 语言将华氏温度转换为摄氏度的程序的帮助我的代码如下所示 include
PARITY_NONE 是 C++ Windows 中的关键字吗？

我正在使用 boost 编写一个串行库并且我有一个枚举 enum parity t PARITY NONE PARITY ODD PARITY EVEN 我收到如下错误错误 1 错误 C2059 语法错误我无法弄清楚问题是什么然后我
使用 Node.js 访问用 C++ 编写的 SDK

我有一个用 C 语言编写的 SDK 可以与我的扫描仪设备进行通信我需要开发一个可以访问扫描仪设备的电子应用程序我知道有很多库可用于扫描仪但我想使用这个 SDK 因为它允许我访问设备的完整功能而且它是由设备制造商提供的那么有没有什
WPF DataGrid 选定项

我有一个 DataGrid 用户可以通过在最后一行输入数据来添加项目我还有一个按钮可以删除当前选定的项目但是当选择最后一行空用于添加新项目时最后选定的项目将保留在 SelectedItem 中因此如果我打开窗口选择最后一
如何在您的网站中连接两个人

有一款名为 Verbosity 的游戏这是一款有目的的游戏位于此链接上www gwap com 在游戏中他们随机连接两个玩家互相玩游戏是玩家1应该向他的搭档玩家2 描述一个单词而玩家2应该猜测这个单词我正在尝试建立一个网站来执

随机推荐

在 SqlAlchemy SQLite 中按联合查询中的列排序

正如中所解释的这个问题您可以使用字符串文字来执行order by in unions 例如这适用于 Oracle querypart1 select t1 c col1 label a order by t1 c col1 limit
Windows Phone 8.1 上的资源限定符

Windows Phone 8 1 应用程序是否支持资源限定符例如秤这些限定符与 Windows 应用商店应用程序中的限定符有何不同是 Windows Phone 8 1 RT 支持图像缩放具体方法如下
Presto：前一个月的最后一天

我有一个日期列表我想返回前一个月的最后日期如下例所示 date lastdayofmonthprior 2018 04 03 2018 03 31 我努力了date trunc month date 2018 04 03 1但是我收到
启用身份验证后无法连接到 MongoDB

我正在运行适用于 Ubuntu 14 04 的最新 MongoDB 我创建了一个名为 admin 且具有 userAdminAnyDatabase 角色的用户我可以在本地和外部访问数据库我可以使用 SHA SCRAM 1 使用 admi
C：从文本文件读入结构数组

我正在制作的程序应该从文本文件中读取数字并保存数字总数即结构中数字的平均值我有一个如下所示的结构 struct seriepost int totnr int outnr float average 函数未完成如下所示 int re
MapView注释不拖动

我正在尝试在地图视图中实现可拖动的图钉实际上是自定义图标这是我拥有的委托代码 MKAnnotationView mapView MKMapView mapView viewForAnnotation id
如何修复代码警报“通用对象注入接收器”

下面是我的代码我认为没有任何问题我怎样才能愚弄codacy 如果我不能使用obj key 那这东西到底是什么我没有办法避免 handleClick e titleProps gt const index titleProps cons
使用 Object.assign 避免 Typescript 构造函数中的冗余

我有一个 Typescript 应用程序其中有很多这样的代码 class Model prop1 string prop2 string prop3 string constructor input ModelInput this pro
EL上下文路径评估outputLink和graphicImage之间的差异

我正在使用以下内容在我们的应用程序中获取帮助文档我的问题是虽然
读取多模块项目中的属性文件

您好我有一个项目它有两个具有以下结构的模块 project Module1 abc jsp Module2 src main java com xyz comp Action java resources
Kivy - 向选项卡按钮添加图标

我在 Kivy 中使用 TabbedPanel 它工作得很好但我想稍微自定义一下选项卡按钮并在文本旁边添加一个图标 Right now I have something like this And I would like somethi
如何在窗外画画？

看着一个窗户tooltips类提示窗口我看到它绘制了阴影outside提示窗口的实际矩形 Using SpyXX 我可以获得工具提示的窗口矩形和类样式 Rectangle 440 229 544 249 104x20 Restored R
url 域的正则表达式

我如何从这些网址进行匹配 http foo bar com http bar com foo bar从第一个链接和bar从第二个链接使用一个正则表达式尝试这个 http com 以下是如何从 Python 使用它 import re fo
rspec 错误“report_activate_error”：找不到 RubyGem rspec-core (>=0) (Gem:LoadError)

我有一个看似简单的错误但我似乎不知道如何解决它我尝试过卸载并重新安装但这并没有帮助我我是终端和 ruby ruby on Rails 的新手所以请原谅我可能愚蠢的问题有谁知道如何解决这个问题这是我尝试运行 rspec 时收到的
如何移动到 Kafka 消费者中的特定偏移量而不遇到 ValueError？

我正在使用 python 3 9 16 和 kafka python 版本 2 0 2 我正在我的 Macbook Pro IOS 11 6 5 上运行 Kafka 新手现在只是在玩它我不确定问题是什么也不确定为什么我的解决方法有效
如何在没有 web.xml 的情况下使用 Jersey 作为 JAX-RS 实现？

我读过JavaEE 6 web xml是可选的所以没有web xml 我如何告诉应用服务器使用 Jersey 作为 JAX RS 规范的实现 AlexNevidomsky 写了什么他的回答是正确的就如何在没有 web xml 的情况下实
Python - 仅使用过滤器和 lambda 删除列表中的重复项

我需要删除列表中没有集合函数或循环的重复项仅通过使用过滤器和 lambda 函数我的尝试是 list filter lambda x x in l remove x l 但删除会返回已删除的项目而不是整个列表有什么建议么你需要以
Android - 由于回收问题而无法检查自定义列表视图中的所有复选框？

我有一个自定义列表视图适配器带有图像视图文本视图和复选框我的主布局中还有一个按钮和一个复选框不在列表视图中我想要的是当我检查主布局的复选框时立即检查所有这些列表视图复选框我将这些复选框的状态保存在布尔类型数组列表中这样当我逐一
Python 字典迭代顺序意外排序。为什么？ [复制]

这个问题在这里已经有答案了字典由连续的整数键填充如下所示 d dict for i in range 0 10 d i 100 i 之后字典项会像这样迭代 for k v in d items print k v 结果显示项目按数字顺
矩阵乘法：为什么非阻塞优于阻塞？

我试图通过阻止循环来提高缓存性能来加速矩阵乘法算法但无论矩阵大小块大小如何非阻塞版本仍然明显更快我已经尝试了 2 到 200 之间的许多值效力 2 及其他和优化级别非阻塞版本 for size t i 0 i lt n i f

矩阵乘法：为什么非阻塞优于阻塞？

矩阵乘法：为什么非阻塞优于阻塞？ 的相关文章

随机推荐

热门标签

矩阵乘法：为什么非阻塞优于阻塞？的相关文章