CUDA 矩阵加法时序，按行与按行比较按栏目

2024-05-04

我目前正在学习 CUDA，并正在做一些练习。其中之一是实现以 3 种不同方式添加矩阵的内核：每个元素 1 个线程、每行 1 个线程和每列 1 个线程。矩阵是方阵，并被实现为一维向量，我只需用以下命令对其进行索引

A[N*row + col]

直觉上，由于线程开销，我预计第一个选项是最慢的，第二个选项是最快的，因为单个线程将处理相邻的数据。

在 CPU 上，使用 8000 x 8000 的密集矩阵，我得到：

Adding on CPU - Adding down columns
Compute Time Taken: 2.21e+00 s
Adding on CPU - Adding across rows
Compute Time Taken: 2.52e-01 s

由于更多的缓存命中，速度大约提高了一个数量级。在具有相同矩阵的 GPU 上，我得到：

Adding one element per thread 
Compute Time Taken: 7.42e-05 s
Adding one row per thread 
Compute Time Taken: 2.52e-05 s
Adding one column per thread 
Compute Time Taken: 1.57e-05 s

这对我来说不直观。最后一种情况的 30-40% 加速在大约 1000 x 1000 矩阵以上是一致的。请注意，这些时序仅是内核执行的时序，不包括主机和设备之间的数据传输。下面是我的两个内核进行比较。

__global__
void matAddKernel2(float* A, float* B, float* C, int N)
{
        int row = threadIdx.x + blockDim.x * blockIdx.x;
        if (row < N)
        {
                int j;
                for (j = 0; j < N; j++)
                {
                        C[N*row + j] = A[N*row + j] + B[N*row + j];
                }
        }
}



__global__
void matAddKernel3(float* A, float* B, float* C, int N)
{
        int col = threadIdx.x + blockDim.x * blockIdx.x;
        int j;

        if (col < N)
        {
                for (j = 0; j < N; j++)
                {
                        C[col + N*j] = A[col + N*j] + B[col + N*j];
                }
        }
}

我的问题是，为什么 GPU 线程似乎没有从处理相邻数据中受益，这将有助于它获得更多缓存命中？

GPU 线程确实受益于处理相邻数据，您缺少的是 GPU 线程不是像 CPU 线程那样的独立线程，它们在一个称为 warp 的组中工作。一个 warp 将 32 个线程组合在一起，并以类似于执行宽度 32 的 SIMD 指令的单个 CPU 线程的方式工作。

因此，实际上，每列使用一个线程的代码是最有效的，因为扭曲内的相邻线程正在访问内存中的相邻数据位置，这是访问全局内存的最有效方法。

您将在以下位置找到详细信息CUDA文档 http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#simt-architecture.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

CUDA

CUDA 矩阵加法时序，按行与按行比较按栏目的相关文章

用 C 更快地读取文件

嗯我想知道是否有一种比使用 fscanf 更快地读取文件的方法例如假设我有这个文本 4 55 k 52 o 24 l 523 i 首先我想读取第一个数字它给出了接下来的行数令这个数称为N N 之后我想读取 N 行其中有一个整数
哪个更快：堆栈分配或堆分配

这个问题听起来可能相当简单但这是我与另一位合作的开发人员进行的辩论我小心翼翼地在可能的地方进行堆栈分配而不是堆分配它们他一边跟我说话一边看着我并评论说没有必要因为他们的表现是一样的我总是有这样的印象堆栈的增长是恒定的时间
setInterval() 如何影响性能？

我们正在使用 Twitter Bootstrap 作为框架构建一个 Web 应用程序但在显示隐藏工具提示时遇到问题除了尝试找到实际问题的解决方案之外我还有一个关于我们同时使用的解决方法的问题从性能角度来看使用 setInterv
java - 简单计算在多线程中比在单线程中花费更长的时间

我试图了解如何利用多线程我写了一个简单的程序来增加i 比方说使用两种方式 400 000 次单线程方式 0 到 400 000 和多线程方式在我的例子中 4 次 0 到 100 000 线程数等于Runtime getRuntime
渲染 ThreeJS 应用程序第一帧时的性能问题

目前当我渲染以下内容时我的 ThreeJS 应用程序的性能受到很大影响第一帧它会导致 Edge 和 IE 11 浏览器冻结 5 秒并弹出窗口指示此窗口没有响应这可能会吓到我的用户使用 Chrome 的性能分析器问题似乎来自几
SQL Server 不使用索引将日期时间与非空进行比较

我有一个与其他任何表都不相关的简单表它有一个非 PK 列它是一个日期我已经为该列创建了一个非聚集索引如果我提出这个查询 select from table where datecolumn is not null 但如果我删除 no
PhoneGap 1.4 封装 Sencha Touch 2.X - 性能怎么样？

我正在构建一个多平台平板电脑应用程序仅使用其 Webview 使用 Phonegap 1 4 对其进行包装然后使用 Sencha Touch 2 框架发挥我的魔力我所说的多平台是指 iOS 5 X 和 Android 3 0 目前到
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
将 pandas 数据帧拆分为子数据帧列表的最快方法

我有一个大数据框df我有完整的清单indices中的独特元素df index 我现在想创建一个由元素索引的所有子数据帧的列表indices 具体来说 list df df loc x for x in indices 运行这个命令需要很长时
优化 LATERAL join 中的慢速聚合

在我的 PostgreSQL 9 6 2 数据库中我有一个查询该查询根据一些股票数据构建计算字段表它为表中的每一行计算 1 到 10 年的移动平均窗口并将其用于周期性调整具体来说 CAPE CAPB CAPC CAPS 和 CAP
即使在急切加载之后，belongs_to 关联也会单独加载

我有以下关联 class Picture lt ActiveRecord Base belongs to user end class User lt ActiveRecord Base has many pictures end 在我的
Pandas hub_table 更快的替代品

我正在使用熊猫pivot table在大型数据集 1000 万行 6 列上运行由于执行时间至关重要因此我尝试加快流程目前处理整个数据集大约需要 8 秒这太慢了我希望找到替代方案来提高速度性能我当前的 Pandas 数据透视
Rails Windows Vagrant 响应时间非常慢

我在跑 Vagrant 1 7 1 Rails 4 1 4 Thin 1 6 1 Windows 7 每个静态文件的发送时间都超过一秒在我的 PC 上加载一个页面可能需要大约 20 秒而在同事的 Linux 机器上则只需瞬间有一些帖子
在 C 中复制两个相邻字节的最快方法是什么？

好吧让我们从最明显的解决方案开始 memcpy Ptr const char a b 2 调用库函数的开销相当大编译器有时不会优化它我不会依赖编译器优化但即使 GCC 很聪明如果我将程序移植到带有垃圾编译器的更奇特的平台上我也不
添加冗余赋值可以在未经优化的情况下编译时加快代码速度

我发现一个有趣的现象 include
使用 FileInputStream 时如何确定理想的缓冲区大小？

我有一个从文件创建 MessageDigest 哈希的方法我需要对很多文件 gt 100 000 执行此操作用于读取文件的缓冲区应该设置多大才能最大限度地提高性能大多数人都熟悉基本代码为了以防万一我将在这里重复一遍 Messag
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
为什么n++执行速度比n=n+1快？

在C语言中为什么n 执行速度快于n n 1 int n n int n n n 1 我们的老师在今天的课堂上问了这个问题这不是家庭作业如果您正在开发一个石器时代编译器的情况下石器时代 n比n 比n n 1 机器通常有incre
为什么 Delphi 中的 ADO Next 记录处理速度变慢？

我有一个多年前开发的 Delphi 4 程序它使用Opus 直接访问 http sourceforge net projects directaccess 按顺序搜索 Microsoft Access 数据库并检索所需的记录 Delphi
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr

随机推荐

如何使用 OR 逻辑（而不是 AND）过滤表列

小提琴示例 http jsfiddle net fks37 我有一个 html 表 A B C D 0 1 0 1 0 1 0 0 1 0 0 1 我要过滤non zero列使用 jQuery dataTables 不是硬性要求只是我当
将文本文件转换为逗号分隔的字符串

我似乎没有找到与这个问题完全匹配的问题我有一个文本文件每行有一个文本标记没有任何逗号制表符或引号我想根据文件内容创建一个逗号分隔的字符串 Input one two three Output one two three 我正在使用
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
你可以将 UIGestureRecognizer 附加到多个视图吗？

UITapGestureRecognizer tapGesture UITapGestureRecognizer alloc initWithTarget self action selector tapTapTap self view1
IE 302 重定向无缓存标头问题

发布信息后返回 302 重定向此重定向旨在重新加载当前页面这一切都工作正常但 IE 在标头中添加了 No Cache Cache Control no cache 我们使用 Squid 来缓存我们的内容并将其放在标头中绕过了鱿鱼由
as3 事件 - 类型强制失败？

我正在将事件从孩子发送到父母 swf 它工作正常直到我使用预加载器 swf 加载父级然后父级停止从子级获取事件我现在收到此错误 TypeError Error 1034 Type Coercion failed cannot conv
生成适用于不同时区和数据的计划

我正在构建一个网络应用程序指导人们早起它会为用户生成七十天内的起床时间表他们输入当前的上升时间和目标上升时间然后上升时间每周减少一定量直到达到目标时间用户必须登录网站并在预定时间签到考虑到当前登录用户的时区和夏令时我对如
如何在 Angular 6 中编辑环境变量而不重建？

我通常将 API URL 设置为environment ts文件我必须将相同的版本部署到具有不同 API URL 的多个客户端目前我正在更改环境变量后进行单独的构建有没有办法在构建后编辑环境变量以便我可以为每个客户端提供相同的构建
什么时候空值在列中“安全”？

设计数据库时是否存在允许列为空与 3nf 规范化的一般经验法则我有一个表其中的列主要由空值 85 组成但表大小不超过 10K 记录不是很大它主要用于日志记录和记录保存因此大多数事务将是插入和选择而不是更新我试图同时考虑性能和
如何删除 RadioListTile 上的内部填充，以便可以连续使用 3 个 RadioListTiles？

我对 Flutter 和 Dart 还很陌生我似乎找不到关于这个特定主题的任何提示我想把 3RadioListTiles in a Row像这样 Row children Expanded child RadioListTile
为什么 Node typescript 项目的 jasmine Karma 单元测试显示覆盖范围包括依赖项？

正如题主所说我们项目的代码覆盖率包括节点依赖但请注意当我们开发和发布它时此 npm 依赖项的源代码也是项目的一部分这是该项目的结构 root main project 业力 conf ts src 和其他要测试并生成覆盖率的文件
反应本机无法解析模块“warnOnce”

我的英语有点生疏对此我很抱歉当我在 iOS 模拟器上启动 React Native 项目时出现错误为了排除与我的代码的任何冲突我开始了一个新项目 react native init demo react native start
向图节点添加标签

我使用 visnetwork 库制作了下图 library tidyverse library igraph set seed 123 n 15 data data frame tibble d paste 1 n relations da
cv2.cv.BoxPoints(rect) 返回什么？

rect cv2 minAreaRect largest contour rect rect 0 0 self scale down rect 0 1 self scale down rect 1 0 self scale down rec
为什么 PackageInfo.signatures 字段是一个数组，什么时候这里会出现除一个值之外的其他值？

我正在相互检查包签名以确定它们是否不兼容针对不同的密钥库进行编译我注意到PackageInfo signatures几乎总是包含单个条目的集合这对我来说很有意义我使用调试或生产密钥库构建应用程序这决定了包的签名这是我此时对 ap
当 mysql_connect 不适用于 IIS 上的 PHP 时，不会返回任何错误消息

我是 PHP 和 MySQL 的新手最近在已经运行 IIS v6 的 Windows Server 2003 服务器上安装了 PHP v5 3 10 和 MySQL v 5 5 21 PHP 运行我已经从 MySQL 5 5 命令行客户
Spring Security - 基于令牌的 API 身份验证和用户/密码身份验证

我正在尝试创建一个主要使用 Spring 提供 REST API 的 Web 应用程序并尝试配置安全方面我正在尝试实现这种模式 https developers google com accounts docs MobileApps h
Terraform 蓝图上的退出条件

我想要一个地形蓝图在顶部满足特定条件时退出 If the var available设置为 false 我希望蓝图停止一切并抛出错误这个的语法是什么我在任何地方的文档文件中都找不到它 terraform 中是否存在此功能注意此代码
需要使用 python(selenium) 抓取通过 ajax 加载的表

我有一个page https seahawks strmarketplace com Charter Seat Licenses Charter Seat Licenses aspx有一个表表 id ctl00 ContentPlaceH
CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉

CUDA 矩阵加法时序，按行与按行比较按栏目

CUDA 矩阵加法时序，按行与按行比较按栏目 的相关文章

随机推荐

热门标签

CUDA 矩阵加法时序，按行与按行比较按栏目的相关文章