CUDA 中共享内存的非方矩阵转置

2024-02-29

我试图获得 CUDA 的变体矩阵转置样本 https://github.com/NVIDIA/cuda-samples/tree/e612904184446c81e4d5beac8755081f9662cca0/Samples/6_Performance/transpose适用于各种尺寸。简而言之，我必须获取一个输入数组（double *a）并将其写在更大矩阵（double *tab）。我以行主格式存储数据，因此我使用此宏进行索引：

#define IDX2L(i,j,ld) (((i)*ld))+(j)) // 0 based index +row-major format

这是我使用的简单代码。

__global__ void cuda_a_Coalesced(double *tab, int tab_rows, int a_rows, double *a)
{
    __shared__  double tile[16*(16+1)]; 
    int col = threadIdx.x + blockIdx.x * blockDim.x;
    int row = threadIdx.y + blockIdx.y * blockDim.y;

    int col_2, row_2;
    int a_cols=tab_rows-a_rows; // tab_rows-a_rows is the number of columns of a
    int tab_cols=2*tab_rows+2;  // 2*tab_rows+2 is the number of columns of tab

    if( (col<a_cols) && (row<a_rows) ) 
    {
        // Load the data into shared mem
        tile[threadIdx.x+threadIdx.y*(16+1)]=a[IDX2L(row,col,a_cols)];

        // Normal copy (+ offsets)
        tab[IDX2L(row,col+tab_rows+a_rows,tab_cols)]= tile[threadIdx.x+threadIdx.y*(16+1)];

        // New idx
        col_2 = blockIdx.y * blockDim.y + threadIdx.x;
        row_2 = blockIdx.x * blockDim.x + threadIdx.y;
    }
    __syncthreads();

    if( (row_2<a_cols) && (col_2<a_rows) )
        // Transpose (+ other offsets)
        tab[IDX2L(row_2+a_rows,col_2+tab_rows,tab_cols)]= -tile[threadIdx.y+threadIdx.x*(16+1)];

}

启动参数如下：

b1=(int)ceil((float)a_cols/16);
b2=(int)ceil((float)a_rows/16);
dim bck(b1,b2):dim th(16,16);

cuda_a_Coalesced<<<bck,th>>>(tab,tab_rows,a_rows,a);

无论大小如何，普通复印始终表现良好。转置复制仅适用于块大小整数倍的大小（如 CUDA 示例中所示）。当转置复制失败时，操作的某些部分是正确的，而其他部分则不正确，这是我无法准确预测或跟踪的。请注意，其想法是更改共享内存中的索引，以便可以在输出矩阵中以合并形式写入转置（由于行主要格式）。

有人可以告诉我为什么代码只适用于那种尺寸的原因？

有什么技巧可以解决这种情况吗？

该问题是由于一些未定义的线程造成的，因为col_2 and row_2被分配在if()声明没有所有线程都在访问。

为了解决这种情况，我们可以给col_2 and row_2当我们声明这些变量并删除上述变量中的同调计算时if():

__shared__  double tile[16*(16+1)];

int col = threadIdx.x + blockIdx.x * blockDim.x;
int row = threadIdx.y + blockIdx.y * blockDim.y;

int col_2 = blockIdx.y * blockDim.y + threadIdx.x;
int row_2 = blockIdx.x * blockDim.x + threadIdx.y;

int a_cols=tab_rows-a_rows; 
int tab_cols=2*tab_rows+2;

因此，其余代码如下所示：

if( (col<a_cols) && (row<a_rows) ) 
{
    // Load the data into shared mem
    tile[threadIdx.x+threadIdx.y*(16+1)]=a[IDX2L(row,col,a_cols)];
    // Normal copy (+ offsets)
    tab[IDX2L(row,col+tab_rows+a_rows,tab_cols)]= tile[threadIdx.x+threadIdx.y*(16+1)];
}
__syncthreads();

if( (row_2<a_cols) && (col_2<a_rows) )
    // Transpose (+ other offsets)
    tab[IDX2L(row_2+a_rows,col_2+tab_rows,tab_cols)]= -tile[threadIdx.y+threadIdx.x*(16+1)];

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA 中共享内存的非方矩阵转置的相关文章

为什么在排序输入上插入到树中比随机输入更快？

现在我一直听说从随机选择的数据构建二叉搜索树比有序数据更快这仅仅是因为有序数据需要显式重新平衡以将树高度保持在最低限度最近我实现了一个不可变的treap http en wikipedia org wiki Treap 一种特殊的二叉搜
快速 log2(float x) 实现 C++

我需要在 C 中非常快速地实现 log2 float x 函数我发现了一个非常有趣的实现而且速度非常快 include
如何从对Web服务发出的请求中获取客户端IP地址

我的 IIS 中托管有一个 Web 服务当客户端直接使用我的服务时我需要找出客户端 IP 地址 like http MyIpAddress MyApplication MyWebServiceClass asmx http MyIpAd
从 unsigned char* 到 char* 的转换无效

这是一个代码 1 int main int argc char argv 2 3 signed char S psc 4 unsigned char U pusc 5 char C pc 6 7 C S 8 C U 9 10 pc psc
如何在 Asp.Net Core 6 中向类型化 HttpClient 添加承载令牌身份验证

我正在尝试使用 ASP Net Core 6 设置一个 Web api 以便用户可以到达我的端点然后我使用特权帐户在幕后的 D365 中执行一些工作我正在使用类型化的 HTTP 客户端但我不确定如何插入承载身份验证以便来自该客户端的
为什么迭代器类型推导失败？ [复制]

这个问题在这里已经有答案了为什么这在 C 中不起作用为什么我不能限制foo的参数为std vector
ASP.NET 如何在 Web API 中读取多部分表单数据？

我将多部分表单数据发送到我的 Web API 如下所示 string example my string HttpContent stringContent new StringContent example HttpContent fil
基于多线程的 RabbitMQ 消费者

我们有一个 Windows 服务它监听单个 RabbitMQ 队列并处理消息我们希望扩展相同的 Windows 服务以便它可以监听 RabbitMQ 的多个队列并处理消息不确定使用多线程是否可以实现这一点因为每个线程都必须侦听阻
为基于架构的 XML 文件创建 WPF 编辑器

这是场景我们的服务器产品之一使用大型 XML 配置文件该文件的布局相当好并且针对 XSD 文件进行了验证现在是时候构建一个配置 GUI 来维护这个文件了我想深入研究 WPF 来完成它我可以为每个配置部分布置一个单独的表单每次向
C 中的双重否定：是否保证返回 0/1？

Is x 标准保证返回0 1 请注意我是not询问 C 其中定义了 bool 类型是的在 C99 中请参阅 6 5 3 3 4 逻辑非运算符的结果是0如果其操作数的值比较不等于0 1如果其操作数的值比较等于 0 结果具有类型in
我们什么时候应该在.NET中使用NativeMemory.Alloc()？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 NET6 C 引入NativeMemory类但我不知道什么时候应该使用NativeMemory Alloc 而不是普通的数组实例化
如何在控制器中使用多个 DBContext

如何在控制器中使用多个 DBContext 我尝试以不同的方式重载构造函数一些控制器 public C1 DBContext1 a DBContext2 b DBContext3 c public C1 DBContext1 a publ
如何从命名空间内重载运算符<<

这是我能想到的最小的包含示例首先是类的标题每当使用 pragma once ifndef EURO H define EURO H include
Moq - 是否可以在不使用 It.IsAny 的情况下设置模拟

我一直使用 Moq 进行单元测试有时我会嘲笑有很多参数的方法想象一下这样的方法 public class WorkClient public void DoSomething string itemName int itemCount
哪个更快？按引用传递与按值传递 C++

我认为按引用传递应该比按值传递更快因为计算机不复制数据它只是指向数据的地址但是请考虑以下 C 代码 include
VS C# 中的依赖地狱，找不到依赖项

我创建了一个图表 C 库我们称之为chartlibrary 它本身依赖于多个第三方 dll 文件在另一个可执行项目中我们称之为chartuser 我参考了chartlibrary项目两个项目位于 Visual Studio 中的同一
这个元组创建习惯有名字吗？

On the 增加邮件列表 http lists boost org Archives boost 2014 06 214213 php LouisDionne 最近发布了以下创建类似元组的实体的巧妙技巧 include
C# 中的类和模块有什么用

有人可以解释一下类和模块之间的区别吗你什么时候使用其中一种而不是另一种我正在使用 C 更新我的意思是相当于 VB 模块的 C 版本这在很大程度上取决于您所指的模块 Visual Basic 的模块 C 中没有真正等效的 VB Ne
为什么 getch 不可移植？

是什么使得 getch 本质上无法作为标准 C 函数包含在内对于控制台界面来说它是如此直观和优雅如果没有它要求输入单个字符总是会产生误导因为用户可以输入多个键更糟糕的是您经常需要确保在读取控制台输入后清除标准输入这甚至不是作
如何编写完全可移植的 4 字节字符常量的编译时初始化

遗留代码大致如下所示 define MAKEID a b c d UInt32 a lt lt 24 UInt32 b lt lt 16 UInt32 c lt lt 8 UInt32 d define ID FORM MAKEID F

随机推荐

为什么 Mail 块看不到我的变量？

我是 Ruby 新手想知道为什么在这种情况下在简单的 Sinatra 应用程序中使用邮件 gem 时会出现错误 post email send do recipient params email Mail deliver do to r
在 VB.NET 中使用 & 或 + 进行字符串操作

我见过几个程序员使用 and 用于字符串操作例如 dim firstvar as string dim secondvar as string dim thirdvar as string thirdvar firstvar second
在Delphi中发送电子邮件，无需smtp并在服务器上使用php函数

使用Delphi 我想使用winsock 向我的Web 服务器发送一条文本消息然后使用服务器上的电子邮件php 函数来发布该消息首先我完成了发送过程 Procedure SendEmail 它读取文本文件日志并将其发布到我的服务器
如何计算自期初以来的累计百分比变化

我正在尝试创建一个DataFrame滚动累积百分比变化我想显示股票自初始购买日期 2014 09 05 以来的百分比变化 import pandas as pd import pandas io data as web cvs web g
#[cfg(test)] 放在 lib.rs 顶部时会做什么？

我正在编写一个带有单元测试的 Rust 库从 Cargo 生成我想使用外部板条箱maplit https docs rs maplit 1 0 2 maplit 在我的单元测试中能够使用类似 JavaScript 的哈希图文字我不想在
backbone.js 的目的是什么？

我试图从它的网站了解backbone js的实用性http documentcloud github com backbone http documentcloud github com backbone 但我仍然想不通太多谁能帮我解释一
ASP.NET MVC Preview 5 - Html.Image 帮助器已移动命名空间

我们刚刚将 ASP NET 从预览版 3 更新到预览版 5 并且遇到了问题Html Image我们的 aspx 页面中的 HtmlHelper 看起来Html Image已移至System Web Mvc into Microsoft We
渲染填充表面时，黑白显示上的阴影效果更好

Prologue 我终于解决了 AT32UC3xxxxx 和 SSD1306 OLED I2C 显示器之间的硬件不兼容问题两者都存在导致不兼容的硬件错误使我能够以 400KBaud 每帧约 26 6ms 使用 HW I2C 因此我决定
SQLServer 与 StateServer 的 ASP.NET 会话状态性能比较

我正在学习 MS 认证我正在做的练习测试之一有一个问题争论的焦点是在 SQL Server 中存储会话与在 StateServer 中存储会话之间的性能考虑到应用程序在网络场中运行哪种会话状态解决方案可提供最佳性能 SQL Serv
为什么标准要区分直接列表初始化和复制列表初始化？

我们知道T v x 叫做直接初始化 while T v x 叫做复制初始化这意味着它将构建一个临时的T from x将被复制移动到v 这很可能被省略对于列表初始化标准根据上下文区分两种形式 T v x 叫做直接列表初始化 while
如何在 Bash 中替换上一个命令中字符串的所有实例？ [复制]

这个问题在这里已经有答案了如果我刚刚在 Bash 中输入以下命令 echo foo 我可以通过输入以下内容将 foo 更改为 bar foo bar 这会导致执行以下命令 echo bar 现在如果我输入 echo foo foo 有没有
使用 fs.readFileSync 和 eval 内容读取文件...哪个作用域具有这些功能？如何访问？

我最近尝试将文件导入到现有的 Node js 项目中我知道这应该用模块编写但我包含了我的外部 javascript 文件如下所示 eval fs readFileSync public templates simple js simp
如何在 Vue.js 中使用 /deep/ 或 >>> 或 ::v-deep？

所以我读过here https vue loader vuejs org en features scoped css html在 Vue js 中你可以使用 deep or gt gt gt 在选择器中以便创建适用于子组件内部元素的
Android 在版本 >=4.1 时禁用飞行模式

我需要在我的信息亭应用程序中禁用飞行模式我尝试下面的代码片段来覆盖设备设置 try int airplane Settings System getInt getApplicationContext getContentResolver
如何从 Guice 注入器获取所有单例实例？

有没有一种简单的方法来枚举 Guice 注入器已经创建的所有单例实例或者另一种获取实现特定接口的所有单例的方法我想找到所有实现 java io Closeable 的单例实例以便在服务关闭时可以干净地关闭它们使用 Guice 的 S
如何重命名Rails的map.resources()中的默认标识符参数“id”？

我喜欢 Rail 生成的所有默认路线地图资源但是在某些情况下我想在路线中使用非数字标识符例如如果有一个由用户及其文章组成的嵌套路由则标准路由可以写成这样 map resources users has many gt artic
如何将 Bash 变量传递给 Python？

最终我明白了这一点并且它起作用了 bash脚本 bin bash V cwd o HOME sge jobs output JOB ID out j y S bin bash l mem free 4G c SGE TASK ID cd h
在谈论单元测试时，“DAMP not DRY”是什么意思？

我听到有人说单元测试例如 nUnit jUnit xUnit 应该 DAMP http blog jayfields com 2006 05 dry code damp dsls html not DRY http en wikipedi
Xamarin Forms Android 错误：请安装包“Android 支持库”

我最近将项目上传到 Git 并使用自动生成的 Xamarin Windows MacOS VisualStudio gitignore 文件我在 iOS 上做了很多工作和测试但现在我回到 android 但在构建 Project Dro
CUDA 中共享内存的非方矩阵转置

我试图获得 CUDA 的变体矩阵转置样本 https github com NVIDIA cuda samples tree e612904184446c81e4d5beac8755081f9662cca0 Samples 6 Perfor

CUDA 中共享内存的非方矩阵转置

CUDA 中共享内存的非方矩阵转置 的相关文章

随机推荐

热门标签

CUDA 中共享内存的非方矩阵转置的相关文章