如何在 CUDA 中使用 2D 数组？

2023-12-09

如何分配大小为 MXN 的二维数组？那么如何在 CUDA 中遍历该数组呢？

__global__ void test(int A[BLOCK_SIZE][BLOCK_SIZE], int B[BLOCK_SIZE][BLOCK_SIZE],int C[BLOCK_SIZE][BLOCK_SIZE])
{

    int i = blockIdx.y * blockDim.y + threadIdx.y;
    int j = blockIdx.x * blockDim.x + threadIdx.x;
    
    if (i < BLOCK_SIZE && j < BLOCK_SIZE)
        C[i][j] = A[i][j] + B[i][j];

}

int main()
{

    int d_A[BLOCK_SIZE][BLOCK_SIZE];
    int d_B[BLOCK_SIZE][BLOCK_SIZE];
    int d_C[BLOCK_SIZE][BLOCK_SIZE];

    int C[BLOCK_SIZE][BLOCK_SIZE];

    for(int i=0;i<BLOCK_SIZE;i++)
      for(int j=0;j<BLOCK_SIZE;j++)
      {
        d_A[i][j]=i+j;
        d_B[i][j]=i+j;
      }
    

    dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE); 
    dim3 dimGrid(GRID_SIZE, GRID_SIZE); 

    test<<<dimGrid, dimBlock>>>(d_A,d_B,d_C); 

    cudaMemcpy(C,d_C,BLOCK_SIZE*BLOCK_SIZE , cudaMemcpyDeviceToHost);

    for(int i=0;i<BLOCK_SIZE;i++)
      for(int j=0;j<BLOCK_SIZE;j++)
      {
        printf("%d\n",C[i][j]);
    
      }
}

如何分配二维数组：

int main() {
    #define BLOCK_SIZE 16
    #define GRID_SIZE 1
    int d_A[BLOCK_SIZE][BLOCK_SIZE];
    int d_B[BLOCK_SIZE][BLOCK_SIZE];

    /* d_A initialization */

    dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE); // so your threads are BLOCK_SIZE*BLOCK_SIZE, 256 in this case
    dim3 dimGrid(GRID_SIZE, GRID_SIZE); // 1*1 blocks in a grid
    
    YourKernel<<<dimGrid, dimBlock>>>(d_A,d_B); //Kernel invocation
}

如何遍历该数组：

__global__ void YourKernel(int d_A[BLOCK_SIZE][BLOCK_SIZE], int d_B[BLOCK_SIZE][BLOCK_SIZE]){
    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;
    if (row >= h || col >= w) return;
    /* whatever you wanna do with d_A[][] and d_B[][] */
}

希望对大家有帮助，也可以参考一下CUDA 编程指南关于矩阵乘法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

如何在 CUDA 中使用 2D 数组？的相关文章

优化三角矩阵计算的 CUDA 内核的执行

我正在开发我的第一个 Cuda 应用程序并且我的内核吞吐量低于预期这似乎是目前最大的瓶颈内核的任务是计算一个 N N 大小的矩阵 DD 包含数据矩阵上所有元素之间的平方距离数据矩阵 Y 的大小为 N D 以支持多维数据并存储为行
C 中带括号和不带括号的循环处理方式不同吗？

我在调试器中单步执行一些 C CUDA 代码如下所示 for uint i threadIdx x i lt 8379 i 256 sum d PartialHistograms blockIdx x i HISTOGRAM64 BIN
构建 Erlang 服务器场（用于业余爱好项目）最便宜的方法是什么？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案假设我们有一个本质上并行的问题需要用 Erlang 软件来解决我们有很多并行进程每个进程都执行顺序代码不是数字运算并且我们向它们投入的 C
为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
Ubuntu 11.10/12.04 上的 CUDA“无兼容设备”错误

一段时间以来我一直在尝试在我的笔记本电脑上设置 Ubuntu 环境来进行 CUDA 编程我目前双启动 Windows 8 和 Ubuntu 12 04 并想在 Ubuntu 上安装 CUDA 5 该笔记本电脑配有 GeForce GT
cuda中的count3非常慢

我在 CUDA 中编写了一个小程序用于计算 C 数组中有多少个 3 并打印它们 include
cudaMemcpyToSymbol 与 cudaMemcpy [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我试图找出
在新线程中调用支持 CUDA 的库

我编写了一些代码并将其放入它自己的库中该库使用 CUDA 在 GPU 上进行一些处理我正在使用 Qt 构建 GUI 前端作为加载 GUI 的一部分我调用 CUresult res CUdevice dev CUcontext ctx
libstdc++.so.6 与 cuda 相关的链接器问题

今天我在链接我编译的 cuda 内容时遇到了问题我有一个最新的 debian 测试 w 2 6 32 3 amd64 我整天都在写我的代码不时编译没有问题但在进行了较小的代码更改后我收到以下错误 gcc o pa CUDA o h
如何将CUDA时钟周期转换为毫秒？

我想用一些代码来测量时间within我的内核需要我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
CUDA 估计 2D 网格数据的每块线程数和块数

首先我要说的是我已经仔细阅读了所有类似的问题确定每个块的线程和每个网格的块 https stackoverflow com questions 4391162 cuda determining threads per block blo
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
大型跨平台软件项目的技巧/资源

我将开始一个大型软件项目涉及跨平台 GUI 和大量的数字运算我计划用 C 和 CUDA 编写大部分应用程序后端并用 Qt4 编写 GUI 我计划使用 Make 作为我的构建系统这将是一个只有两名开发人员的项目一旦我相对深入地了解它

随机推荐

需要帮助使用 GIOService（GLib、Glib-GIO）实现简单的套接字服务器

我正在学习使用 GLib 编写简单高效的套接字服务器的基础知识我正在尝试 GSocketService 到目前为止我似乎只能接受连接但随后它们立即关闭从文档中我无法弄清楚我错过了哪一步我希望有人能为我阐明这一点运行以下命令时
如何提高最低成本路径模型的模拟速度

通过使用网络扩展以下代码在两个多边形由多个面片组成之间构建成本最低的路径 to calculate LCP ID polygon 1 ID polygon 2 let path let path cost 1 Define polyg
如何确定用户在汇编语言 X86 中输入的字符串中单词的频率？

我是汇编语言编程的完全初学者我需要帮助编写一个汇编语言程序来从用户那里获取字符串计算并显示每个单词在用户输入的字符串中出现的次数例如如果用户输入 Hello Hello what is new Hello what is not n
查找数组一中最接近数组二的元素

这个答案解释如何找到最接近已排序的数组元素单点以对大型数组有效的方式稍作修改 def arg nearest array value idx np searchsorted array value side left if idx
如何使用 XAML 绑定按钮单击来更改面板（网格）的内容

我正在创建 WPF 应用程序的 UI 在致力于软件功能的实现时我在创建 UI 方面没有太多经验现在我需要一种方法来更改属性面板的内容该面板有一个网格来包含内容我创建了多个面板隐藏了除一个之外的所有面板现在我想在用户单击顶部功
Slim PHP 的默认 GET 路由

我最近使用 Slim PHP 框架构建了一个小型 API 它运行得很好然而我想为根设置一个 GET 路由它以基本消息响应并让任何其他 GET 请求返回访问被拒绝在阅读了文档和各种示例后我无法弄清楚如何完成这些任务我的项目仅
APC 3.1.x 的稳定性如何？

是否有人在大容量站点的生产中使用 APC 3 1 x 3 1 系列被标记为测试版版本但它具有我们真正希望拥有的一些功能具体来说 apc clear cache user 的性能改进没有成为 3 0 19 那么您是否在非常活跃的站点
Python - 根据列的最大值删除重复项

我不太擅长使用 pandas 我认为 pandas 应该解决我的问题我有一个文本文件其中包含数据 id1 id2 value1 value2 value3 1 2 30 40 20 3 1 2 30 42 26 2 3 5 12 55
从 NTFS-MFT 参考号获取文件信息

在我的 C 应用程序中我已经有一种方法来检查文件系统但我想利用从主文件表 MFT 中读取数据的优势因为它的速度要快得多我了解 1 它是专有规范因此如有更改恕不另行通知 2 仅当应用程序在管理权限下运行时才能访问它我设法通过读取
在 xpath/domdocument 查询中查找与给定字符串匹配的链接

使用 Xpath 和 domDocument 获取与给定单词匹配的链接进行显示时遇到问题一切似乎都进展顺利for i 0 i lt documentLinks gt length i 用来谁能帮我解决我哪里出错了 html ol htm
更新预填充数据库

我为 Android 设备创建了一个问答游戏我有一个数据库在资产文件夹和 dbHelper 类中存在问题一切正常但现在我想修复一些拼写错误并添加更多问题我需要更新数据库但我不知道该怎么做我在互联网上找到了这个 dbHelper
单击事件在具有触摸事件的 iPad 上不起作用

我正在页面链接上使用点击事件在 iPad 上运行良好Safari 但是当我在同一页面上使用触摸事件时单击事件将停止工作 iPad 上只有触摸事件有效点击事件 link onclick onLinkClick 触摸事件 sdiv bin
为什么 Application.Speech.Speak 单独读取一些数字而不是将它们放在一起？

假设现在是 11 点 11 分它读作一一小时十一分钟如下所示 Sub TEST1 Application Speech Speak It is Hour Now hours and Minute Now minutes End
UnicodeWarning：Unicode 相等比较无法将两个参数转换为 Unicode

我知道很多人以前遇到过这个错误但我找不到解决我的问题的方法我有一个想要规范化的 URL url u http www dgzfp de Dienste Fachbeitr C3 A4ge aspx EntryId 267 Page 5
与 CSS 并排的列内的元素保持相同的高度

我有一个这样的模板我想在两列的每一项之间保持相同的高度具体取决于高度最大的一项但前提是它们并排时在较小的屏幕中当它们的 width 100 时每个 div 都有自己的高度具体取决于其自己的内容高度它应该看起来像这样我认为我
为什么 git 对标记为二进制的文件发出 CRLF 警告？

我有一个已标记为二进制的文件 cat gitattributes dist binary git check attr a dist app js dist app js binary set dist app js diff unset
程序崩溃时如何释放资源

我有一个使用其他人的服务的程序如果程序崩溃关闭这些服务的最佳方法是什么在服务器端我将定义一些检查器来定期监视客户端是否无效但是我们可以在客户端做任何事情吗我不确定正常的 RAII 在这种情况下是否仍然有效我的代码是用 C 和
Http Api 调用承诺的响应未定义 - Angular 2

我在 WebAPI 中创建了一个 api 如下所示 public HttpResponseMessage Get var response Request CreateResponse HttpStatusCode OK response
在弹出窗口中显示地图 v2 在 Android 中不显示？

我想打开弹出窗口我使用地图 v2 在弹出窗口中显示地图 v2 但不显示在这里我放置了我的 xml 布局和活动类 main xml
如何在 CUDA 中使用 2D 数组？

如何分配大小为 MXN 的二维数组那么如何在 CUDA 中遍历该数组呢 global void test int A BLOCK SIZE BLOCK SIZE int B BLOCK SIZE BLOCK SIZE int C BLOC

如何在 CUDA 中使用 2D 数组？

如何在 CUDA 中使用 2D 数组？ 的相关文章

随机推荐

热门标签

如何在 CUDA 中使用 2D 数组？的相关文章