matlab CUDA 内核中二维数组的操作

2023-12-04

假设我有以下序列号C：

int add(int* a, int* b, int n)
{
    for(i=0; i<n; i++)
    {
        for(j=0; j<n; j++)
        {
            a[i][j]+=b[i][j];
        }
    }

    return 0;
}

我认为并行化的最佳方法是认识到这是一个 2D 问题并按照以下方式使用 2D 线程块CUDA 内核 - 嵌套 for 循环

考虑到这一点，我开始像这样编写我的 cuda 内核：

__global__ void calc(int **A, int **B, int n)
{

    int i= blockIdx.x * blockDim.x + threadIdx.x;
    int j= blockIdx.y * blockDim.y + threadIdx.y;


    if (i>=n || j>=n)
        return;

    A[i][j]+=B[i][j];


}

nvcc 告诉我：

./addm.cu(13): Warning: Cannot tell what pointer points to, assuming global memory space
./addm.cu(13): Warning: Cannot tell what pointer points to, assuming global memory space
./addm.cu(13): Warning: Cannot tell what pointer points to, assuming global memory space

1）我的哲学是正确的吗？ 2）我想我理解块，线程等，但我不明白是什么

    int i= blockIdx.x * blockDim.x + threadIdx.x;
    int j= blockIdx.y * blockDim.y + threadIdx.y;

does

3）这是否是在 2D 数组上执行操作的最有效/最快的方法？即不仅仅是矩阵加法，它可以是任何“逐个元素”运算。

4）我可以从matlab中调用它吗？通常当原型是以下形式时它会很奇怪type** var

多谢你们

您收到的编译器警告来自以下事实：在较旧的 GPU 上，内存结构不是“扁平”的。编译器无法知道内核正在工作的指针数组所保存的地址是什么内存空间。因此它警告您，它假设该操作正在全局内存中执行。如果您编译 Fermi 卡（sm_20 或 sm_21 架构）的代码，您将不会看到该警告，因为这些卡上的内存模型是“平坦”的，并且硬件在运行时可以正确解释指针。编译器不需要在编译时处理它。

回答您的每个问题：

是的。和不。总体想法大约 90% 正确，但有几个实施问题将从下面的答案中变得显而易见。
CUDA C 具有内置变量，允许每个线程确定其在其运行的执行网格中的“坐标”，以及每个块和网格本身的尺寸。threadIdx.{xyz}提供块内的线程坐标，以及blockIdx.{xyz}块与网格的坐标。blockDim.{xyz} and gridDim.{xyz}分别提供块和网格的尺寸（注意并非所有硬件都支持 3D 网格）。 CUDA用途栏目主要顺序用于对每个块内的线程以及每个网格内的块进行编号。您正在查询的计算正在计算等价的{i,j}使用线程和块坐标以及块大小在 2D 网格中进行坐标。 CUDA 编程指南的“编程模型”一章的前几页对此进行了详细讨论。
不，我这么说有两个原因。

首先，在 CUDA 中使用指针数组进行内存访问并不是一个好主意。两级指针间接寻址极大地增加了获取数据的延迟损失。与现代 CPU 架构相比，典型 GPU 架构的主要区别在于内存系统。 GPU 具有惊人的高峰值内存带宽，但访问延迟非常高，而 CPU 的设计目标是最小延迟。所以必须阅读和间接两个指针从内存中获取值会带来很大的性能损失。将二维数组或矩阵存储在线性存储器中。这就是 BLAS、LAPACK 和 Matlab 所做的事情。

其次，代码中的每个线程都为每个“生产性”整数运算（加法）执行四个整数算术运算的设置开销（索引计算）。有一些策略可以减少这种情况，通常涉及让每个线程处理多个数组元素。

如果我要为该操作编写一个内核，我会执行类似于答案底部的代码的操作。这使用线性存储器和1D grid。适当数量的线程可以正确占用 GPU 处理整个输入数组，每个线程处理许多输入。
不会。正如我之前在回答中提到的，Matlab 使用线性内存来存储矩阵，而不是指针数组。这与您的内核代码期望的布局不匹配。

示例代码：

__global__ void calc(int *A, int *B, int N)
{

    int i = blockIdx.x * blockDim.x + threadIdx.x;
    int s = blockDim.x * gridDim.x;

    for( ; i<N; i+=s) {
        A[i] += B[i];
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MATLAB

CUDA

matlab CUDA 内核中二维数组的操作的相关文章

同时重新排序和旋转图像的高效方法

为了快速加载 jpeg 我为turbojpeg 实现了一个 mex wrapper 以有效地将大 jpeg 读入 MATLAB 对于 4000x3000px 的图像实际解码只需要大约 120 毫秒而不是 5 毫秒然而像素顺序是 R
MATLAB 图中轴标签与轴之间的距离

我正在使用 MATLAB 绘制一些数据我想调整轴标签与轴本身之间的距离但是只需向标签的位置属性添加一点即可使标签移出图窗窗口是否有保证金属性或类似的东西在上图中我想增加数字和标签 Time s 之间的距离同时自动扩展数
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
Python 或 C 语言中的 Matlab / Octave bwdist()

有谁知道 Matlab Octave bwdist 函数的 Python 替代品此函数返回给定矩阵的每个单元格到最近的非零单元格的欧几里得距离我看到了一个 Octave C 实现一个纯 Matlab 实现我想知道是否有人必须用 AN
Matlab 一个图上有多个图例 2014b

我想在一个地块上有多个传说该解决方案在 2014b 版本之前完美运行我试图弄清楚如何使用手柄优雅地制作它但到目前为止还没有成功欢迎任何想法 2013b 的示例 x 1 50 y1 sin x 2 y2 cos x 2 f figur
如何使用Matlab将数据保存到Excel表格中？

我想将数据以表格形式保存在 Excel 工作表中它应该看起来像 Name Age R no Gpa Adnan 24 18 3 55 Ahmad 22 12 3 44 Usman 23 22 3 00 每次当我执行我的文件时类数据 m 下
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I
如何在Matlab中打印带有千位分隔符的整数？

我想使用逗号作为千位分隔符将数字转换为字符串就像是 x 120501231 21 str sprintf 0 0f x 但随着效果 str 120 501 231 21 如果内置fprintf sprintf做不到我想可以使用正则表达式
Matlab 图像数据的 hist 函数

我是 Matlab 新手我想制作自己的函数与 imhist 显示图像数据的直方图完成相同的工作但我对此完全是新手我不知道如何做开发这样的功能我开始做一些东西但它非常不完整 function output args myhist
命令 A(~A) 在 matlab 中的真正作用是什么

我一直在寻找找到矩阵非零最小值的最有效方法并在论坛上找到了这个设数据为矩阵A A A nan minNonZero min A 这是非常短且高效的至少在代码行数方面但我不明白当我们这样做时会发生什么我找不到任何关于此的文档因为它
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指
在matlab中不使用for循环检查数组中的成员资格

我想简化这段代码使其无需 for 循环即可工作 for i 1 N for j 1 N if ismember j A PID i i TFP i j PID i i end end end 其中A是一个包含一些标签的矩阵我之前存储的T
Matlab：3D 堆积条形图

我正在尝试创建一个 3D 堆积条形图如这个问题所示 Matlab 中的 3D 堆叠条形图 https stackoverflow com questions 13156133 3d stacked bars in matlab 5D 然而
将 Matlab 数组移植到 C/C++

我正在将 matlab 程序移植到 C C 我有几个问题但最重要的问题之一是 Matlab 将任何维度的数组都视为相同假设我们有一个这样的函数 function result f A B C result A 2 B C A B and
FMINCON 的替代方案

除了 fmincon 之外还有其他更快更高效的求解器吗我正在使用 fmincon 来解决特定问题但对于中等大小的向量变量来说我的内存不足我也没有任何超级计算机或云计算选项可供使用我知道任何替代解决方案仍然会耗尽内存但我只是想看
将 kinect RGB 和深度值转换为 XYZ 坐标

我正在寻找一种简单的方法将 kinect RGB 和深度值转换为 XYZ 坐标使用 MATLAB 我的目标是一个输入为以下内容的函数每个点的 RGB 和深度值Kinect相机并输出每个点的 x y 和 z 值 RGB 深度 RGB
通过多次合并相同的行向量来构建矩阵

有没有一个matlab函数可以让我执行以下操作 x 1 2 2 3 然后基于x我想建立矩阵m 1 2 2 3 1 2 2 3 1 2 2 3 1 2 2 3 您正在寻找REPMAT http www mathworks com help t
MATLAB - 通过垂直连接子矩阵重新排列矩阵

我在执行以下任务时遇到问题假设一个 3x6 矩阵 A 0 2787 0 2948 0 4635 0 8388 0 0627 0 0435 0 6917 0 1185 0 3660 0 1867 0 2383 0 7577 0 6179 0

随机推荐

string - '0' 做什么（字符串是一个字符）

这是做什么的 while string i i lt lt 3 i lt lt 1 string 0 string 字符串 0 它会删除字符值还是其他什么这从字符中减去string指向字符的ASCII码 0 So 0 0 给你0等等等等
Mysql：在 macOS 上安装后，用户“root”@“localhost”的访问被拒绝

我刚刚通过从 MySQL 网站下载的 dmg 包在 macOS High Sierra v10 13 4 上安装了 MySQL v8 0 11 安装程序在安装过程中不要求任何权限或访问设置安装完成后我尝试运行 mysql u root
如何更改默认的“www.example.com”域以在 Rails 中进行测试？

我有一个 Rails 应用程序它的行为取决于访问的域例如 www myapp com 将以不同的方式调用 user myapp com 在生产使用中这一切都工作正常但我的测试代码总是看到主机名 www example com 有没有
Python 中 -m 开关是哪个单词的快捷方式？ [复制]

这个问题在这里已经有答案了创建虚拟环境时我运行 python3 m venv env 我明白那个 m 执行一个模块 venv在这种情况下我也知道只有当你有 main py文件在你的模块中那么捷径是什么呢 m实际上代表什么 Is i
python3 和请求：仍然收到“sslv3 警报握手失败”

我一直在尝试使用Python 3执行HTTPS请求requests并汇总了 StackOverflow 上记录的之前尝试中的几乎所有知识我似乎一生都无法摆脱sslv3 alert handshake failure兔子洞这是我的环境 m
内核 qdiscs 模块中的网络数据包缓冲

我想缓冲源自容器网络接口的输出数据包这个netlink库文件名为sch plug chttps code woboq org linux linux net sched sch plug c html看起来可以解决问题但我发现它很难使用
使用curl点击javascript按钮

我已经使用curl解析了一个页面它包含一些复选框和一个全选和一个提交按钮单击该按钮会选择每个复选框全选按钮会触发一个 javascript 函数该函数实际上会选择所有复选框现在我需要单击全选和提交按钮我该怎么做
防止 iframe 在刷新时加载“src”页面

我正在创建一个静态网站并使用 iframe 问题是当我导航到另一个页面时例如 iframe 的以下代码 The src属性指向 aboutsus1 php 现在当我导航到另一个页面时例如我转到 aboutus2 php 然后重新加
“void”作为方法的返回类型意味着什么？ [复制]

这个问题在这里已经有答案了我对空感到困惑因为它涉及方法我不知道当一种方法具有 void 而另一种方法没有时两种方法之间的区别是什么例如如果我这样做 Public meth int amount amount initial
在java中加载精灵图像

我想问一下为什么在将任何精灵图像加载到对象中时出错这是我获取图像的方法 import java awt image BufferedImage import java io IOException public class SpriteS
如何正确使用 allContactedBodies？

我想使用 allContactedBodies 而不是 didBeginContact 和 didEndContact 当我做 NSLog node physicsBody allContactedBodies 与物体发生正确的接触我得到
如何简化javascript程序？

我很想最小化该程序也许将 p1 16 放在一行代码中与 count 和 gefunden 相同由于我的语言能力很差我找不到正确的信息如果有一种方法可以最大限度地减少搜索命中 pdf 中的 if else 语句那就太好了现在我
如何使用 ImageFormatConverter.ConvertFromString 将包含 HTML 响应的字符串转换为图像？

这就是我所取得的成就在页面加载中 panelmain Controls Add abc panelmain Controls Add grid1 string toexport toexport RenderControl panelma
验证网络凭据以访问客户端对象模型上的 SharePoint 网站

我正在开发小型应用程序需要将给定网站的所有组中的所有用户都吸引过来我有两个网站 SharePoint 2010 在本地运行 SharePoint 2013 在线运行我收到凭据错误 The remote server returned
用 gfortran 编译的神秘关联行为

我有以下简短的 Fortran 代码 MODULE PREC INTEGER PARAMETER q 8 END MODULE PREC MODULE MOD FIT USE prec q TYPE spec INTEGER HL HR C
将子存储库内容推送到一起（不使用 git 子模块）

在主存储库中还有另一个存储库可能是从 github 下载的我将其称为子存储库我不想使用 git 子模块功能子存储库最终可能会被提交并推送到他自己的遥控器上但我想在主存储库中继续工作忽略该文件夹子存储库实际上是一个 git
是否可以在 eclipse indigo 中使用 tomcat 7.0.20？

在安装新的 eclipse indigo IDE 时我尝试设置之前从 Apache 网站 tomcat 7 0 20 下载的 tomcat 服务器但没有成功当我在表单中填写 tomcat 目录时会出现错误提示我选择的版本无效它还
SilverStripe - 限制数据对象可以拥有的多个关系的数量

如果我有一个 has many我想与之管理的关系GridField在 cms 中我将如何限制一个对象可以拥有的关系数量这可能吗我可以在模型中执行此操作吗还是必须将其添加到GridField我正在使用添加和删除关系我正在考虑实施Gr
Amazon SES - 统计发送的电子邮件统计数据

我使用 SES 发送电子邮件我在 Amazon SES 服务下有超过 10 个经过验证的域但我的问题是我没有每个电子邮件地址或域的任何统计信息 AWS 控制台将所有发送退回等组合在一起那么我怎样才能知道从我的某个域发出了多少封电子
matlab CUDA 内核中二维数组的操作

假设我有以下序列号C int add int a int b int n for i 0 i

matlab CUDA 内核中二维数组的操作

matlab CUDA 内核中二维数组的操作 的相关文章

随机推荐

热门标签

matlab CUDA 内核中二维数组的操作的相关文章