无法在 CUDA 中执行设备内核

2024-04-28

我正在尝试在全局内核中调用设备内核。我的全局内核是矩阵乘法，我的设备内核正在查找乘积矩阵每列中的最大值和索引。以下是代码：

__device__ void MaxFunction(float* Pd, float* max)
{
  int x = (threadIdx.x + blockIdx.x * blockDim.x);  
  int y = (threadIdx.y + blockIdx.y * blockDim.y); 
  int k = 0;
  int temp = 0; int temp_idx = 0;
  for (k = 0; k < wB; ++k) {
   if(Pd[x*wB + y] > temp){
    temp = Pd[x*wB + y];
    temp_idx = x*wB + y;
   }
       max[y*2 + 0] = temp;
       max[y*2 + 1] = temp_idx;
  }
}

__global__ void MatrixMulKernel(float* Md, float* Nd, float* Pd, float* max)
{
  // declare cache in the shared memory
  __shared__ float Mds[blockD][blockD];
  __shared__ float Nds[blockD][blockD];

  float Pvalue = 0;
  // Loop over the Md and Nd block dimension required to compute the Pd element
  for (int m = (wA * blockD * blockIdx.y), n = (blockD * blockIdx.x); 
                            m < ((wA * blockD * blockIdx.y)+wA-1); 
                                        m += blockD, n += (blockD*hB)){

    // collaboratively loading of Md and Nd blocks into shared memory    
    Mds[threadIdx.y][threadIdx.x] = Md[m + wA * threadIdx.y + threadIdx.x];
    Nds[threadIdx.y][threadIdx.x] = Nd[n + wA * threadIdx.y + threadIdx.x];
    __syncthreads();

    // keep track of the running sum    
    for (int k = 0; k < blockD; k++)
      Pvalue += Mds[threadIdx.y][k] * Nds[k][threadIdx.x];
    __syncthreads();
  }

  // write back to the global memory
  int p = hB * blockD * blockIdx.y + blockD * blockIdx.x;
  Pd[p + hB * threadIdx.y + threadIdx.x] = Pvalue;
  __syncthreads();

  MaxFunction(Pd, max);

}

主要代码：

#include<stdio.h>
#include "cuda.h"
#include<stdlib.h>

#define blockD 32


const int wA = 128;
const int hA = 1024;

const int wB = 128;
const int hB = wA;

main(void){

    void MatrixMultiplication(float *, float *, float *, float *);

    int size_A = wA * hA * sizeof(float);
    int size_B = wB * hB * sizeof(float);
    int size_C = wB * hA * sizeof(float);
    int size_max = 2 * wB * sizeof(float);
    float *M, *N, *P, *C;   


    // allocate memory on the CPU
    M = (float*)malloc(size_A);
    N = (float*)malloc(size_B);
    P = (float*)malloc(size_max);
    C = (float*)malloc(size_C);

    // initialize the matrices
    for (int y=0; y < hA; y++) {
        for (int x=0; x < wA; x++){
            M[y*wA + x] = x;
       }
    }

    for (int y=0; y<hB; y++) {
        for (int x=0; x<wB; x++){
            N[y*wB + x] = x;
       }
    }

    MatrixMultiplication(M, N, P, C);

    //Write
    FILE *f1;
    int i, j;
    f1 = fopen("max_val.txt","w");
    for(i=0; i < (wB * 2); i+=2){
    fprintf(f1,"%d\t%d\n",int(P[i]),int(P[i+1]));
    }
    fclose(f1);

    f1 = fopen("Prod_mat.txt","w");
    for(i=0; i < 2; i++){
    for(j=0; j < wB; j++){
        fprintf(f1,"%d\t",int(C[i*wB + j]));
    }
    fprintf(f1,"\n");
    }
    fclose(f1);

    free( M );
    free( N );
    free( P ); 
            free( C );

    cudaDeviceReset();
    return 0;
}


void MatrixMultiplication(float *M, float *N, float *P, float *C) {

    int size_A = wA * hA * sizeof(float);
    int size_B = wB * hB * sizeof(float);
    int size_C = wB * hA * sizeof(float);
    int size_max = 2 * wB * sizeof(float);
    float *Md, *Nd, *Pd, *max; 

    // allocate memory on the GPU
    cudaMalloc((void**)&Md, size_A);
    cudaMalloc((void**)&Nd, size_B);
    cudaMalloc((void**)&Pd, size_C);
    cudaMalloc((void**)&max, size_max);

    // transfer M and N to device memory
    cudaMemcpy(Md, M, size_A, cudaMemcpyHostToDevice);
    cudaMemcpy(Nd, N, size_B, cudaMemcpyHostToDevice);

    // kernel invocation code
    dim3 dimBlock(blockD, blockD);
    dim3 dimGrid(wA/blockD, hB/blockD);

    //Execute Kernel
    MatrixMulKernel<<<dimGrid, dimBlock>>>( Md, Nd, Pd, max);

    // transfer P from device    
    cudaMemcpy(P, max, size_max, cudaMemcpyDeviceToHost);
    cudaMemcpy(C, Pd, size_C, cudaMemcpyDeviceToHost);

    cudaFree(Md);
    cudaFree(Nd);
    cudaFree(Pd);
    cudaFree(max);
}

矩阵乘法结果很好（使用 Matlab 验证），但我无法获得最大值及其相应的索引。如果有人能指出我做错了什么，我将不胜感激。当我运行上面的代码时， max 变量只有垃圾。

显然，您正在尝试查找每列中的最大值以及该值的偏移量。

但你所有的线程y在同一位置锤击以获得最大值（max[x*2 + 0]）。不建议这样做，因为无法解决竞争条件。您应该使用原子操作或其他方法（例如归约）来处理多个线程以这种方式更新单个最大值。

由于您需要自动更新两个值（最大值及其位置），因此将普通访问替换为标准原子函数 http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#atomic-functions。但是，由于您正在处理两个 32 位相邻数量，您可能对我的答案感兴趣here https://stackoverflow.com/questions/17411493/custom-atomic-functions/17414007#17414007.

顺便说一句，我认为 matlab 的本机矩阵乘法gpuArray应该比您编写的任何矩阵乘法代码都要快。但这需要并行计算工具箱。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

NVIDIA

matrixmultiplication

GPU

无法在 CUDA 中执行设备内核的相关文章

当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
有没有办法使用 GPU 调整图像大小？

有没有办法使用可通过 NET 应用程序使用的 GPU 图形卡调整图像大小我正在寻找一种极其高效的方法来调整图像大小并且听说 GPU 可以比 CPU 更快地完成此操作使用 C 的 GDI 是否有已知的实现或示例代码使用 GPU 来调整
将 3D 矩阵与 2D 矩阵相乘

假设我有一个AxBxC matrix X and a BxD matrix Y 是否有一种非循环方法可以将每个C AxB矩阵与Y 作为个人喜好我希望我的代码尽可能简洁和可读这是我会做的尽管它不符合您的无循环要求 for m 1 C
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
如何在 Visual Studio 2010 中设置 CUDA 编译器标志？

经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜但是如何在 VS 2010 中传递这个编译器标志呢我已经尝试过如下Project gt P
如何并行从数组中删除零值

如何使用 CUDA 并行有效地从数组中删除零值有关零值数量的信息是预先可用的这应该可以简化这项任务重要的是数字必须保持源数组中的顺序当被复制到结果数组时 Example 该数组将例如包含以下值 0 0 19 7 0 3 5 0 0
DirectX 世界视图矩阵乘法 - GPU 或 CPU 的地方

我是 directx 的新手但令我惊讶的是我看到的大多数示例中世界矩阵和视图矩阵都是作为顶点着色器的一部分相乘而不是与 CPU 相乘并将结果传递给着色器对于刚性对象这意味着您为对象的每个顶点将相同的两个矩阵相乘一次我知道 GP
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
C# - 获取 GPU 的总使用百分比

我正在向我的程序添加一些新功能这些功能当前通过串行连接将 CPU 使用情况和 RAM 使用情况发送到 Arduino 请参阅this https create arduino cc projecthub thesahilsaluja cp
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
iOS 上的 OpenCV - GPU 使用情况？

我正在尝试开发一个 iOS 应用程序可以对来自相机的视频执行实时效果就像 iPad 上的 Photobooth 一样我熟悉 OpenCV 的 API 但如果大多数处理是在 CPU 上完成而不是在 GPU 上完成我担心 iOS 上的性
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
使用 CUDA 进行逐元素向量乘法

我已经在 CUDA 中构建了一个基本内核来执行逐元素两个复向量的向量向量乘法内核代码插入如下 multiplyElementwise 它工作正常但由于我注意到其他看似简单的操作如缩放向量在 CUBLAS 或 CULA 等库中进行了
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
Linux 上的 OpenCL 编译

我是 OpenCL 的新手从昨天开始我尝试使用 OpenCL 进行并行编程而不是使用我更熟悉且以前体验过的 CUDA 现在我有 NVIDIA GTX 580 GPU Ubuntu Linux 12 04 操作系统和 CUDA SDK
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
如何在 GTX 560 及更高版本上使用 OpenGL 进行立体 3D？

我正在使用在 Windows 7 上运行的开源触觉和 3D 图形库 Chai3D 我重写了该库以使用 Nvidia nvision 执行立体 3D 我将 OpenGL 与 GLUT 一起使用并使用 glutInitDisplayMode

随机推荐

未找到神奇函数“bash”

我有一堆模拟想要在高性能集群上运行我应该在这些集群上进行预留以获得计算时间由于预订是有时间限制的我正在开发一个自动化脚本我可以scp进入集群并运行然后该脚本将下载相关的模拟文件运行它们并上传结果该自动化脚本的一部分位于ba
转义 C++ 字符串

将 C std string 转换为另一个 std string 的最简单方法是什么它转义了所有不可打印的字符例如对于两个字符的字符串 0x61 0x01 结果字符串可能是 a x01 或 a 01 看看Boost的字符串算法库 ht
在 getElementsByClassName 的数组上使用 forEach 会导致“TypeError: undefined is not a function”

In 我的 JSFiddle http jsfiddle net jer2 zcrh9 3 我只是想迭代一个元素数组正如日志语句所证明的那样该数组非空然而呼叫forEach给了我不太有帮助未捕获TypeError undefin
Emacs lisp：将字符翻译为标准 ASCII 转录

我正在尝试编写一个函数将包含 unicode 字符的字符串转换为某种默认的 ASCII 转录理想情况下我想要例如 ngstr m成为Angstroem或者如果不可能的话 Angstrom 同样地应该成为a x c 或类似的 Ema
如何使用我自己的声明文件解决“无法找到模块的声明文件”错误？

我有一个测试项目正在其中测试类型定义文件该项目有一个文件名为index ts看起来像这样 import i18nFu require gettext js The 获取文本 js包是使用 Node js 安装的如下所示 npm ins
iOS 7 中的后台任务间隔时间

我在 appdidEnterBackground 中有以下代码我看到在 IOS 6 中我看到后台时间段约为 10 分钟而 IOS 7 中的相同代码打印 2 分钟这是代码 void applicationDidEnterBackgrou
当有太多需要滚动的项目时，Windows 窗体列表框会溢出

我正在构建一个基于后缀树的索引器应用程序它使我能够非常快地索引整个文档并搜索字符串子字符串等我正在做的是在文本框中输入一个字符串按下按钮然后运行一个函数来查询后缀树并将所有出现的字符串的位置添加到列表框中所以列表框里面有很多整数
用于从 PHP 更新实时
的 jQuery 插件

有没有任何 jQuery 插件可以创建类似实时 feed 的东西推特主页 http www twitter com 使用 PHP 它从 MySQL 数据库获取数据 PHP 文件必须如何 Thanks 您确实不需要为此使用插件您可以使用 j
MS Access 2007 中 NVL 功能的替代方法是什么

我在 MS Access 中编写了一个 SQL 查询 select NVL count re rule status 0 from validation result re validation rules ru where re cycl
实体框架 LINQ To Entities 生成奇怪的慢速 SQLWhere 子句

我需要理解这一点 EF5 0 和 EF6 在 TSQL 代码生成方面存在很大差异在我的代码中这是我的 LINQ 语句 var qry2 context viw overview 1 Where i gt i article EAN17
设置div内的div滚动，而父级不滚动

我有一个容器 div 其中包含许多子 div 我的容器中的 div 之一包含评论我不想将整个 div 设置为滚动而是希望所有内容都保持在原位只留下评论 div 滚动我尝试将父级溢出设置为隐藏将注释 div 设置为滚动滚动条实际上
为什么旋转图像时会出现黑色边框？ PHP GD

此代码使用 GD 生成两张图像并旋转其中一张当我旋转图像时黑色边框开始出现有人知道如何解决这个问题吗
如何更改传单弹出窗口的背景颜色？

我正在使用 Leafletjs 创建地图我想将弹出窗口当前显示图像和链接的背景颜色从白色更改为其他颜色看起来基本的背景颜色 CSS 语法并不能解决这个问题有什么建议吗谢谢斯科特调用 leaflet css 后您可以包含
std::array<> 的初始化

考虑以下代码 include
ssh：无法确定主机“主机名”的真实性

当我 ssh 到一台机器时有时我会收到此错误警告并提示说是或否当从自动 ssh 到其他机器的脚本运行时这会导致一些问题警告信息 The authenticity of host
如何根据 MuMIn model.avg() 摘要进行绘图

有没有一种方法可以直接绘制 MuMIn model avg 对于具有置信带的不同变量的模型平均摘要输出以前我一直使用 ggplot 和 ggpredict 来绘制实际模型中的项但我一直无法找到一种方法来绘制平均模型的结果显然我可以手
iPhone：如何删除/清除蓝牙 4.0 数据

我有一些大麻烦 https stackoverflow com questions 11557500 corebluetooth central manager callback diddiscoverperipheral twice co
发生错误时如何停止powershell脚本？

我有一个主 powershell 脚本它执行多个在虚拟机上安装应用程序的脚本我正在尝试在主脚本上实现错误控制意思是如果安装应用程序的脚本之一失败则不会执行其余脚本这是我的主要脚本 try powershell exe Exec
gets() 和 put() 未在 dev C++ 范围内声明

这是我的书店的简单代码代码没有任何问题我正在使用 DevC 运行代码编译后给出一个错误指出 gets 未在此范围内声明并且 put 也出现相同的错误请帮我 include
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx

无法在 CUDA 中执行设备内核

无法在 CUDA 中执行设备内核 的相关文章

随机推荐

热门标签

无法在 CUDA 中执行设备内核的相关文章