gpusharedmemory

cuda 共享内存 - 结果不一致

我正在尝试并行缩减以对 CUDA 中的数组求和目前我传递一个数组来存储每个块中元素的总和这是我的代码 include

c CUDA gpusharedmemory

当我们使用CUDA分析器nvvp 有几个与指令相关的开销例如分支发散开销共享全局内存重播开销和本地全局缓存重播开销我的问题是是什么导致了这些开销它们是如何计算的同样全局加载存储效率是如何计算的附件我在 CUD

performance CUDA overhead gpusharedmemory

我正在尝试用一个窗口做一个中值滤波器x y where x and y是奇数和程序的参数我的想法是首先查看一个块中可以执行多少个线程以及有多少共享内存可用如下所示 void cudaInit int imgX int imgY in

filter CUDA Median gpusharedmemory

我试图获得 CUDA 的变体矩阵转置样本 https github com NVIDIA cuda samples tree e612904184446c81e4d5beac8755081f9662cca0 Samples 6 Perfor

c matrix CUDA transpose gpusharedmemory

我无法找到在 CUDA C 中使用共享内存转置非方矩阵的方法我是 CUDA C 和 C 的新手 In 这篇博文 https developer nvidia com blog efficient matrix transpose cuda

c matrix CUDA transpose gpusharedmemory

我最近发现了比赛检查的工具cuda内存检查在 CUDA 5 0 中可用 cuda memcheck tool racecheck 参见英伟达文档 http docs nvidia com cuda cuda memcheck index

CUDA racecondition gpusharedmemory memcheck

我遵循这个原始帖子用于反转大量 3x3 矩阵的 PyCuda 代码 https stackoverflow com questions 55357826 pycuda adapt existing code and kernel code

python CUDA pycuda gpusharedmemory

我正在 Windows 7 64 位 SP1 上使用 CUDA Toolkit 4 0 和 Visual Studio 2010 Professional 为 GTX 580 开发 CUDA 应用程序我的程序比典型的 CUDA 程序更占用

CUDA GPU NVIDIA GPGPU gpusharedmemory

我想在同一内核的多次启动中使用共享内存中的值我可以这样做吗不你不能共享内存具有线程块生命周期存储在其中的变量可以被属于一组的所有线程访问 global 函数调用

CUDA GPGPU gpusharedmemory

在 CUDA 中给定指针的值或变量的地址是否有一个内在函数或另一个 API 可以内省指针引用的地址空间 CUDA 头文件sm 20 intrinsics h定义函数 device unsigned int isGlobal const

CUDA gpusharedmemory

我在理解评论中提到的批量加载时遇到一些困难为了计算像素中的卷积大小为 5 的掩模必须以该特定像素为中心图像被分成图块应用卷积掩模后的这些图块是最终输出图块其大小为TILE WIDTH TILE WIDTH 对于属于输出图块边界的像

CUDA GPU gpusharedmemory

我有两个 CUDA 内核可以计算类似的东西一种是使用全局内存 myfun是一个设备函数它从全局内存中读取大量数据并进行计算第二个内核将该数据块从全局内存传输到共享内存以便数据可以在块的不同线程之间共享我使用全局内存的内核比使用共享

c CUDA gpusharedmemory

我对 NVidia 的 2 个文档感到困惑 CUDA 最佳实践描述了共享内存是按bank组织的一般来说在32位模式下每4个字节就是一个bank 我就是这么理解的然而使用 CUDA 并行前缀和扫描详细介绍了由于库冲突而应如何将填充添加

CUDA gpusharedmemory