Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
cuda 共享内存 - 结果不一致
我正在尝试并行缩减以对 CUDA 中的数组求和 目前我传递一个数组来存储每个块中元素的总和 这是我的代码 include
c
CUDA
gpusharedmemory
在 CUDA 分析器 nvvp 中,“共享/全局内存重播开销”是什么意思?它是如何计算的?
当我们使用CUDA分析器nvvp 有几个与指令相关的 开销 例如 分支发散开销 共享 全局内存重播开销 和 本地 全局缓存重播开销 我的问题是 是什么导致了这些开销 它们是如何计算的 同样 全局加载 存储效率是如何计算的 附件 我在 CUD
performance
CUDA
overhead
gpusharedmemory
CUDA中的2D中值滤波:如何有效地将全局内存复制到共享内存
我正在尝试用一个窗口做一个中值滤波器x y where x and y是奇数 和 程序的参数 我的想法是首先查看一个块中可以执行多少个线程以及有多少共享内存可用 如下所示 void cudaInit int imgX int imgY in
filter
CUDA
Median
gpusharedmemory
CUDA 中共享内存的非方矩阵转置
我试图获得 CUDA 的变体矩阵转置样本 https github com NVIDIA cuda samples tree e612904184446c81e4d5beac8755081f9662cca0 Samples 6 Perfor
c
matrix
CUDA
transpose
gpusharedmemory
Cuda C 上任意大小的矩阵转置(具有共享内存)
我无法找到在 CUDA C 中使用共享内存转置非方矩阵的方法 我是 CUDA C 和 C 的新手 In 这篇博文 https developer nvidia com blog efficient matrix transpose cuda
c
matrix
CUDA
transpose
gpusharedmemory
CUDA racecheck、共享内存数组和 cudaDeviceSynchronize()
我最近发现了比赛检查的工具cuda内存检查 在 CUDA 5 0 中可用 cuda memcheck tool racecheck 参见英伟达文档 http docs nvidia com cuda cuda memcheck index
CUDA
racecondition
gpusharedmemory
memcheck
详细了解大量 3x3 矩阵的逆算法
我遵循这个原始帖子 用于反转大量 3x3 矩阵的 PyCuda 代码 https stackoverflow com questions 55357826 pycuda adapt existing code and kernel code
python
CUDA
pycuda
gpusharedmemory
CUDA:是否可以将全部 48KB 片上内存用作共享内存?
我正在 Windows 7 64 位 SP1 上使用 CUDA Toolkit 4 0 和 Visual Studio 2010 Professional 为 GTX 580 开发 CUDA 应用程序 我的程序比典型的 CUDA 程序更占用
CUDA
GPU
NVIDIA
GPGPU
gpusharedmemory
如何在 CUDA 内核启动之间使用共享内存?
我想在同一内核的多次启动中使用共享内存中的值 我可以这样做吗 不 你不能 共享内存具有线程块生命周期 存储在其中的变量可以被属于一组的所有线程访问 global 函数调用
CUDA
GPGPU
gpusharedmemory
如何区分共享内存和全局内存的指针?
在 CUDA 中 给定指针的值或变量的地址 是否有一个内在函数或另一个 API 可以内省指针引用的地址空间 CUDA 头文件sm 20 intrinsics h定义函数 device unsigned int isGlobal const
CUDA
gpusharedmemory
将数据上传到共享内存中用于卷积核
我在理解评论中提到的批量加载时遇到一些困难 为了计算像素中的卷积 大小为 5 的掩模必须以该特定像素为中心 图像被分成图块 应用卷积掩模后的这些图块是最终输出图块 其大小为TILE WIDTH TILE WIDTH 对于属于输出图块边界的像
CUDA
GPU
gpusharedmemory
CUDA 中的全局内存与共享内存
我有两个 CUDA 内核可以计算类似的东西 一种是使用全局内存 myfun是一个设备函数 它从全局内存中读取大量数据并进行计算 第二个内核将该数据块从全局内存传输到共享内存 以便数据可以在块的不同线程之间共享 我使用全局内存的内核比使用共享
c
CUDA
gpusharedmemory
什么时候真正需要填充共享内存?
我对 NVidia 的 2 个文档感到困惑 CUDA 最佳实践描述了共享内存是按bank组织的 一般来说在32位模式下每4个字节就是一个bank 我就是这么理解的 然而使用 CUDA 并行前缀和 扫描 详细介绍了由于库冲突而应如何将填充添加
CUDA
gpusharedmemory