Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 __device/global__ CUDA 内核中动态分配内存
根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页 可
c
visualstudio2010
CUDA
parallelprocessing
加速Cuda程序
要更改哪一部分来加速此代码 代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
c
CUDA
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀
我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
Linux
bash
CUDA
NVIDIA
yocto
CUDA 常量内存是否应该被均匀地访问?
我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存 我是否需要担心每个线程访问相同的地址以进行优化 如果是 如何确保所有线程同时访问同一地址 既然它都会被缓存 我是否需要担心每个线程访问相同的地址以进行优化 是的 这缓存本身每
Optimization
memorymanagement
CUDA
设置最大 CUDA 资源
我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源 例如 如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多 就会失败 理想情况下 这可以在进程级别或 CUDA 上下文级别上设置 不 目前没有允
memory
CUDA
GPU
GPGPU
无法在 CUDA 中执行设备内核
我正在尝试在全局内核中调用设备内核 我的全局内核是矩阵乘法 我的设备内核正在查找乘积矩阵每列中的最大值和索引 以下是代码 device void MaxFunction float Pd float max int x threadIdx
CUDA
NVIDIA
matrixmultiplication
GPU
__syncthreads() 死锁
如果只有部分线程执行 syncthreads 会导致死锁吗 我有一个这样的内核 global void Kernel int N int a if threadIdx x
c
CUDA
如何在 CUDA 中执行多个矩阵乘法?
我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵 我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出 我看到有不同的可能性 分配不同元素的计算M i 到不同的线程 例如 我
c
C11
matrix
parallelprocessing
CUDA
Nvcc 的版本与 CUDA 不同
我安装了 cuda 7 但是当我点击 nvcc version 时 它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库 但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
Linux
CUDA
nvcc
CUDA 估计 2D 网格数据的每块线程数和块数
首先我要说的是 我已经仔细阅读了所有类似的问题 确定每个块的线程和每个网格的块 https stackoverflow com questions 4391162 cuda determining threads per block blo
c
CUDA
CUDA线程执行顺序
我有一个 CUDA 程序的以下代码 include
CUDA
CUDA Visual Studio 2010 Express 构建错误
我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程 我花了一段时间来设置环境 然后我刚刚编写了我的第一个程序 helloWorld cu 目前
visualstudio2010
CUDA
windows7x64
GPU
运行时 API 应用程序中的 cuda 上下文创建和资源关联
我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联 我知道这是由驱动程序 API 在幕后完成的 但我想了解一下创作的时间线 首先 我知道 cudaRegisterFatBinary 是第一个 cuda a
CUDA
cudacontext
如何并行从数组中删除零值
如何使用 CUDA 并行有效地从数组中删除零值 有关零值数量的信息是预先可用的 这应该可以简化这项任务 重要的是数字必须保持源数组中的顺序 当被复制到结果数组时 Example 该数组将例如包含以下值 0 0 19 7 0 3 5 0 0
c
Arrays
CUDA
Thrust
如何确定完整的 CUDA 版本 + 颠覆版本?
Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用 但是 从 CUDA 11 1 开始 该文件不再存在 我如何在 Linux 上通过命令行确定并检查 path t
CUDA
version
仅使用 CUDA 进行奇异值计算
我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程 完整代码如下 include cuda runtime h include device launch parameters h include
CUDA
SVD
cusolver
如何在 Visual Studio 2010 中设置 CUDA 编译器标志?
经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜 但是如何在 VS 2010 中传递这个编译器标志呢 我已经尝试过如下Project gt P
visualstudio2010
CUDA
compilerflags
如何优化这个 CUDA 内核
我已经分析了我的模型 似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议 代码如下 global void calcFlux double concs double fluxes double dt int idx blockI
c
Optimization
CUDA
MPI+CUDA 与纯 MPI 相比有何优势?
加速应用程序的常用方法是使用 MPI 或更高级别的库 例如在幕后使用 MPI 的 PETSc 并行化应用程序 然而 现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃 更大的问题感兴
Algorithm
CUDA
MPI
Visual Studio - 过滤掉 nvcc 警告
我正在编写 CUDA 程序 但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它 有没有办法过
c
VisualStudio
visualstudio2012
CUDA
NVIDIA
«
1
2
3
4
5
6
...53
»