CUDA

无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I

c CUDA

VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include

c visualstudio2012 CUDA Thrust

如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我

performance Optimization CUDA GPU NVIDIA

如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知

c Sorting CUDA std Thrust

cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo

CUDA

CUDA - 将 CPU 变量传输到 GPU constant 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int

CUDA GPU

CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS

c imageprocessing CUDA Convolution NPP

device constant 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1

CUDA

从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经

CUDA GPU printf

cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu

CUDA parallelprocessing NVIDIA

有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my

CUDA GPGPU

TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和

Multithreading CUDA pycuda Tensorrt nvidiadocker

在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th

memorymanagement CUDA

cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i

CUDA cudacontext cudadriver

如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW

c CUDA CMake dllexport nvcc

CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉

performance CUDA

使用 CUDA 进行逐元素向量乘法

我已经在 CUDA 中构建了一个基本内核来执行逐元素两个复向量的向量向量乘法内核代码插入如下 multiplyElementwise 它工作正常但由于我注意到其他看似简单的操作如缩放向量在 CUBLAS 或 CULA 等库中进行了

CUDA complexnumbers cublas

cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真

c CUDA

尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M

CUDA

Cuda 6.5 找不到 - libGLU。（在 ubuntu 14.04 64 位上）

我已经在我的ubuntu上安装了cuda 6 5 我的显卡是 GTX titan 当我想要制作 cuda 样本之一时模拟粒子我收到这条消息 gt gt gt WARNING libGLU so not found refer to C

Ubuntu CUDA