CUDA

如何在 gitlab-ci docker 执行器中使用 cuda

我们正在使用 gitlab 持续集成来构建和测试我们的项目最近其中一个项目添加了 CUDA 的要求以启用 GPU 加速我不想改变我们的管道 docker 和 gitlab ci 对我们来说运行良好所以我想以某种方式让 docker

Docker CUDA Gitlab

指定 NVCC 用于编译主机代码的编译器

运行 nvcc 时它始终使用 Visual C 编译器 cl exe 我怎样才能让它使用GCC编译器设置CC环境变量到gcc没有修复它我在可执行文件帮助输出中也找不到任何选项在 Windows 上 NVCC 仅支持 Visual C

Windows compilerconstruction CUDA nvcc

使用常量内存打印地址而不是cuda中的值

我试图在代码中使用常量内存并从内核分配常量内存值而不是使用 cudacopytosymbol include

CUDA gpuconstantmemory

CUDA错误：在python中使用并行时初始化错误

我的代码使用 CUDA 但运行速度仍然很慢因此我将其更改为使用 python 中的多处理 pool map 并行运行但我有CUDA ERROR initialization error 这是函数 def step M self ite

python CUDA parallelprocessing

构建 Erlang 服务器场（用于业余爱好项目）最便宜的方法是什么？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案假设我们有一个本质上并行的问题需要用 Erlang 软件来解决我们有很多并行进程每个进程都执行顺序代码不是数字运算并且我们向它们投入的 C

ERLANG CUDA parallelprocessing

无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类如下所示标量场 h include

c CUDA globalvariables staticinitialization

C 中带括号和不带括号的循环处理方式不同吗？

我在调试器中单步执行一些 C CUDA 代码如下所示 for uint i threadIdx x i lt 8379 i 256 sum d PartialHistograms blockIdx x i HISTOGRAM64 BIN

c debugging loops forloop CUDA

优化三角矩阵计算的 CUDA 内核的执行

我正在开发我的第一个 Cuda 应用程序并且我的内核吞吐量低于预期这似乎是目前最大的瓶颈内核的任务是计算一个 N N 大小的矩阵 DD 包含数据矩阵上所有元素之间的平方距离数据矩阵 Y 的大小为 N D 以支持多维数据并存储为行

c CUDA distancematrix

如何在 Linux 中分析 PyCuda 代码？

我有一个简单的经过测试的 pycuda 应用程序正在尝试对其进行分析我尝试过 NVidia 的 Compute Visual Profiler 它运行该程序 11 次然后发出以下错误 NV Warning Ignoring the

python profiling CUDA GPGPU pycuda

CUDA全局内存事务的成本

根据 CUDA 5 0 编程指南如果我同时使用 L1 和 L2 缓存在 Fermi 或 Kepler 上则所有全局内存操作都使用 128 字节内存事务完成但是如果我仅使用 L2 则使用 32 字节内存事务第 F 4 2 章让我

CUDA

nvcc fatal：安装 cuda 9.1+caffe+openCV 3.4.0 时不支持 gpu 架构“compute_20”

我已经安装了CUDA 9 1 cudnn 9 1 opencv 3 4 0 caffe 当我尝试跑步时make all j8 in caffe目录下出现这个错误 nvcc fatal 不支持的 GPU 架构 compute 20 我尝试过

opencv CMake CUDA caffe cuDNN

加强托管线程和操作系统线程之间的关系（CUDA 用例）

Problem 我正在尝试创建一个与 net 良好集成的 CUDA 应用程序设计目标是拥有多个可以从托管代码调用的 CUDA 函数数据还应该能够在函数调用之间保留在设备上以便可以将其传递给多个 CUDA 函数重要的是每个单独的数据

NET Multithreading CUDA

在 Windows 上的 Qt Creator 中编译 Cuda 代码

几天来我一直在尝试获取在 32 位 Windows 7 系统上运行的 Qt 项目文件我希望需要在其中包含 Cuda 代码这种组合要么非常简单以至于没有人愿意在网上放一个例子要么非常困难似乎没有人成功不管怎样我发现的唯一有用的

c windows7 QT4 CUDA

如何获取要执行的 PTX 文件

我知道如何生成 ptx文件来自 cu以及如何生成 cubin文件来自 ptx 但我不知道如何获得最终的可执行文件更具体地说我有一个sample cu文件编译为sample ptx 然后我使用 nvcc 来编译sample ptx to

CUDA nvcc ptx

CUDA - 为什么基于扭曲的并行减少速度较慢？

我有关于基于扭曲的并行减少的想法因为根据定义扭曲的所有线程都是同步的因此我们的想法是输入数据可以减少 64 倍每个线程减少两个元素而无需任何同步与 Mark Harris 的原始实现相同减少应用于块级数据位于共享内存上 h

CUDA GPGPU reduction

CUDA __syncthreads() 编译正常，但带有红色下划线

我已经使用 CUDA 4 2 一周了但遇到了一些问题当我编写 syncthreads 函数时它会带有下划线看起来是错误的然后如果我将鼠标放在该函数上则会出现一条消息标识符 syncthreads 未定义但是当我编译我的项目

visualstudio2010 CUDA

cuda简单应用程序适用于32位而不适用于64位

我的简单 cuda helloworld 应用程序在 Windows 10 上使用 Visual Studio 2015 社区构建 32 位时运行良好但是如果我在 64 位中构建它则不会执行 GPU 特斯拉K40c 工具包 CUDA

CUDA Windows10 visualstudio2015

cudaGetDevice() 失败。状态：CUDA 驱动程序版本不足以满足 CUDA 运行时版本

当我在 GPU 中运行 TensorFlow 时出现以下错误 2018 09 15 18 56 51 011724 E tensorflow core common runtime direct session cc 158 Intern

python27 tensorflow CUDA

使用 CMake 通过 NVCC 传递到 MSVC 的混淆标志

我有一个 CMake 文件用于在 Windows 上构建一些 CUDA NVCC MSVC 我正在尝试将 MSVC 警告级别设置为 W4 using add compile options lt

visualc CMake CUDA

Cuda 计算模式和“CUBLAS_STATUS_ALLOC_FAILED”

我的集群中有一台主机有 8 个Nvidia K80我想将其设置为每个设备最多可以运行 1 个进程以前如果我在主机上运行多个作业并且每个作业都使用大量内存它们都会尝试访问同一设备并失败我将所有设备设置为计算模式 3 E Proces

CUDA