Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何在 gitlab-ci docker 执行器中使用 cuda
我们正在使用 gitlab 持续集成来构建和测试我们的项目 最近 其中一个项目添加了 CUDA 的要求以启用 GPU 加速 我不想改变我们的管道 docker 和 gitlab ci 对我们来说运行良好 所以我想以某种方式让 docker
Docker
CUDA
Gitlab
指定 NVCC 用于编译主机代码的编译器
运行 nvcc 时 它始终使用 Visual C 编译器 cl exe 我怎样才能让它使用GCC编译器 设置CC环境变量到gcc没有修复它 我在可执行文件帮助输出中也找不到任何选项 在 Windows 上 NVCC 仅支持 Visual C
Windows
compilerconstruction
CUDA
nvcc
使用常量内存打印地址而不是cuda中的值
我试图在代码中使用常量内存 并从内核分配常量内存值 而不是使用 cudacopytosymbol include
CUDA
gpuconstantmemory
CUDA错误:在python中使用并行时初始化错误
我的代码使用 CUDA 但运行速度仍然很慢 因此 我将其更改为使用 python 中的多处理 pool map 并行运行 但我有CUDA ERROR initialization error 这是函数 def step M self ite
python
CUDA
parallelprocessing
构建 Erlang 服务器场(用于业余爱好项目)最便宜的方法是什么? [关闭]
Closed 这个问题是无关 help closed questions 目前不接受答案 假设我们有一个 本质上并行 的问题需要用 Erlang 软件来解决 我们有很多并行进程 每个进程都执行顺序代码 不是数字运算 并且我们向它们投入的 C
ERLANG
CUDA
parallelprocessing
无法从静态初始化代码启动 CUDA 内核
我有一个在其构造函数中调用内核的类 如下所示 标量场 h include
c
CUDA
globalvariables
staticinitialization
C 中带括号和不带括号的循环处理方式不同吗?
我在调试器中单步执行一些 C CUDA 代码 如下所示 for uint i threadIdx x i lt 8379 i 256 sum d PartialHistograms blockIdx x i HISTOGRAM64 BIN
c
debugging
loops
forloop
CUDA
优化三角矩阵计算的 CUDA 内核的执行
我正在开发我的第一个 Cuda 应用程序 并且我的内核 吞吐量低于预期 这似乎是目前最大的瓶颈 内核的任务是计算一个 N N 大小的矩阵 DD 包含数据矩阵上所有元素之间的平方距离 数据矩阵 Y 的大小为 N D 以支持多维数据 并存储为行
c
CUDA
distancematrix
如何在 Linux 中分析 PyCuda 代码?
我有一个简单的 经过测试的 pycuda 应用程序 正在尝试对其进行分析 我尝试过 NVidia 的 Compute Visual Profiler 它运行该程序 11 次 然后发出以下错误 NV Warning Ignoring the
python
profiling
CUDA
GPGPU
pycuda
CUDA全局内存事务的成本
根据 CUDA 5 0 编程指南 如果我同时使用 L1 和 L2 缓存 在 Fermi 或 Kepler 上 则所有全局内存操作都使用 128 字节内存事务完成 但是 如果我仅使用 L2 则使用 32 字节内存事务 第 F 4 2 章 让我
CUDA
nvcc fatal:安装 cuda 9.1+caffe+openCV 3.4.0 时不支持 gpu 架构“compute_20”
我已经安装了CUDA 9 1 cudnn 9 1 opencv 3 4 0 caffe 当我尝试跑步时make all j8 in caffe目录下 出现这个错误 nvcc fatal 不支持的 GPU 架构 compute 20 我尝试过
opencv
CMake
CUDA
caffe
cuDNN
加强托管线程和操作系统线程之间的关系(CUDA 用例)
Problem 我正在尝试创建一个与 net 良好集成的 CUDA 应用程序 设计目标是拥有多个可以从托管代码调用的 CUDA 函数 数据还应该能够在函数调用之间保留在设备上 以便可以将其传递给多个 CUDA 函数 重要的是 每个单独的数据
NET
Multithreading
CUDA
在 Windows 上的 Qt Creator 中编译 Cuda 代码
几天来我一直在尝试获取在 32 位 Windows 7 系统上运行的 Qt 项目文件 我希望 需要在其中包含 Cuda 代码 这种组合要么非常简单 以至于没有人愿意在网上放一个例子 要么非常困难 似乎没有人成功 不管怎样 我发现的唯一有用的
c
windows7
QT4
CUDA
如何获取要执行的 PTX 文件
我知道如何生成 ptx文件来自 cu以及如何生成 cubin文件来自 ptx 但我不知道如何获得最终的可执行文件 更具体地说 我有一个sample cu文件 编译为sample ptx 然后我使用 nvcc 来编译sample ptx to
CUDA
nvcc
ptx
CUDA - 为什么基于扭曲的并行减少速度较慢?
我有关于基于扭曲的并行减少的想法 因为根据定义 扭曲的所有线程都是同步的 因此 我们的想法是输入数据可以减少 64 倍 每个线程减少两个元素 而无需任何同步 与 Mark Harris 的原始实现相同 减少应用于块级 数据位于共享内存上 h
CUDA
GPGPU
reduction
CUDA __syncthreads() 编译正常,但带有红色下划线
我已经使用 CUDA 4 2 一周了 但遇到了一些问题 当我编写 syncthreads 函数时 它会带有下划线 看起来是错误的 然后 如果我将鼠标放在该函数上 则会出现一条消息 标识符 syncthreads 未定义 但是当我编译我的项目
visualstudio2010
CUDA
cuda简单应用程序适用于32位而不适用于64位
我的简单 cuda helloworld 应用程序在 Windows 10 上使用 Visual Studio 2015 社区构建 32 位时运行良好 但是 如果我在 64 位中构建它 则不会执行 GPU 特斯拉K40c 工具包 CUDA
CUDA
Windows10
visualstudio2015
cudaGetDevice() 失败。状态:CUDA 驱动程序版本不足以满足 CUDA 运行时版本
当我在 GPU 中运行 TensorFlow 时 出现以下错误 2018 09 15 18 56 51 011724 E tensorflow core common runtime direct session cc 158 Intern
python27
tensorflow
CUDA
使用 CMake 通过 NVCC 传递到 MSVC 的混淆标志
我有一个 CMake 文件 用于在 Windows 上构建一些 CUDA NVCC MSVC 我正在尝试将 MSVC 警告级别设置为 W4 using add compile options lt
visualc
CMake
CUDA
Cuda 计算模式和“CUBLAS_STATUS_ALLOC_FAILED”
我的集群中有一台主机 有 8 个Nvidia K80我想将其设置为每个设备最多可以运行 1 个进程 以前 如果我在主机上运行多个作业并且每个作业都使用大量内存 它们都会尝试访问同一设备并失败 我将所有设备设置为计算模式 3 E Proces
CUDA
«
1
2
3
4
5
6
7
8
...53
»