NVIDIA

为什么应该使用 CUDA 驱动程序 API 而不是 CUDA 运行时 API？

为什么我应该使用 CUDA Driver API 在哪些情况下我不能使用 CUDA Runtime API 这比 Driver API 更方便运行时 API 是比驱动程序 API 更高级别的抽象并且通常更易于使用性能差距应该很小驱动

CUDA GPGPU NVIDIA

CUDA 流销毁和 CudaDeviceReset

我已经使用 CUDA 流实现了以下类 class CudaStreams private int nStreams cudaStream t streams cudaStream t active stream public default

c class CUDA GPGPU NVIDIA

OpenMP 卸载了在主机和目标设备中执行的目标区域

我正在开发一个项目需要使用 Clang 将 OpenMP 卸载到 Nvidia GPU 我能够按照提到的说明安装 Clang 以支持卸载here 系统规格操作系统 Ubuntu 16 04 LTS 铿锵版本 4 00 处理器 Inte

CUDA Clang openmp NVIDIA offloading

DataGridView 在我的两个屏幕之一上的重绘性能非常糟糕

我实际上已经解决了这个问题但我将其发布给后代我在双显示器系统上的 DataGridView 遇到了一个非常奇怪的问题该问题表现为控件重绘极其缓慢完全重绘大约需要 30 秒但仅当它出现在我的其中一个屏幕上时另一方面重绘速度很好

NET WinForms performance DataGridview NVIDIA

如何选择在哪个 GPU 上运行作业？

在多 GPU 计算机中如何指定 CUDA 作业应在哪个 GPU 上运行例如在安装 CUDA 时我选择安装NVIDIA CUDA lt gt Samples然后运行了几个实例nbody模拟但它们都运行在一个 GPU 0 上 GPU

CUDA NVIDIA

为什么使用 cudaMallocManaged 时 NVIDIA Pascal GPU 运行 CUDA 内核的速度很慢

我正在测试新的 CUDA 8 以及 Pascal Titan X GPU 并期望我的代码能够加速但由于某种原因它最终变得更慢我使用的是 Ubuntu 16 04 这是可以重现结果的最少代码 CUDASample cuh class C

c CUDA GPGPU NVIDIA nvcc

如何找到活跃的短信？

有什么方法可以知道免费活跃短信的数量吗或者至少读取每个SM的电压功率或温度值通过它我可以知道它是否工作在 GPU 设备上执行某些作业时实时执行 smid 帮助我了解了每个 SM 的 Id 类似的东西会有所帮助感谢致敬拉凯什 C

CUDA GPGPU NVIDIA ptx

选择性 nvidia #pragma optionNV(全部展开)

我正在使用 nvidia 的展开循环指令但还没有找到有选择地打开它的方法可以说我有这个 void testUnroll pragma optionNV unroll all for void testNoUnroll for 在这里我

OpenGL GLSL NVIDIA

如何测量 NVIDIA CUDA 中的内部内核时间？

我想测量GPU内核的时间如何在NVIDIA CUDA中测量它例如 global void kernelSample some code here get start time some code here get stop time s

CUDA GPU GPGPU NVIDIA

OpenCL - 多个 GPU 缓冲区同步

我有一个 OpenCL 内核用于计算系统中其他粒子对某个粒子施加的总力然后是另一个积分粒子位置速度的内核我想在多个 GPU 上并行化这些内核基本上为每个 GPU 分配一定数量的粒子但是我必须多次运行该内核并且每个 GPU 的

opencl NVIDIA

全局内存写入在 CUDA 中是否被视为原子？

全局内存写入在 CUDA 中是否被视为原子操作考虑以下 CUDA 内核代码 int idx blockIdx x blockDim x threadIdx x int gidx idx 1000 globalStorage gidx so

c CUDA NVIDIA atomic

了解 CUDA 网格维度、块维度和线程组织（简单解释）[关闭]

Closed 这个问题需要多问focused 目前不接受答案 GPU 如何组织线程来执行 Hardware 例如如果 GPU 设备有 4 个多处理单元并且每个单元可以运行 768 个线程那么在给定时刻真正并行运行的线程不会超过 4

CUDA NVIDIA

Fedora 19 使用 rpmfussion 的 NVIDIA 驱动程序：libGL 错误：无法加载驱动程序：swrast

在我的 Fedora 19 机器上运行使用 Qt 4 7 的应用程序时我从应用程序中收到以下错误 libGL screen 0 does not appear to be DRI2 capable libGL OpenDriver try

OpenGL Fedora NVIDIA EGL glx

如何让 CMake 自动检测 CUDA_ARCHITECTURES 的值？

较新版本的 CMake 3 18 及更高版本了解 CUDA 代码编译目标的 CUDA 架构的选择目标有一个CUDA ARCHITECTURES属性设置后会生成适当的 gencode arch whatever code whateve

CMake CUDA NVIDIA buildautomation computecapability

使用 CUDA 进行 Cholesky 分解

我正在尝试使用 cuSOLVER 库实现 Cholesky 分解我是一名初学者 CUDA 程序员我总是指定块大小和网格大小但我无法找出程序员如何使用 cuSOLVER 函数显式设置它这是文档 http docs nvidia com

CUDA NVIDIA GPU cusolver

如何将 cv::MAT 转换为 NHCW 格式？

在User Guide html中 tensorRT的输入输出需要使用NCHW格式什么是 NCHW 格式如何将 cv MAT 转换为 NCHW 格式我使用 TensorRT 运行推理如下代码所示没有任何错误但是这不是正确的输

neuralnetwork caffe NVIDIA Tensorrt

创建 CUDA 上下文的差异

我有一个使用三个内核的程序为了获得加速我做了一个虚拟内存复制来创建一个上下文如下所示 global void warmStart int f f 0 它是在内核之前启动的我想按如下方式计时 int dFlag NULL cudaMa

CUDA NVIDIA nvcc cudacontext

CUDA 上的块间屏障

我想在 CUDA 上实现块间屏障但遇到了严重的问题我不明白为什么它不起作用 include

c CUDA GPGPU NVIDIA

使用 NVAPI 从 NVidia GPU 获取温度

过去几天我一直在尝试使用 C 获取 GPU 的温度使用 NVAPI 我有以下代码 include stdafx h include nvapi h int tmain int argc TCHAR argv NvAPI Status re

c GPU NVIDIA Temp nvapi

scikit-learn 是否在我的 GPU 上运行？

这个问题与scikit learn 会使用 GPU 吗但我认为没有提供相同的答案我正在针对 Nvidia GPU 执行 scikit learn 算法没有错误因此假设 scikit 正在底层硬件上运行由于 scikit learn

python scikitlearn GPU NVIDIA