GPU

无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx

CUDA NVIDIA matrixmultiplication GPU

DirectX 世界视图矩阵乘法 - GPU 或 CPU 的地方

我是 directx 的新手但令我惊讶的是我看到的大多数示例中世界矩阵和视图矩阵都是作为顶点着色器的一部分相乘而不是与 CPU 相乘并将结果传递给着色器对于刚性对象这意味着您为对象的每个顶点将相同的两个矩阵相乘一次我知道 GP

DirectX effects GPU Shader

CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前

visualstudio2010 CUDA windows7x64 GPU

如何在使用 GPU 支持编译的 macOS 上安装 Xgboost？

我尝试在过去 3 天的 MacOS Mojave 10 14 6 上安装集成了 GPU 支持的 xgboost 但是没有成功我尝试了两种方法 pip 安装 xgboost xgboost 安装在这里并且在没有 GPU 选项的情况下成功运

python MacOS GPU xgboost

使 CUDA 内存不足

我正在尝试训练网络但我明白了我将批量大小设置为 300 并收到此错误但即使我将其减少到 100 我仍然收到此错误更令人沮丧的是在 1200 个图像上运行 10 epoch 大约需要 40 分钟有什么建议吗错了我怎样才能加快这

deeplearning GPU Pytorch NVIDIA

是否可以在GPU中实现Huffman解码？

我们有一个用霍夫曼编码编码的数据库这里的目的是将其及其关联的解码器复制到 GPU 上然后在 GPU 上对数据库进行解码并在解码后的数据库上执行操作而无需将其复制回 CPU 上我还远远不是霍夫曼专家但我所知道的少数人表明它似乎是

Algorithm GPU huffmancode

多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co

CUDA multiprocessing GPU cudacontext

CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索

CUDA GPU GPGPU houghtransform

CUDA素数生成

当数据大小增加超过 260k 时我的 CUDA 程序停止工作它不打印任何内容有人能告诉我为什么会发生这种情况吗这是我的第一个 CUDA 程序如果我想要更大的素数如何在 CUDA 上使用大于 long long int 的数据类型

c CUDA GPU primes

有没有办法使用 GPU 调整图像大小？

有没有办法使用可通过 NET 应用程序使用的 GPU 图形卡调整图像大小我正在寻找一种极其高效的方法来调整图像大小并且听说 GPU 可以比 CPU 更快地完成此操作使用 C 的 GDI 是否有已知的实现或示例代码使用 GPU 来调整

c NET GPU Imaging

OpenCV GPU Farneback 光流在多线程中表现不佳

我的应用程序使用 Opencv GPU 类gpu FarnebackOpticalFlow计算输入视频的一对连续帧之间的光流为了加速该过程我利用 OpenCV 的 TBB 支持在多线程中运行该方法然而多线程性能并不像单线程那样为了

c Multithreading opencv GPU opticalflow

同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU

CUDA parallelprocessing Thrust GPU multigpu

如何在C++中的cudaDeviceReset()之后重用tensorflow？

我正在使用 C 开发一个大型 CUDA 应用程序该应用程序运行各种模型需要完全释放所有 GPU 内存否则其他操作将失败我能够在关闭所有 tf 会话并运行 cudaDeviceReset 后释放所有内存但之后我无法运行任何新的张量流

c tensorflow GPU

Tensorflow：如何在模型训练过程中实时监控 GPU 性能？

我是 Ubuntu 和 GPU 新手最近在我们的实验室中使用了一台配备 Ubuntu 16 04 和 4 个 NVIDIA 1080ti GPU 的新 PC 该机还拥有i7 16核处理器我有一些基本问题为 GPU 安装 Tensorf

performance tensorflow GPU

带 GPU 的 Lightgbm 分类器

model lgbm LGBMClassifier n estimators 1250 num leaves 128 learning rate 0 009 verbose 1 使用 LGBM 分类器现在有没有办法通过 GPU 来使用它

python machinelearning GPU lightGBM

鉴于 GPU 有任务队列并且是异步的，计算 FPS 的正确方法是什么？

我始终认为计算 FPS 的正确方法是简单地计算绘制循环迭代所需的时间互联网上的大部分内容似乎都是一致的 But 现代显卡被视为异步服务器因此绘制循环会发出 GPU 上已有的顶点纹理等数据的绘制指令这些调用不会阻塞调用线程直到 G

OpenGL profiling GPU

为什么 PyTorch nn.Module.cuda() 不将模块张量移动到 GPU，而仅将参数和缓冲区移动到 GPU？

nn Module cuda 将所有模型参数和缓冲区移动到 GPU 但为什么不是模型成员张量呢 class ToyModule torch nn Module def init self gt None super ToyModule se

python Pytorch GPU tensor

在 python docker 镜像上使用 GPU

我正在使用一个python 3 7 4 slim busterdocker 镜像我无法更改它我想知道如何使用我的英伟达 GPU on it 我通常用一个tensorflow tensorflow 1 14 0 gpu py3并用一个简单

python Docker Dockerfile GPU NVIDIA

Tensorflow 2：如何在 GPU 和 CPU 之间切换执行？

In tensorflow1 X 独立keras2 X 中我曾经使用以下代码片段在 GPU 上的训练和 CPU 上运行推理之间切换由于某种原因我的 RNN 模型速度要快得多 keras backend clear session de

python GPU tensorflow20 tfkeras

某些子网格未使用 CUDA 动态并行执行

我正在尝试 CUDA 5 0 GTK 110 中的新动态并行功能我遇到了一个奇怪的行为即我的程序没有返回某些配置的预期结果不仅是意外的而且每次启动都会出现不同的结果现在我想我找到了问题的根源似乎当生成太多子网格时某些子网格由

c CUDA GPGPU GPU