GPU

CUDA 应用程序在几秒钟后超时并失败 - 如何解决此问题？

我注意到 CUDA 应用程序在失败并退出之前的最大运行时间往往为 5 15 秒我意识到最好不要让 CUDA 应用程序运行那么长时间但假设使用 CUDA 是正确的选择并且由于每个线程的顺序工作量必须运行那么长时间有什么方法可以延长这个

CUDA timeout GPGPU GPU

TensorFlow Keras 无法处理大于 GPU 内存的 numpy 数组

我正在尝试处理重量超过 25GB 的样本矩阵问题是我的 GPU 只有 12GB 内存我认为 tenorflow 会将小批量的矩阵从 ram 转移到 gRam 如下所述 https stackoverflow com a 53938359

python NumPy tensorflow Keras GPU

CUDA cudaMalloc

我已经开始编写一个新的 CUDA 应用程序然而我一路上遇到了一个有趣的弯路对变量 x 调用第一个 cudaMalloc 第一次失败但是当我第二次调用它时它返回 cudaSuccess 最近升级到CUDA 4 0 SDK 这是一个

c CUDA GPU GPGPU

我的机器上 OpenCV 算法的 GPU 版本比 CPU 版本慢？

在尝试使用 GPU 和 OpenCV 来加速简单算法时我注意到在我的机器 Ubuntu 12 10 NVidia 9800GT Cuda 4 2 9 g 4 7 2 上 GPU 版本实际上比 CPU 版本慢我用下面的代码进行了测试 in

c opencv CUDA GPU

如何获取GPU信息？

我有一个任务是用 C 收集有关 Windows 中 GPU 的信息但我不知道从哪里开始任何想法更新我想要名称 vram dac 制造商版本时钟 update2 如果我使用 win32 videocontroller 类我只是获

c Windows GPU

使用 CUDA 进行 Cholesky 分解

我正在尝试使用 cuSOLVER 库实现 Cholesky 分解我是一名初学者 CUDA 程序员我总是指定块大小和网格大小但我无法找出程序员如何使用 cuSOLVER 函数显式设置它这是文档 http docs nvidia com

CUDA NVIDIA GPU cusolver

cuda 上的矢量步加法速度较慢

我正在尝试在 CUDA C 代码上运行向量步加法函数但对于大小为 5 000 000 的大型浮点数组它的运行速度比我的 CPU 版本慢下面是我所说的相关CUDA和cpu代码 define THREADS PER BLOCK 1024

c CUDA parallelprocessing GPU GPGPU

为什么改变块和网格大小会对运行时间产生如此大的影响？

我正在研究一些cudatutorial将 RGBA 图片转换为灰度图但我不明白为什么要改变blockSize and gridSize改进了 X33 时间 global void rgba to greyscale const uchar

c CUDA GPU GPGPU

使用 NVAPI 从 NVidia GPU 获取温度

过去几天我一直在尝试使用 C 获取 GPU 的温度使用 NVAPI 我有以下代码 include stdafx h include nvapi h int tmain int argc TCHAR argv NvAPI Status re

c GPU NVIDIA Temp nvapi

GPU 的哈希表实现[关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我正在寻找可用于 CUDA 编码的哈希表实现那里有什么好的吗像Python字典之类的东西我将使用字符串作为我的键阿尔坎塔拉等人演示了一种在 GPU 上构建哈希表的数据并行算法

Hash CUDA GPGPU GPU

调用 eval 两次时，数据集会重新复制到 GPU（导致内存不足）

这是我的一堆代码 I train a model save it and then clear all with del model tf keras backend clear session gc collect print f mem

tensorflow GPU OutOfMemory

scikit-learn 是否在我的 GPU 上运行？

这个问题与scikit learn 会使用 GPU 吗但我认为没有提供相同的答案我正在针对 Nvidia GPU 执行 scikit learn 算法没有错误因此假设 scikit 正在底层硬件上运行由于 scikit learn

python scikitlearn GPU NVIDIA

Android GPU 分析 - OpenGL 动态壁纸速度很慢

我正在使用 OpenGL ES 3 0 开发动态壁纸我已经根据优秀教程进行了设置http www learnopengles com how to use opengl es 2 in an android live wallpaper

Java Android opengles profiling GPU

cudaMemcpyToSymbol 性能

我有一些函数可以将变量加载到常量设备内存中并启动内核函数我注意到一个函数第一次将变量加载到常量内存中需要 0 6 秒但下一次加载常量内存的速度非常快 0 0008 秒无论哪个函数是 main 中的第一个函数都会发生此行为下面是示

CUDA GPU gpuconstantmemory

在 Google Colaboratory 上使用 GPU 运行 LightGBM/ LGBM

我经常在 Google Colabatory 上运行 LGBM 我刚刚发现这个页面说 LGBM 默认设置为 CPU 所以你需要先设置 https medium com am sharma lgbm on colab with gpu c1c

python GPU googlecolaboratory lightGBM

计算 Nvidia GPU 卡的 GFLOPS 时，假设每个核心有多少个线程？

我有兴趣获得在 GeForce GTX 550 Ti 上执行 1 个双精度 FLOP 所需的纳秒数为了做到这一点我遵循以下方法我发现该卡的单精度峰值性能为 691 2 GFLOPS 这意味着双精度峰值性能将是它的 1 8 即 86 4

CUDA GPU NVIDIA

cuda：设备函数内联和不同的.cu 文件

两个事实 CUDA 5 0 允许您在不同的对象文件中编译 CUDA 代码以便稍后链接 CUDA 架构 2 x 不再自动内联函数像往常一样在 C C 中我实现了一个函数 device int foo in functions cu并将

CUDA GPU inline NVIDIA ptx

OpenCV3：cv::cuda::Stream::enqueueUpload() 去哪儿了？

在 OpenCV 的早期版本中有这个功能Stream enqueueUpload可用于将数据异步上传到 GPUCudaMem 比较如何在OpenCV中使用gpu Stream 然而 OpenCV 3 中不再存在这个函数 CudaMem类

c opencv GPU OPENCV30

渲染脚本和 GPU

I knowRenderscript 的设计是为了掩盖我正在运行的处理器的事实但是有没有办法编写代码以便在具有 GPU 计算能力的设备目前是 Nexus 10 上它will在 GPU 上运行有什么方法可以判断脚本的函数正在 GPU

GPU renderscript

我可以在配备英特尔高清显卡的笔记本电脑上实现深度学习模型吗

我目前正在为我的硕士学位做一个关于深度学习的项目我想安装 keras 库所以当我开始安装 Theano 和 tensorflow 时我发现我必须安装 CUDA 但我的笔记本电脑配备了英特尔高清显卡所以我的问题是如果我安装它们它会

GPU deeplearning Keras