GPU

尝试运行 TensorFlow 时 CUDNN_STATUS_NOT_INITIALIZED

我已经在带有 Cuda 9 0 和 CuDNN 7 0 5 以及普通 Python 2 7 的 Ubuntu 16 04 上安装了 TensorFlow 1 7 尽管它们的 CUDA 和 CuDNN 示例都运行良好并且 TensorFlo

python tensorflow GPU cuDNN

Metal 内核在新款 MacBook Pro（2016 年末）GPU 上运行不正常

我正在开发 macOS 项目该项目使用 Swift 和 Metal 在 GPU 上进行图像处理上周我收到了新的 15 英寸 MacBook Pro 2016 年末并注意到我的代码有一些奇怪的地方应该写入纹理的内核似乎没有这样做经

swift MacOS Kernel GPU metal

预先计算多维线性插值的权重

我有一个沿 D 维度的非均匀矩形网格网格上的逻辑值 V 矩阵和查询数据点 X 矩阵网格点的数量在不同维度上有所不同我对同一网格 G 和查询 X 多次运行插值但对于不同的值 V 目标是预先计算插值的索引和权重并重用它们因为它们始终相

MATLAB multidimensionalarray GPU interpolation precompute

cuda：扭曲发散开销与额外算术

当然扭曲发散通过if and switch语句在 GPU 上要不惜一切代价避免但是扭曲发散的开销是多少仅调度some执行某些行的线程与额外无用的算术考虑以下虚拟示例版本1 device int get D int A int

CUDA GPU warpscheduler

计算 GPU 上的彩色像素 - 理论

我有一张 128 x 128 像素的图像它被分解为 8 x 8 的网格每个网格块包含 16 x 16 像素要求我想计算我的图像包含多少个黑色像素直接的方法 I could通过逐行逐列检查整个图像并检查像素是否为黑色来实现此目的

swift parallelprocessing GPU computerscience

Google Colaboratory：有关其 GPU 的误导性信息（仅 5% RAM 可供某些用户使用）

更新这个问题与Google Colab的笔记本设置硬件加速器 GPU 有关这个问题是在添加 TPU 选项之前写的阅读了有关 Google Colaboratory 提供免费 Tesla K80 GPU 的多个令人兴奋的公告我尝试

python machinelearning GPU RAM googlecolaboratory

使用 GPU PyOpenCL 优化 python 代码的不同方法：内核 GPU/PyOpenCL 内的 extern 函数

我使用以下命令来分析我的 Python 代码 python2 7 m cProfile o X2 non flat multiprocessing dummy prof X2 non flat py 然后我可以全局可视化不同贪婪函数的重新

python python27 GPU opencl pyopencl

CUDA：是否可以将全部 48KB 片上内存用作共享内存？

我正在 Windows 7 64 位 SP1 上使用 CUDA Toolkit 4 0 和 Visual Studio 2010 Professional 为 GTX 580 开发 CUDA 应用程序我的程序比典型的 CUDA 程序更占用

CUDA GPU NVIDIA GPGPU gpusharedmemory

为什么 WebGL 比 Canvas 更快？

如果两者都使用硬件加速 GPU 来执行代码为什么 WebGL 比 Canvas 更快我的意思是我想知道为什么在低级别上从代码到处理器的链条会发生什么 Canvas WebGL 直接与驱动程序通信然后与显卡通信 Canvas 速度

html performance canvas webgl GPU

GPU 上的相干内存是什么？

我在记忆中不止一次遇到非连贯和连贯记忆这个术语科技论文 https renderdoc org vulkan in 30 minutes html与图形编程相关我一直在寻找简单明了的解释但发现大部分是硬核论文this ht

graphics GPU GPGPU Vulkan

在带有 GPU 加速的 arrayfun 中使用匿名函数 (Matlab)

我是 Matlab R2012b 并行工具箱的新手想知道克服以下问题的最佳方法是什么我正在分析图像中每个像素的邻域这是并行化的绝佳案例但是我似乎无法让它发挥作用问题的主要问题是一些常量参数应该传递给函数因此应该为每个像素

MATLAB CUDA GPU anonymousfunction

为什么GPU做矩阵乘法比CPU更快？

我已经使用 GPU 一段时间了没有质疑它但现在我很好奇为什么GPU做矩阵乘法比CPU快很多是因为并行处理吗但我没有写任何并行处理代码它自己会自动完成吗任何直觉高级解释将不胜感激如何并行计算 GPU 能够进行大量并行计算比

tensorflow parallelprocessing GPU matrixmultiplication Pytorch

使用GPU加速BigInteger计算

我几乎完成了处理一些非常大的整数大约 2 的 100 000 000 次方的算法由于该算法不是内存密集型的因此需要在内存充足的 16 核服务器上编写几个小时的高度并行代码我使用 NET 4 中的 BigInteger 类算法的细

c NET performance GPU Physics

GPU 在 Julia 集合计算中没有带来性能提升

我正在尝试比较 CPU 和 GPU 的性能我有 CPU Intel Core i5 CPU M 480 2 67GHz 4 显卡 NVidia GeForce GT 420M 我可以确认 GPU 已配置并且可以与 CUDA 一起正常工作

CUDA GPGPU GPU

CUDA如何获取网格、块、线程大小以及并行化非方阵计算

我是 CUDA 新手需要帮助理解一些事情我需要帮助并行化这两个 for 循环具体来说如何设置dimBlock 和dimGrid 以使运行速度更快我知道这看起来像 sdk 中的向量相加示例但该示例仅适用于方阵当我尝试修改 128

c visualstudio2008 GPU CUDA

内存复制速度对比 CPU<->GPU

我现在正在学习 boost compute openCL 包装库我的复制过程非常慢如果我们将 CPU 到 CPU 的复制速度调整为 1 那么 GPU 到 CPU GPU 到 GPU CPU 到 GPU 复制的速度有多快我不需要精确的数

opencl GPU memcpy boostcompute

使用opencv GPU旋转图像

我在用着GPU 旋转 https docs opencv org 2 4 modules gpu doc image processing html gpu rotate从 opencv lib 顺时针旋转图像 include

c opencv Rotation GPU

为什么 CPU 上的 Keras LSTM 比 GPU 上快三倍？

I use 这本来自 Kaggle 的笔记本 https www kaggle com sbongo for beginners tackling toxic using keras运行 LSTM 神经网络我已经开始训练神经网络我发现它

python tensorflow machinelearning Keras GPU

TensorFlow 1.0 在 Windows 上看不到 GPU（但 Theano 可以）

我在 Windows 上运行了 Keras 和 Theano 的安装按照此tutorial https github com philferriere dlwin 现在我尝试将后端切换到张量流 https www tensorflow o

python Windows tensorflow GPU Keras

将 CUDA 与 Visual Studio 2017 结合使用

我正在尝试安装 CUDA 但收到一条消息未找到支持的 Visual Studio 版本我认为这是因为我使用的是 Visual Studio 2017 社区而 CUDA 目前仅支持 Visual Studio 2015 不幸的是微软不

VisualStudio parallelprocessing CUDA GPU