Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
尝试运行 TensorFlow 时 CUDNN_STATUS_NOT_INITIALIZED
我已经在带有 Cuda 9 0 和 CuDNN 7 0 5 以及普通 Python 2 7 的 Ubuntu 16 04 上安装了 TensorFlow 1 7 尽管它们的 CUDA 和 CuDNN 示例都运行良好 并且 TensorFlo
python
tensorflow
GPU
cuDNN
Metal 内核在新款 MacBook Pro(2016 年末)GPU 上运行不正常
我正在开发 macOS 项目 该项目使用 Swift 和 Metal 在 GPU 上进行图像处理 上周 我收到了新的 15 英寸 MacBook Pro 2016 年末 并注意到我的代码有一些奇怪的地方 应该写入纹理的内核似乎没有这样做 经
swift
MacOS
Kernel
GPU
metal
预先计算多维线性插值的权重
我有一个沿 D 维度的非均匀矩形网格 网格上的逻辑值 V 矩阵和查询数据点 X 矩阵 网格点的数量在不同维度上有所不同 我对同一网格 G 和查询 X 多次运行插值 但对于不同的值 V 目标是预先计算插值的索引和权重并重用它们 因为它们始终相
MATLAB
multidimensionalarray
GPU
interpolation
precompute
cuda:扭曲发散开销与额外算术
当然 扭曲发散 通过if and switch语句 在 GPU 上要不惜一切代价避免 但是扭曲发散的开销是多少 仅调度some执行某些行的线程 与额外无用的算术 考虑以下虚拟示例 版本1 device int get D int A int
CUDA
GPU
warpscheduler
计算 GPU 上的彩色像素 - 理论
我有一张 128 x 128 像素的图像 它被分解为 8 x 8 的网格 每个网格块包含 16 x 16 像素 要求 我想计算我的图像包含多少个黑色像素 直接的方法 I could通过逐行 逐列检查整个图像并检查像素是否为黑色来实现此目的
swift
parallelprocessing
GPU
computerscience
Google Colaboratory:有关其 GPU 的误导性信息(仅 5% RAM 可供某些用户使用)
更新 这个问题与Google Colab的 笔记本设置 硬件加速器 GPU 有关 这个问题是在添加 TPU 选项之前写的 阅读了有关 Google Colaboratory 提供免费 Tesla K80 GPU 的多个令人兴奋的公告 我尝试
python
machinelearning
GPU
RAM
googlecolaboratory
使用 GPU PyOpenCL 优化 python 代码的不同方法:内核 GPU/PyOpenCL 内的 extern 函数
我使用以下命令来分析我的 Python 代码 python2 7 m cProfile o X2 non flat multiprocessing dummy prof X2 non flat py 然后 我可以全局可视化不同贪婪函数的重新
python
python27
GPU
opencl
pyopencl
CUDA:是否可以将全部 48KB 片上内存用作共享内存?
我正在 Windows 7 64 位 SP1 上使用 CUDA Toolkit 4 0 和 Visual Studio 2010 Professional 为 GTX 580 开发 CUDA 应用程序 我的程序比典型的 CUDA 程序更占用
CUDA
GPU
NVIDIA
GPGPU
gpusharedmemory
为什么 WebGL 比 Canvas 更快?
如果两者都使用硬件加速 GPU 来执行代码 为什么 WebGL 比 Canvas 更快 我的意思是 我想知道为什么在低级别上 从代码到处理器的链条 会发生什么 Canvas WebGL 直接与驱动程序通信 然后与显卡通信 Canvas 速度
html
performance
canvas
webgl
GPU
GPU 上的相干内存是什么?
我在记忆中不止一次遇到 非连贯 和 连贯 记忆这个术语 科技论文 https renderdoc org vulkan in 30 minutes html与图形编程相关 我一直在寻找简单明了的解释 但发现大部分是 硬核 论文this ht
graphics
GPU
GPGPU
Vulkan
在带有 GPU 加速的 arrayfun 中使用匿名函数 (Matlab)
我是 Matlab R2012b 并行工具箱的新手 想知道克服以下问题的最佳方法是什么 我正在分析图像中每个像素的邻域 这是并行化的绝佳案例 但是 我似乎无法让它发挥作用 问题的主要问题是一些 常量 参数应该传递给函数 因此 应该为每个像素
MATLAB
CUDA
GPU
anonymousfunction
为什么GPU做矩阵乘法比CPU更快?
我已经使用 GPU 一段时间了 没有质疑它 但现在我很好奇 为什么GPU做矩阵乘法比CPU快很多 是因为并行处理吗 但我没有写任何并行处理代码 它自己会自动完成吗 任何直觉 高级解释将不胜感激 如何并行计算 GPU 能够进行大量并行计算 比
tensorflow
parallelprocessing
GPU
matrixmultiplication
Pytorch
使用GPU加速BigInteger计算
我几乎完成了处理一些非常大的整数 大约 2 的 100 000 000 次方 的算法 由于该算法不是内存密集型的 因此需要在内存充足的 16 核服务器上编写几个小时的高度并行代码 我使用 NET 4 中的 BigInteger 类 算法的细
c
NET
performance
GPU
Physics
GPU 在 Julia 集合计算中没有带来性能提升
我正在尝试比较 CPU 和 GPU 的性能 我有 CPU Intel Core i5 CPU M 480 2 67GHz 4 显卡 NVidia GeForce GT 420M 我可以确认 GPU 已配置并且可以与 CUDA 一起正常工作
CUDA
GPGPU
GPU
CUDA如何获取网格、块、线程大小以及并行化非方阵计算
我是 CUDA 新手 需要帮助理解一些事情 我需要帮助并行化这两个 for 循环 具体来说 如何设置dimBlock 和dimGrid 以使运行速度更快 我知道这看起来像 sdk 中的向量相加示例 但该示例仅适用于方阵 当我尝试修改 128
c
visualstudio2008
GPU
CUDA
内存复制速度对比 CPU<->GPU
我现在正在学习 boost compute openCL 包装库 我的复制过程非常慢 如果我们将 CPU 到 CPU 的复制速度调整为 1 那么 GPU 到 CPU GPU 到 GPU CPU 到 GPU 复制的速度有多快 我不需要精确的数
opencl
GPU
memcpy
boostcompute
使用opencv GPU旋转图像
我在用着GPU 旋转 https docs opencv org 2 4 modules gpu doc image processing html gpu rotate从 opencv lib 顺时针旋转图像 include
c
opencv
Rotation
GPU
为什么 CPU 上的 Keras LSTM 比 GPU 上快三倍?
I use 这本来自 Kaggle 的笔记本 https www kaggle com sbongo for beginners tackling toxic using keras运行 LSTM 神经网络 我已经开始训练神经网络 我发现它
python
tensorflow
machinelearning
Keras
GPU
TensorFlow 1.0 在 Windows 上看不到 GPU(但 Theano 可以)
我在 Windows 上运行了 Keras 和 Theano 的安装 按照此tutorial https github com philferriere dlwin 现在我尝试将后端切换到张量流 https www tensorflow o
python
Windows
tensorflow
GPU
Keras
将 CUDA 与 Visual Studio 2017 结合使用
我正在尝试安装 CUDA 但收到一条消息 未找到支持的 Visual Studio 版本 我认为这是因为我使用的是 Visual Studio 2017 社区 而 CUDA 目前仅支持 Visual Studio 2015 不幸的是 微软不
VisualStudio
parallelprocessing
CUDA
GPU
«
1
2
3
4
5
6
7
8
...23
»