GPU

在张量流中调整 3D 数据的大小，如 tf.image.resize_images

我需要调整一些 3D 数据的大小例如tf image resize images二维数据的方法我想我可以尝试跑步tf image resize images在它上循环并交换轴但我认为一定有一种更简单的方法简单的最近邻应该没问题有任

3d tensorflow resize GPU Scale

C++ 中的按元素运算

是否有一个预先存在的库可以让我创建具有以下属性的类似数组的对象运行时大小规范在实例时选择之后不会增长或缩小运算符重载以执行元素明智的操作即c a b将产生一个向量c with c i a i b i 对全部i 类似地对于 etc

c Arrays vector Fortran GPU

GPU 的延迟是多少？

我可以找到 CPU 核心与其缓存主内存等之间的 CPU 周期延迟但似乎很难找到有关现代 GPU 的类似信息有谁知道 GPU 的延迟特别是现代 nvidia GPU GF110 或更高版本与其内存之间的延迟谢谢 GPU 内存确实具

caching CPU GPU latency

Caffe/pyCaffe：设置所有 GPU

是否可以为Caffe 尤其是pyCaffe 设置所有GPU 就像是 caffe train solver examples mnist lenet solver prototxt gpu all 这两个分支现在都支持多 GPU 一段时间了

parallelprocessing neuralnetwork GPU deeplearning caffe

有关 CUDA 中统一虚拟寻址 (UVA) 的信息/示例

我试图理解 CUDA 中统一虚拟寻址 UVA 的概念我有两个问题是否有任何示例伪代码可以演示这个概念我在 CUDA C 编程指南中读到 UVA 只能在 64 位操作系统上使用为什么会这样呢 A 统一虚拟地址空间 http doc

CUDA GPU NVIDIA

Tensorflow 相同的代码，但从 CPU 设备到 GPU 设备得到不同的结果

我正在尝试实现一个程序来测试 GPU 设备上的 Tensorflow 性能数据测试是MNIST数据使用多层感知器神经网络进行监督训练我跟着这个简单的例子 http gist github com nishidy 8176548ec

python tensorflow GPU CPU multilayer

模型执行后清除 Tensorflow GPU 内存

我已经训练了 3 个模型现在正在运行代码按顺序加载 3 个检查点并使用它们运行预测我正在使用 GPU 当第一个模型加载时它会预先分配整个 GPU 内存我希望用它来处理第一批数据但完成后它不会卸载内存当加载第二个模型时使用两者

python tensorflow GPU

每个块的最大线程数

我有以下信息 Maximum number of threads per block 512 Maximum sizes of each dimension of a block 512 x 512 x 64 这是否意味着 2d 线程块中的

CUDA GPU

GPU - 系统内存映射

如何映射系统内存 RAM 以供 GPU 访问我很清楚虚拟内存如何为 cpu 工作但不确定当 GPU 访问 GPU 映射的系统内存主机时虚拟内存如何工作基本上与数据如何从系统内存复制到主机内存以及反之亦然有关您能提供有参考文章支

Architecture IO hardware GPU cpuarchitecture

与功能较弱的 GPU 相比，Tesla V100-SXM2-16GB GPU 上的 keras 启动时间 (_make_train_function()) 非常慢

跟进 GPU 机器上的 keras 和 TensorFlow 有些部分非常慢 https stackoverflow com q 47296197 590335 从tensorflow 1 4运行mnist cnn py 稍微修改主要添加

python tensorflow Keras GPU

如何使用 numba 在 GPU 上推广快速矩阵乘法

最近我一直在尝试使用 Numba 库在 Python 中进行 GPU 编程我一直在他们的网站上使用那里的教程阅读它目前我陷入了他们的示例可以在这里找到 https numba pydata org numba doc latest

python matrix CUDA GPU numba

如何在 AMD/ATI GPU 上运行 TensorFlow？

读完本教程后https www tensorflow org guide using gpu https www tensorflow org guide using gpu我用这个简单的代码检查了 GPU 会话 import numpy

python tensorflow GPU amdgpu

两个大文件彼此的平行余弦相似度

我有两个文件 A 和 B A has 400 000 lines each having 50 float values B has 40 000 lines having 50 float values 对于 B 中的每一行我需要在 A

parallelprocessing GPU sparsematrix cosinesimilarity gnuparallel

扩展示例以了解 CUDA、Numba、Cupy 等

大多数在线提供的 Numba CuPy 等示例都是简单的数组添加显示了从 cpu 单核线程到 GPU 的加速并且命令文档大多缺乏好的示例这篇文章旨在提供一个更全面的示例提供了初始代码here https eraserpeel wo

python GPU numba cupy

tensorflow gpu仅在CPU上运行

我在 Windows 10 上安装了 Anaconda Navigator 和所有必需的 Nvidia Cuda 软件包创建了一个名为 tensorflow gpu env 的新环境更新了 PATH 信息等当我运行模型时使用tens

tensorflow Keras GPU

除了第一个 cudaMalloc 调用之外，还有什么特定的函数可以初始化 GPU？

由于 GPU 上的一些初始化工作第一个 cudaMalloc 调用很慢例如 0 2 秒是否有任何函数只进行初始化以便我可以分离时间 cudaSetDevice 似乎将时间减少到 0 15 秒但仍然没有消除所有初始化开销致电 cu

CUDA GPU

在 GPU 上计算平方欧氏距离矩阵

Let p是第一组位置的矩阵其中每行给出特定点的坐标同样让q是第二组位置的矩阵其中每行给出特定点的坐标那么两两平方欧氏距离的公式为 k i j p i q j p i q j where p i 表示i矩阵第行p and p 表

c CUDA GPU euclideandistance

TensorFlow的map_fn仅在CPU上运行

我在尝试获取 TensorFlow 时遇到了一个奇怪的问题map fn在我的 GPU 上运行这是一个最小的损坏示例 import numpy as np import tensorflow as tf with tf Session as

python python3x tensorflow GPU

opencl中的时钟()

我知道CUDA中有一个函数clock 你可以在其中放入内核代码并查询GPU时间但我想知道OpenCL中是否存在这样的东西有没有办法查询OpenCL中的GPU时间我正在使用 NVIDIA 的工具包 OpenCL 没有直接查询时钟周期的方

CUDA opencl GPU

以编程方式获取 OS X 中的 GPU 使用百分比

是否有标准方法可以在 OS X 10 6 和 10 7 上的 Cocoa Objective C 中获取 GPU 使用百分比享受它吧 GPU 和 RAM 使用情况在谨慎的 GPU 上不起作用顺便说一句因为它不会公开性能监控字典我的

Objectivec MacOS GPU