GPU

如何确定 seq2seq 张量流 RNN 训练模型的最大批量大小

目前我使用默认的 64 作为 seq2seq 张量流模型的批量大小最大批量大小层大小等是多少我可以使用具有 12 GB RAM 的单个 Titan X GPU 和 Haswell E xeon 128GB RAM 输入数据被转换为嵌

machinelearning tensorflow GPU recurrentneuralnetwork

使用 Keras 1.2.2 和 MXnet 后端重置 GPU 内存

我正在使用 AWS p2 x8large 并尝试使用 k 折交叉验证来评估我的模型第一次重复后我的 GPU 内存已满当我尝试再次训练时我收到了 cuda 内存问题我的问题是如何在循环内重置 GPU 内存我使用了 K clear

Keras GPU mxnet pyhook

如何自动启动、执行和停止EC2？

我想每天在 GPU 机器上测试一次我的 Python 库我决定使用AWS EC2进行测试但是gpu机器的费用很高所以我想在测试结束后停止实例因此我想每天自动执行以下操作一次启动 EC2 实例手动设置执行命令测试 gt 将日

amazonwebservices Testing amazonec2 continuousintegration GPU

在不使用 OpenCL 的情况下对 Intel IGP（例如 Iris Pro 5200）硬件进行编程

台式机 i7 4770k 4GHz 的内核峰值 GFLOPS 为 4GHz 8 AVX 4 FMA 4 个内核 512 浮点运算 https stackoverflow com questions 15655835 flops per cy

opencl GPU intel

使用 GPU 获取数字列表的统计信息

我的文件中有几个数字列表例如 333 324 123 543 00054 2243 333 53343 4434 现在我想使用 GPU 获取每个数字出现的次数我相信这在 GPU 上比在 CPU 上执行得更快因为每个线程可以处理一个列

CUDA parallelprocessing GPU GPGPU

函数对象无法正常工作

我定义了以下函数对象 struct Predicate1 device bool operator const DereferencedIteratorTuple lhs const DereferencedIteratorTuple rh

c CUDA GPU GPGPU Thrust

多重采样和内存使用

对多重采样的简单解释意味着例如对于所有重复样本 8x MSAA 需要的帧缓冲区是非多重采样帧缓冲区空间的 8 倍由于最新的显卡甚至支持 32x MSAA 这意味着仅 1600x1200 输出的颜色缓冲区就会使用 1600 1200 4

OpenGL GPU MSAA

CUDA Stream 压缩：理解概念

我正在使用 CUDA Thrust CUDPP 据我了解在流压缩中数组中的某些项目被标记为无效然后删除那么移除到底是什么意思呢假设原始数组A长度为 6 如果有 2 个元素无效无论我们提供什么条件则系统是否创建newGP

Algorithm CUDA GPU Thrust cudpp

如何知道thrust::partition_copy的结果中有多少个元素

我正在尝试使用推力库的partition copy函数对数组进行分区我见过传递指针的示例但我需要知道每个分区中有多少个元素我尝试的是将设备向量作为 OutputIterator 参数传递如下所示 include

c CUDA GPU Thrust

如何让TensorFlow 100%使用GPU？

我有一台配备 RTX 2060 GPU 的笔记本电脑我使用 Keras 和 TF 2 在其上训练 LSTM 我还通过以下方式监控 GPU 使用情况nvidia smi我注意到 jupyter 笔记本和 TF 的使用率最多为 35 而 GP

tensorflow Keras deeplearning GPU NVIDIA

为 CUDA 内核调用设置 Visual Studio Intellisense

我刚刚开始 CUDA 编程进展非常顺利我的 GPU 被识别了等等我已经使用这里非常有用的指南在 Visual Studio 中部分设置了 Intellisense http www ademiller com blogs tech 2

visualstudio2010 CUDA IntelliSense GPU

NVIDIA Fermi 中的 L2 缓存

在查看NVIDIA Fermi架构中的性能计数器名称 cuda的doc文件夹中的Compute profiler txt文件时我注意到对于L2缓存未命中有两个性能计数器 l2 subp0 read sector misses和l2 s

CUDA GPU GPGPU NVIDIA

我的 GPU 上的总线程数、块数和网格数。

For the NVIDIA GEFORCE 940mx GPU Device Query shows it has 3 Multiprocessor and 128 cores for each MP 每个多处理器的线程数 2048 所以

CUDA GPU NVIDIA

TI J6：如何查找我的应用程序是否正在使用 GPU

我正在尝试利用 TI Jacinto 6 目标中存在的 GPU 我已经编译了QT5 opengl 示例我能够在 TI J6 上运行 qt5 opengl 示例现在我想知道运行的应用程序是否是 GPU 加速的我怎样才能找到答案 Qt

QT GPU

如何在 cudaMemcpyPeerAsync() 中定义目标设备流？

我正在使用 cudaMemcpyPeerAsync 从 gpu0 到 gpu1 执行异步 memcpy cudaMemcpyAsync 提供用于 gpu0 的流选项但不用于 gpu1 我也可以以某种方式定义接收设备的流吗我使用 Open

CUDA GPU

矢量化代码的 GPU 优化

function w oja X varargin get the dimensionality m n size X random initial weights w randn m 1 options struct rate 00005

MATLAB vectorization GPU

如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中？

我在读专业CUDA C编程并在GPU 架构概述部分 CUDA 采用单指令多线程 SIMT 架构来管理和执行 32 个线程组称为 warp warp 中的所有线程同时执行相同的指令每个线程都有自己的指令地址计数器和寄存器状态并根据自己

CUDA NVIDIA GPU multiplegpu

将 2D 数组复制到已知可变宽度的 GPU

我正在研究如何将每行可变宽度的 2D 数组复制到 GPU 中 int rows 1000 int cols int host matrix malloc sizeof int rows int d array int length Each

CUDA GPU GPGPU NVIDIA

Tensorflow - GPU 专用内存与共享内存

Tensorflow 只使用专用 GPU 内存还是也可以使用共享内存我还运行了这个从tensorflow python client导入device lib device lib list local devices 名称设备 CPU

python memory tensorflow GPU

从 GPU 复制到 CPU 比将 CPU 复制到 GPU 慢

我开始学习cuda有一段时间了我遇到了以下问题请看下面我的表现 Copy GPU int B int dev B initialize B 0 cudaMalloc void dev B Nel Nface sizeof int cud

c performance parallelprocessing CUDA GPU