Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何确定 seq2seq 张量流 RNN 训练模型的最大批量大小
目前 我使用默认的 64 作为 seq2seq 张量流模型的批量大小 最大批量大小 层大小等是多少 我可以使用具有 12 GB RAM 的单个 Titan X GPU 和 Haswell E xeon 128GB RAM 输入数据被转换为嵌
machinelearning
tensorflow
GPU
recurrentneuralnetwork
使用 Keras 1.2.2 和 MXnet 后端重置 GPU 内存
我正在使用 AWS p2 x8large 并尝试使用 k 折交叉验证来评估我的模型 第一次重复后 我的 GPU 内存已满 当我尝试再次训练时 我收到了 cuda 内存问题 我的问题是如何在循环内重置 GPU 内存 我使用了 K clear
Keras
GPU
mxnet
pyhook
如何自动启动、执行和停止EC2?
我想每天在 GPU 机器上测试一次我的 Python 库 我决定使用AWS EC2进行测试 但是gpu机器的费用很高 所以我想在测试结束后停止实例 因此 我想每天自动执行以下操作一次 启动 EC2 实例 手动设置 执行命令 测试 gt 将日
amazonwebservices
Testing
amazonec2
continuousintegration
GPU
在不使用 OpenCL 的情况下对 Intel IGP(例如 Iris Pro 5200)硬件进行编程
台式机 i7 4770k 4GHz 的内核峰值 GFLOPS 为 4GHz 8 AVX 4 FMA 4 个内核 512 浮点运算 https stackoverflow com questions 15655835 flops per cy
opencl
GPU
intel
使用 GPU 获取数字列表的统计信息
我的文件中有几个数字列表 例如 333 324 123 543 00054 2243 333 53343 4434 现在 我想使用 GPU 获取每个数字出现的次数 我相信这在 GPU 上比在 CPU 上执行得更快 因为每个线程可以处理一个列
CUDA
parallelprocessing
GPU
GPGPU
函数对象无法正常工作
我定义了以下函数对象 struct Predicate1 device bool operator const DereferencedIteratorTuple lhs const DereferencedIteratorTuple rh
c
CUDA
GPU
GPGPU
Thrust
多重采样和内存使用
对多重采样的简单解释意味着 例如 对于所有重复样本 8x MSAA 需要的帧缓冲区是非多重采样帧缓冲区空间的 8 倍 由于最新的显卡甚至支持 32x MSAA 这意味着仅 1600x1200 输出的颜色缓冲区就会使用 1600 1200 4
OpenGL
GPU
MSAA
CUDA Stream 压缩:理解概念
我正在使用 CUDA Thrust CUDPP 据我了解 在流压缩中 数组中的某些项目被标记为无效 然后 删除 那么 移除 到底是什么意思呢 假设原始数组A长度为 6 如果有 2 个元素无效 无论我们提供什么条件 则 系统是否创建newGP
Algorithm
CUDA
GPU
Thrust
cudpp
如何知道thrust::partition_copy的结果中有多少个元素
我正在尝试使用推力库的partition copy函数对数组进行分区 我见过传递指针的示例 但我需要知道每个分区中有多少个元素 我尝试的是将设备向量作为 OutputIterator 参数传递 如下所示 include
c
CUDA
GPU
Thrust
如何让TensorFlow 100%使用GPU?
我有一台配备 RTX 2060 GPU 的笔记本电脑 我使用 Keras 和 TF 2 在其上训练 LSTM 我还通过以下方式监控 GPU 使用情况nvidia smi我注意到 jupyter 笔记本和 TF 的使用率最多为 35 而 GP
tensorflow
Keras
deeplearning
GPU
NVIDIA
为 CUDA 内核调用设置 Visual Studio Intellisense
我刚刚开始 CUDA 编程 进展非常顺利 我的 GPU 被识别了等等 我已经使用这里非常有用的指南在 Visual Studio 中部分设置了 Intellisense http www ademiller com blogs tech 2
visualstudio2010
CUDA
IntelliSense
GPU
NVIDIA Fermi 中的 L2 缓存
在查看NVIDIA Fermi架构中的性能计数器名称 cuda的doc文件夹中的Compute profiler txt文件 时 我注意到对于L2缓存未命中 有两个性能计数器 l2 subp0 read sector misses和l2 s
CUDA
GPU
GPGPU
NVIDIA
我的 GPU 上的总线程数、块数和网格数。
For the NVIDIA GEFORCE 940mx GPU Device Query shows it has 3 Multiprocessor and 128 cores for each MP 每个多处理器的线程数 2048 所以
CUDA
GPU
NVIDIA
TI J6:如何查找我的应用程序是否正在使用 GPU
我正在尝试利用 TI Jacinto 6 目标中存在的 GPU 我已经编译了QT5 opengl 示例 我能够在 TI J6 上运行 qt5 opengl 示例 现在 我想知道运行的应用程序是否是 GPU 加速的 我怎样才能找到答案 Qt
QT
GPU
如何在 cudaMemcpyPeerAsync() 中定义目标设备流?
我正在使用 cudaMemcpyPeerAsync 从 gpu0 到 gpu1 执行异步 memcpy cudaMemcpyAsync 提供用于 gpu0 的流选项 但不用于 gpu1 我也可以以某种方式定义接收设备的流吗 我使用 Open
CUDA
GPU
矢量化代码的 GPU 优化
function w oja X varargin get the dimensionality m n size X random initial weights w randn m 1 options struct rate 00005
MATLAB
vectorization
GPU
如何理解“warp 中的所有线程同时执行相同的指令”。在 GPU 中?
我在读专业CUDA C编程 并在GPU 架构概述部分 CUDA 采用单指令多线程 SIMT 架构来管理和执行 32 个线程组 称为 warp warp 中的所有线程同时执行相同的指令 每个线程都有自己的指令地址计数器和寄存器状态 并根据自己
CUDA
NVIDIA
GPU
multiplegpu
将 2D 数组复制到已知可变宽度的 GPU
我正在研究如何将每行可变宽度的 2D 数组复制到 GPU 中 int rows 1000 int cols int host matrix malloc sizeof int rows int d array int length Each
CUDA
GPU
GPGPU
NVIDIA
Tensorflow - GPU 专用内存与共享内存
Tensorflow 只使用专用 GPU 内存还是也可以使用共享内存 我还运行了这个 从tensorflow python client导入device lib device lib list local devices 名称 设备 CPU
python
memory
tensorflow
GPU
从 GPU 复制到 CPU 比将 CPU 复制到 GPU 慢
我开始学习cuda有一段时间了 我遇到了以下问题 请看下面我的表现 Copy GPU int B int dev B initialize B 0 cudaMalloc void dev B Nel Nface sizeof int cud
c
performance
parallelprocessing
CUDA
GPU
«
1 ...
8
9
10
11
12
13
14
...25
»