Tensorflow：GPU 利用率几乎始终为 0%

2024-01-10

我将张量流与 Titan-X GPU 一起使用，并且我注意到，当我运行 CIFAR10 示例时，Volatile GPU-utilization稳定在 30% 左右，而当我训练自己的模型时，Volatile GPU-utilization远非稳定，它几乎总是 0%，并在 80/90% 时飙升，然后一遍又一遍地回到 0%。

我认为这种行为是由于我将数据馈送到网络的方式造成的（我在每个步骤后获取数据，这需要一些时间）。但在实现队列来提供数据并避免步骤之间的延迟后，问题仍然存在（请参阅下面的排队系统）。

任何想法？

batch = 128 # size of the batch
x = tf.placeholder("float32", [None, n_steps, n_input])
y = tf.placeholder("float32", [None, n_classes])

# with a capacity of 100 batches, the bottleneck should not be the data feeding
queue = tf.RandomShuffleQueue(capacity=100*batch,
                  min_after_dequeue=80*batch,
                  dtypes=[tf.float32, tf.float32],
                  shapes=[[n_steps, n_input], [n_classes]])
enqueue_op = queue.enqueue_many([x, y])
X_batch, Y_batch = queue.dequeue_many(batch)

sess = tf.Session()

def load_and_enqueue(data):
    while True:
        X, Y = data.get_next_batch(batch)
        sess.run(enqueue_op, feed_dict={x: X, y: Y})

train_thread = threading.Thread(target=load_and_enqueue, args=(data))
train_thread.daemon = True
train_thread.start()

for _ in xrange(max_iter):
    sess.run(train_op)

经过一些实验后，我找到了答案，因此我将其发布，因为它可能对其他人有用。

First, get_next_batch大约慢 15 倍train_op（感谢埃里克·普拉顿指出了这一点）。

然而，我认为队列已经厌倦了capacity而且只有在训练应该开始之后才可以。因此，我想，即使get_next_batch速度慢得多，队列应该隐藏这个延迟，至少在开始时，因为它保存capacity示例，只有在达到后才需要获取新数据min_after_dequeue低于capacity并且这会导致 GPU 利用率在某种程度上保持稳定。

但实际上，队列一到就开始训练min_after_dequeue例子。因此，一旦队列到达，队列就会出列min_after_dequeue运行的示例train_op，并且由于送入队列的时间比执行时间慢 15 倍train_op，队列中的元素数量下降到以下min_after_dequeue第一次迭代之后train_op和train_op必须等待队列再次到达min_after_dequeue例子。

当我强行train_op等待队列已满capacity (with capacity = 100*batch）而不是在达到时自动启动min_after_dequeue (with min_after_dequeue=80*batch），GPU 利用率稳定大约 10 秒，然后又回到 0%，这是可以理解的，因为队列达到min_after_dequeue例如，不到 10 秒。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tensorflow：GPU 利用率几乎始终为 0% 的相关文章

tf.keras.utils.image_dataset_from_directory，但标签来自 csv？

请告诉我哪里出错了我正在研究 Kaggle 狗品种分类挑战我想尝试 one hot 编码与标签编码图像未在图像目录中拆分因此我无法将推断与 tf keras utils image dataset from directory
使用两个图像的平方差作为张量流中的损失函数

我正在尝试使用两个图像之间的 SSD 作为我的网络的损失函数 h fc2 is my output layer y is my label image ssd tf reduce sum tf square y h fc2 train st
从tensorflow 2.0 beta中的tf.data.Dataset检索下一个元素

在tensorflow 2 0 beta之前要从tf data Dataset中检索第一个元素我们可以使用迭代器如下所示 usr bin python import tensorflow as tf train dataset tf
使用基于 ConvLSTM2D 的 Keras 模型从较低分辨率图像估计高分辨率图像

我正在尝试使用以下内容ConvLSTM2D从低分辨率图像序列估计高分辨率图像序列的架构 import numpy as np scipy ndimage matplotlib pyplot as plt from keras models
从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
Tensorflow无法分配设备进行操作

我正在尝试跑步NVidia 脸部生成器演示 https github com tkarras progressive growing of gans在我的电脑上我使用的是 Windows 10 我已经下载了源代码并尝试按照页面下方的步骤
如何防止 Keras 在训练期间计算指标

我正在使用 Tensorflow Keras 2 4 1 并且有一个无监督的自定义指标它将我的几个模型输入作为参数例如 model build model returns a tf keras Model object my met
Keras 获取中间层的输出

what my model looks like defining the model archictecture model Sequential 1st conv layer model add Conv2D 32 5 5 activa
无法满足显式设备规范“/device:GPU:0”，因为没有匹配的设备

我想在我的 Ubuntu 14 04 机器上使用 TensorFlow 0 12 作为 GPU 但是当将设备分配给节点时我收到以下错误 InvalidArgumentError see above for traceback Canno
ValueError：“连接”层需要具有匹配形状的输入（连接轴除外）

我正在尝试为我的项目构建 Pix2Pix 并收到错误值错误 Concatenate层需要具有匹配形状的输入除了连接轴之外获得输入形状 None 64 64 128 None 63 63 128 生成器是一个 U 网模型我的输入高度
支持向量机或人工神经网络进行文本处理？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案对于某些文本处理项目我们需要在支持向量机和快速人工神经网络之间做出选择它包括上下文拼写纠正然后将文本标记为某些短语及其同义词哪种方
Keras 序列模型中的数据增强层

我正在尝试将数据增强作为一个层添加到模型中但我遇到了我认为是形状问题我也尝试在增强层中指定输入形状当我取出data augmentation模型中的图层运行良好 preprocessing RandomFlip horizontal
CUDA - 将 CPU 变量传输到 GPU __constant__ 变量

与 CUDA 的任何事情一样最基本的事情有时也是最难的所以我只想将变量从 CPU 复制到 GPUconstant变量我很难过这就是我所拥有的 constant int contadorlinhasx d int main int
如何将one-hot向量转换为多标签？

我有一项多分类任务并且我得到了像这样的单热类型预测 0 1 1 0 1 0 1 0 1 我希望将这个单热向量转换为标签例如 1 2 1 0 2 我已经尝试过 tf argmax 但它不起作用那么我该如何处理呢使用列表理解 oheLi
OutOfRangeError（请参阅上面的回溯）：FIFOQueue '_1_batch/fifo_queue' 已关闭并且元素不足（请求 32，当前大小 0）

我在使用队列中张量流读取图像时遇到问题请让我知道我犯了什么错误下面是代码 import tensorflow as tf slim tf contrib slim from tensorflow python framework imp
Encog - 如何加载神经网络的训练数据

The NeuralDataSet我在实际中看到的对象除了 XOR 之外什么都没有它只是两个小数据数组我无法从文档中找出任何内容MLDataSet 似乎所有内容都必须立即加载但是我想循环遍历训练数据直到到达 EOF 然后将其算作
如何读取 GPU 负载？

我正在编写一个程序用于监控计算机的各种资源例如CPU使用率等我还想监控 GPU 使用情况 GPU 负载而不是温度 using System using System Collections Generic using System
无法将大小为 1665179 的数组重塑为形状 (512,512,3,3)

该脚本用于进行检测权重文件是 yolov4 coco 预训练模型可以在这里找到 https drive google com file d 1cewMfusmPjYWbrnuJRuKhPMwRe b9PaT view https dri
Native TF 与 Keras TF 性能比较

我使用本机和后端张量流创建了完全相同的网络但在使用多个不同参数进行了多个小时的测试后仍然无法弄清楚为什么 keras 优于本机张量流并产生更好稍微但更好的结果 Keras 是否实现了不同的权重初始化方法或者执行除 tf train
Tensorflow `tf.layers.batch_normalization` 不会向 `tf.GraphKeys.UPDATE_OPS` 添加更新操作

以下代码复制粘贴可运行说明了如何使用tf layers batch normalization import tensorflow as tf bn tf layers batch normalization tf constant

随机推荐

内联这个函数还是不内联？

我应该实现一个比较两个相似字符串的函数strcmp但忽略空白字符所以 strcmpignorews abc a b c 应该给出相同的结果这是我的实现 namespace void SkipWhitespace const char s
saveAsTextFile 到 Spark 上的 s3 不起作用，只是挂起

我正在将 s3 中的 csv 文本文件加载到 Spark 过滤和映射记录并将结果写入 s3 我尝试了几种输入大小 100k 行 1M 行和 350 万行前两者成功完成而后者 350 万行挂起在某种奇怪的状态其中作业阶段监控 Web
将 ClickHandler 与 Element 的子元素一起使用

我需要将具有特定 ClickHandler 的锚点添加到元素中但我的 Anchor 的 onClick 方法从未被调用我该如何解决这个问题 Element th DOM createTH Anchor link new Anchor l
使用 Azure 中的第二个（或多个）NIC 访问互联网

我在 Azure 中有一个虚拟机带有 Ubuntu 19 04 和 4 个网卡每个网卡都附加了一个公共 IP 作为示例这是第二个网卡如您所见它的公共 IP 为 191 234 186 19 我的目标是能够从具有不同 IP 地址的每
无论如何要缩短 if ( i == x || i == y) 吗？

我尝试缩短我的代码从 if i x i y i z to if i x y z 我知道这种方式是错误的因为我在日志中得到了不正确的 i 但是有什么方法可以缩短 Objective C 中的代码吗你可以使用switch声明但这并不能
PHAsset + AF 网络。真机上无法上传文件到服务器

目前我正在使用以下代码将文件上传到服务器 NSURLRequest urlRequest AFHTTPRequestSerializer serializer multipartFormRequestWithMethod POST URLS
SQL Server 2005 中 LOCK_ESCALATION = TABLE 的等效项是什么？

我有一个在 SQL Server 2008 中生成的脚本但我需要针对 SQL Server 2005 数据库执行它 SQL Server 2005 中以下的等效语句是什么 ALTER TABLE dbo Event SET LOCK ES
Windows > 首选项中没有服务器

我正在尝试将 Apache 服务器添加到 Eclipse Juno 我已经安装了 Apache 服务器 7 0 但是当我尝试将其添加到 Eclipse 环境中时我在中看不到选项服务器窗口 gt 首选项首选项中必须有一个名为 server
glFlush() 在透明背景的窗口上花费很长时间

我使用的代码来自如何制作具有透明背景的OpenGL渲染上下文 https stackoverflow com questions 4052940 win32 how to make an opengl rendering context w
React渲染方法中的for循环[重复]

这个问题在这里已经有答案了我想为我的网格创建分页链接我将 maxPages number 属性传递给组件但我不能在渲染方法中使用我能做些什么 var Pagination React createClass render funct
反应路由器的位置状态在路由更改时变得未定义

我想存储url query作为所在地的状态 history push history location search query toString state myState query toString 我怀疑当路线改变时会得到状态但是
MySQL unique 1500 varchar 字段错误（#1071 - 指定的键太长）

我有一个 varchar 1500 字段链接我想使其唯一我对 mysql 配置进行了更改并将长度增加到 3072 字节 ROW FORMAT DYNAMIC innodb file format Barracuda innodb l
VSCode 上的 PlatformIO 未编译：collect2.exe：错误：ld 返回 1 退出状态

我最近不得不擦拭我的计算机在一切准备就绪并运行之后是时候打开我之前正在处理的一些 ESP32 程序了发现 VSCode 上的 Platform IO 将不再编译运行编译器后我收到以下错误 Compiling pio build e
使用 firebase 发送静音推送通知

我想在晚上向用户发送通知我不想播放任何声音我只想让用户醒来时在状态栏上看到它如何在用户设备 android 和 ios 上不播放声音的情况下发送推送通知从 Firebase 通知 Web 控制台你可以设置sound disable
x86 汇编指令执行计数

大家好我有一段代码我想找到每个装配线执行的次数我不在乎是通过分析还是仿真但我想要高精度的结果我曾经遇到过一个论坛它提供了一些脚本代码来执行此操作但我丢失了链接谁能帮我集思广益一些方法来做到这一点问候 Edit 好吧我想我
如何通过 Twitter API 拉取已验证帐户列表？ [复制]

这个问题在这里已经有答案了可能的重复如何仅通过经过验证的帐户在 Twitter 上搜索帖子 https stackoverflow com questions 4268193 how do i search twitter for po
如何使用Python将文本文件读入列表或数组[重复]

这个问题在这里已经有答案了我正在尝试将文本文件的行读入 python 中的列表或数组中我只需要能够在创建列表或数组后单独访问列表或数组中的任何项目文本文件的格式如下 0 0 200 0 53 1 0 255 0 哪里的如上所述实际
如何在 Odoo 中创建新附件？它们如何工作？

我想从 python 代码创建附件所以我尝试过 self env ir attachment create store fname checksum ir attachment 表中的 store fname 和 checksum 列应
为什么可空类型在这种情况下不相等？

令人惊讶的是下面的代码不会成功 int n1 null int n2 null Assert IsTrue n1 lt n2 Fails here 你知道为什么吗在 C 和 VB Net 中使用带有 null 可空值的布尔逻辑常常违反逻
Tensorflow：GPU 利用率几乎始终为 0%

我将张量流与 Titan X GPU 一起使用并且我注意到当我运行 CIFAR10 示例时 Volatile GPU utilization稳定在 30 左右而当我训练自己的模型时 Volatile GPU utilization远非

Tensorflow：GPU 利用率几乎始终为 0%

Tensorflow：GPU 利用率几乎始终为 0% 的相关文章

随机推荐

热门标签