如何在tf-slim中使用evaluation_loop和train_loop

2024-03-24

我正在尝试实现一些不同的模型并在 CIFAR-10 上训练它们，我想使用 TF-slim 来做到这一点。看起来 TF-slim 有两个在训练期间有用的主要循环：train_loop 和 evaluation_loop。

我的问题是：使用这些循环的规范方法是什么？作为后续：是否可以使用 train_loop 提前停止？

目前我有一个模型，我的训练文件 train.py 看起来像这样

import ...
train_log_dir = ...

with tf.device("/cpu:0"):
  images, labels, dataset = set_up_input_pipeline_with_fancy_prefetching( 
                                                                subset='train', ... )
logits, end_points = set_up_model( images ) // Possibly using many GPUs
total_loss = set_up_loss( logits, labels, dataset )
optimizer, global_step = set_up_optimizer( dataset )
train_tensor = slim.learning.create_train_op( 
                                      total_loss, 
                                      optimizer,
                                      global_step=global_step,
                                      clip_gradient_norm=FLAGS.clip_gradient_norm,
                                      summarize_gradients=True)
slim.learning.train(train_tensor, 
                      logdir=train_log_dir,
                      local_init_op=tf.initialize_local_variables(),
                      save_summaries_secs=FLAGS.save_summaries_secs,
                      save_interval_secs=FLAGS.save_interval_secs)

到目前为止这非常棒——我的模型都训练和收敛得很好。我可以从事件中看到这一点train_log_dir所有指标都朝着正确的方向发展。朝着正确的方向前进让我很高兴。

但我想检查验证集上的指标是否也在改进。我不知道有什么方法可以与训练循环很好地配合 TF-slim，所以我创建了第二个文件，名为eval.py其中包含我的评估循环。

import ...
train_log_dir = ...

with tf.device("/cpu:0"):
  images, labels, dataset = set_up_input_pipeline_with_fancy_prefetching( 
                                                                subset='validation', ... )
logits, end_points = set_up_model( images )
summary_ops, names_to_values, names_to_updates = create_metrics_and_summary_ops( 
                                                                logits,
                                                                labels,
                                                                dataset.num_classes() )

slim.get_or_create_global_step()
slim.evaluation.evaluation_loop(
      '',
      checkpoint_dir=train_log_dir,
      logdir=train_log_dir,
      num_evals=FLAGS.num_eval_batches,
      eval_op=names_to_updates.values(),
      summary_op=tf.merge_summary(summary_ops),
      eval_interval_secs=FLAGS.eval_interval_secs,
      session_config=config)

问题：

1) 我目前有一个用于评估循环的模型，占用了整个 GPU，但很少使用。我认为有更好的方法来分配资源。如果我可以使用相同的评估循环来监视多个不同模型（多个目录中的检查点）的进度，那就太好了。这样的事情可能吗？

2）评估和培训之间没有反馈。我正在训练大量模型，并且希望使用提前停止来停止那些无法学习或无法收敛的模型。有没有办法做到这一点？理想情况下使用验证集中的信息，但如果它必须仅基于训练数据，也可以。

3）我的工作流程是否全部错误，我应该以不同的方式构建它？文档中并不清楚如何将评估与培训结合使用。

Update~~似乎从 TF r0.11 开始，我在调用时也遇到了段错误slim.evaluation.evaluation_loop。它只是有时发生（对我来说，当我将工作分配到集群时）。它发生在sv.managed_session- 具体来说prepare_or_wait_for_session.~~ 这只是由于评估循环（张量流的第二个实例）尝试使用 GPU，而 GPU 已被第一个实例占用。

evaluation_loop 旨在与单个目录一起使用（正如您当前正在使用的那样）。如果您想提高效率，可以使用 slim.evaluation.evaluate_once 并添加适当的逻辑来交换您认为合适的目录。
您可以通过覆盖 slim.learning.train(..., train_step_fn) 参数来做到这一点。此参数用自定义函数替换“train_step”函数。在这里，您可以提供自定义训练函数，该函数返回您认为合适的“total_loss”和“should_stop”值。
您的工作流程看起来很棒，这可能是使用 TF-Slim 学习/评估的最常见工作流程。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

tfslim

如何在tf-slim中使用evaluation_loop和train_loop 的相关文章

在 keras 中集成采样的 softmax 失败

基于如何在 Keras 模型中使用 TensorFlow 的采样 softmax 损失函数 https stackoverflow com questions 47892380 how can i use tensorflows sampl
安装tensorflow的正确命令

当尝试在 Anaconda 上安装 Tensorflow 时我尝试了两种类型的命令 conda install tensorflow gpu工作得很好然而当尝试conda install c anaconda tensorflow g
在 Tensorflow 对象检测 API 中绘制验证损失

我正在使用 Tensorflow 对象检测 API 来检测和定位图像中的一类对象为了这些目的我使用预先训练的faster rcnn resnet50 coco 2018 01 28 model 我想在训练模型后检测拟合不足过度拟合我
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
张量流如何处理无法存储在一个盒子中的大变量

我想通过训练超过十亿特征维度的数据来训练 DNN 模型因此第一层权重矩阵的形状将为 1 000 000 000 512 这个权重矩阵太大无法存储在一个盒子中目前有没有什么解决方案来处理这么大的变量例如将大的权重矩阵划分为多个框 Up
阻止 TensorFlow 访问 GPU？ [复制]

这个问题在这里已经有答案了有没有一种方法可以纯粹在CPU上运行TensorFlow 我机器上的所有内存都被运行 TensorFlow 的单独进程占用我尝试将 per process memory fraction 设置为 0 但未成功
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
TensorFlow：在训练时更改变量

如果我将输入管道从 feed dict 更改为 tf data dataset 如何在每次迭代后的训练期间更改网络内参数的值澄清一下旧代码看起来像这样 Define Training Step model is some class t
在张量流中向卷积神经网络提供可变大小的输入

我正在尝试使用 feed dict 参数将不同大小的 2d numpy 数组列表传递给卷积神经网络 x tf placeholder tf float32 batch size None None None y tf placeholder
TensorFlow 无法编译

尝试从源代码编译 TensorFlow 时出现以下错误任何想法都会有帮助 bazel out host bin solib local U S Stensorflow Spython Cgen Unn Uops Upy Uwrappers
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
Tensorflow-GPU安装导入错误：DLL加载失败：找不到指定的模块

好吧我知道这可能已经回答了问题但我已经尝试了 stackoverflow 上建议的几乎所有技巧来安装 tensorflow gpu 并在官方文档上建议但没有运气我遇到了同样的错误首先我尝试过this https towardsda
使用 tf.estimator.Estimator 加载检查点和微调

我们正在尝试将旧的训练代码转换为更符合 tf estimator Estimator 的代码在初始代码中我们针对目标数据集微调原始模型在使用以下组合进行训练之前仅从检查点加载一些层要恢复的变量 and init fn与监控培训课程
MultiHeadAttention Attention_mask [Keras、Tensorflow] 示例

我正在努力掩盖 MultiHeadAttention 层的输入我正在使用 Keras 文档中的 Transformer Block 进行自我关注到目前为止我在网上找不到任何示例代码如果有人能给我一个代码片段我将不胜感激变压器块来
如何使用tensorFlow C++ API中的fileWrite摘要在Tensorboard中查看它

无论如何我是否可以获得与 FileWriter 相对应的张量名称以便我可以写出我的摘要以在 Tensorboard 中查看它们我的应用程序是基于C 的所以我必须使用C 来进行训练 FileWriter 不是张量 import ten
在按顺序读取的多个特征文件上训练 Keras 模型以节省内存

当我尝试读取大量功能文件时我遇到了内存问题见下文我想我应该分割训练文件并按顺序读取它们做到这一点的最佳方法是什么 x train np load path features x train npy y train np load p
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
在优化器期间保持变量不变

我有一个损失张量 L 的 TensorFlow 计算图它取决于 2 个 tf Variables A 和 B 我想在保持 B 固定的同时在变量 A 上运行梯度上升 A L 与 A 的梯度反之亦然在 B 上运行梯度上升 B L 与 B
“你好，TensorFlow！”使用 C API

出于学习目的如何使用 TensorFlow C API 编写此 Python 示例 import tensorflow as tf hello tf constant hello TensorFlow sess tf Session pr
卷积神经网络 (CNN) 输入形状

我是 CNN 的新手我有一个关于 CNN 的问题我对 CNN 特别是 Keras 的输入形状有点困惑我的数据是不同时隙的二维数据比方说10X10 因此我有 3D 数据我将把这些数据输入到我的模型中来预测即将到来的时间段所以我

随机推荐

Rails 5.x：如何在运行时添加路由而不覆盖原始路由表？

假设我有一个控制器操作应该会导致将新路由添加到路由表中 def make route vanity url params vanity url vanity redirect params vanity redirect return r
odbc 驱动程序不支持请求的属性

当我们在最后一行运行程序时 odbc 驱动程序不支持请求的属性错误出现任何人都可以给我一个想法 Dim conn As New ADODB Connection Dim rsRec As ADODB Recordset Dim cmd
如何在张量流中使用非常大（>2M）的词嵌入？

我正在运行一个具有非常大的词嵌入 gt 2M 词的模型当我使用 tf embedding lookup 时它需要一个很大的矩阵当我运行时我随后出现了 GPU 内存错误如果我减小嵌入的大小一切都会正常有没有办法处理更大的嵌入
如何在 Matlab 启动时设置一些自定义变量

我想设置一些初始变量例如format compact和当前目录在 Matlab 每次启动时自动执行我怎样才能做到这一点创建一个startup m 脚本文件其中包含用于设置所需状态的命令接下来从 MATLAB 内部运行命令 gt
在 BigQuery python api 中设置聚类列

我正在尝试在 BigQuery 中创建集群表当我在 UI 中测试它时它工作得很好 CREATE OR REPLACE TABLE project id xyz temp clustering PARTITION BY date CLUS
使用具有应用程序权限的 Microsoft Graph API 时，租户没有 SPO 许可证

当我们尝试访问 Microsoft Graph v1 0 API 中的 Sharepoint 终结点时我们收到 400 错误并显示消息租户没有 SPO 许可证我们已经注册了 Azure AD 应用程序并为相关端点分配了应用程序权限
为什么函数返回 nil FireBase Swift [重复]

这个问题在这里已经有答案了为什么函数会返回 nil 我尝试添加 DispathQue 但我不明白它应该如何正确请帮忙 func storagePutData uid String image UIImage compretition e
Spring 中的 Hibernate 事务管理器配置

在我的项目中我使用 Hibernate 进行编程事务划分每次在我的服务方法中我都会写类似的东西 Session session HibernateUtil getSessionFactory openSession session be
这样做的目的是什么(MyJobject as ILocalObject).GetObjectID

在delphi Tokyo源代码中我看到这两种不同的方式来检索服务经理 var FLocationManager JLocationManager FLocationManager TJLocationManager Wrap TAnd
express-jwt 不尊重未受保护的路径

有关express jwt模块的信息可以在这里找到 https github com auth0 express jwt https github com auth0 express jwt https www npmjs com pack
让笑话在故事书中全球可用

我在用 storybook react 6 in a create react app项目我对所有商店对象等进行了数千次测试和模拟这些模拟利用jest fn 我想在我的故事书故事中重复使用这些模拟但它说jest is not def
neo4j 使用选项卡加载 CSV

我正在尝试使用以下命令加载 csv 并在 neo4j 2 1 0 中创建节点使用定期提交从 file c temp listings TXT 加载 CSV AS 行 FIELDTERMINATOR t CREATE p person i
mmap 与 fileinput 的优点

我读到 mmap 比 fileinput 有优势因为它会将页面读入内核页面缓存并在用户地址空间中共享该页面而 fileinput 实际上将一个页面带入内核并将一行复制到用户地址空间因此文件输入会产生额外的空间开销所以我打算转向
如何在 PostgreSQL 的函数内编写WITH(CTE)

我正在尝试使用 WITH 它是 PostgreSQL 函数中的公共表表达式以下是示例 Example Create or replace function withFunction returns void as Body Begin W
变换比例导致间隙/线条

我目前正在构建一个网站但遇到了问题transform scale 我有一个按钮当用户将鼠标悬停在它上面时会发生两件事背景沿对角线扫过按钮标签颜色改变按钮稍微变大我已经完成了这个工作看起来非常好但是在实施之后3 当按钮变大
dlclose 上不会调用共享库中全局静态变量的析构函数

在主程序中我dlopen and dlclose LoadLibrary and FreeLibrary分别一个共享库共享库包含一个实例化的静态变量dlopen 并销毁于dlclose 此行为在 MSVC 2008 和 2013 GC
如何分割逗号分隔的字符串，同时忽略转义逗号？

我需要编写 StringUtils commaDelimitedListToStringArray 函数的扩展版本它获取一个附加参数转义字符所以打电话给我的 commaDelimitedListToStringArray test t
Docker 用户无法写入已安装的文件夹

我有以下设置 selenium chrome image selenium node chrome debug 3 141 59 neon container name chrome e2e depends on selenium hub
如何在 Cloudformation 模板中使列表项成为条件？

我有以下创建代码管道的云形成模板该管道分为三个阶段 Stages Name Source Actions Name Source ActionTypeId Category Source Owner ThirdParty Version
如何在tf-slim中使用evaluation_loop和train_loop

我正在尝试实现一些不同的模型并在 CIFAR 10 上训练它们我想使用 TF slim 来做到这一点看起来 TF slim 有两个在训练期间有用的主要循环 train loop 和 evaluation loop 我的问题是使用这些循

如何在tf-slim中使用evaluation_loop和train_loop

如何在tf-slim中使用evaluation_loop和train_loop 的相关文章

随机推荐

热门标签