从保存的检查点恢复训练模型时，Tensorflow 批量丢失会出现峰值？

2024-03-12

我遇到了一个奇怪的问题，我一直在尝试调试，但运气不佳。我的模型开始正确训练，批次损失持续减少（从最初的约 6000 到 20 个时期后的约 120）。然而，当我暂停训练并稍后通过从检查点恢复模型来恢复训练时，批次损失似乎比前一个批次损失（暂停之前）意外激增，并从较高的损失点开始恢复下降。我担心的是，当我恢复模型进行评估时，我可能没有使用我认为的经过训练的模型。

与 Tensorflow 教程相比，我已经多次梳理了我的代码。我尝试确保使用教程建议的方法进行保存和恢复。这是代码快照：https://github.com/KaranKash/DigitSpeak/tree/b7dad3128c88061ee374ae127579ec25cc7f5286 https://github.com/KaranKash/DigitSpeak/tree/b7dad3128c88061ee374ae127579ec25cc7f5286- train.py 文件包含保存和恢复步骤、图形设置和训练过程；而 model.py 创建网络层并计算损失。

这是我的打印语句中的一个示例 - 请注意，当从 epoch 7 的检查点恢复训练时，批次损失急剧上升：

Epoch 6. Batch 31/38. Loss 171.28
Epoch 6. Batch 32/38. Loss 167.02
Epoch 6. Batch 33/38. Loss 173.29
Epoch 6. Batch 34/38. Loss 159.76
Epoch 6. Batch 35/38. Loss 164.17
Epoch 6. Batch 36/38. Loss 161.57
Epoch 6. Batch 37/38. Loss 165.40
Saving to /Users/user/DigitSpeak/cnn/model/model.ckpt
Epoch 7. Batch 0/38. Loss 169.99
Epoch 7. Batch 1/38. Loss 178.42
KeyboardInterrupt
dhcp-18-189-118-233:cnn user$ python train.py
Starting loss calculation...
Found in-progress model. Will resume from there.
Epoch 7. Batch 0/38. Loss 325.97
Epoch 7. Batch 1/38. Loss 312.10
Epoch 7. Batch 2/38. Loss 295.61
Epoch 7. Batch 3/38. Loss 306.96
Epoch 7. Batch 4/38. Loss 290.58
Epoch 7. Batch 5/38. Loss 275.72
Epoch 7. Batch 6/38. Loss 251.12

我已经打印了inspect_checkpoint.py 脚本的结果。我还尝试了其他损失函数（Adam 和 GradientDescentOptimizer），并注意到恢复训练后峰值损失有相同的行为。

dhcp-18-189-118-233:cnn user$ python inspect_checkpoint.py
Optimizer/Variable (DT_INT32) []
conv1-layer/bias (DT_FLOAT) [64]
conv1-layer/bias/Momentum (DT_FLOAT) [64]
conv1-layer/weights (DT_FLOAT) [5,23,1,64]
conv1-layer/weights/Momentum (DT_FLOAT) [5,23,1,64]
conv2-layer/bias (DT_FLOAT) [512]
conv2-layer/bias/Momentum (DT_FLOAT) [512]
conv2-layer/weights (DT_FLOAT) [5,1,64,512]
conv2-layer/weights/Momentum (DT_FLOAT) [5,1,64,512]

我遇到了这个问题，发现事实是我在恢复图时初始化了图变量 - 丢弃了所有学习的参数，以替换为原始图定义中最初为每个张量指定的任何初始化值。

例如，如果您使用tf.global_variables_initializer()要将变量初始化为模型程序的一部分，无论您的控制逻辑是什么来指示将恢复已保存的图形，请确保图形恢复流程省略：sess.run(tf.global_variable_initializer())

这对我来说是一个简单但代价高昂的错误，所以我希望其他人能挽救一些白发（或一般情况下的头发）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

从保存的检查点恢复训练模型时，Tensorflow 批量丢失会出现峰值？的相关文章

Colab TPU 调用 model.fit() 时出错：UnimplementedError

我正在尝试分类cifar10 图片 https www tensorflow org datasets catalog cifar10与谷歌 colab TPU 合作根据官方教程 https www tensorflow org guid
3D 卷积神经网络输入形状

我在使用 3D CNN 提供数据时遇到问题Keras http keras io和 Python 对 3D 形状进行分类我有一个文件夹其中包含一些 JSON 格式的模型我将这些模型读入 Numpy 数组模型为 25 25 25 表示
了解 Tensorflow 中的 while 循环

我正在使用用于 Tensorflow 的 Python API https www tensorflow org api docs python 我正在努力实施罗森布罗克函数 https www sfu ca ssurjano rosen
为什么在线预测失败并显示“无法从 feed 中获取元素作为字节”？

在线预测失败并显示无法从源中获取字节形式的元素这是什么意思以及如何解决它我使用以下代码生成预测 request data examples pickup longitude 73 885262 pickup latitude 40
如何查找冻结模型的输入和输出节点

我想使用张量流optimize for inference py来自模型动物园的冷冻模型的脚本 ssd mobilenet v1 coco 如何查找确定模型的输入名称和输出名称雇用张量板生成的图的版本 https i stack img
Pytorch“展开”等价于 Tensorflow [重复]

这个问题在这里已经有答案了假设我有大小为 50 50 的灰度图像在本例中批量大小为 2 并且我使用 Pytorch Unfold 函数如下所示 import numpy as np from torch import nn from
Keras 中的 Tensorflow 自定义损失函数 - 张量循环

我正在尝试在 Keras 中编写自定义损失函数如下所示 Keras 中的自定义损失函数 https stackoverflow com questions 43818584 custom loss function in keras 我的
在 TensorFlow 中对伯努利随机变量进行采样

给定一个包含伯努利分布均值的一维张量如何使用给定的均值对相应的一维张量进行采样 TensorFlow 似乎只有random normal and random uniform实现的功能我可以使用一些复杂的东西例如 tf ceil tf
无法满足显式设备规范“/device:GPU:0”，因为没有匹配的设备

我想在我的 Ubuntu 14 04 机器上使用 TensorFlow 0 12 作为 GPU 但是当将设备分配给节点时我收到以下错误 InvalidArgumentError see above for traceback Canno
为什么 get_tensor_by_name 无法正确获取 tf.keras.layers 定义的层的权重

我尝试获取由以下定义的层的权重tf keras layers通过使用get tensor by name in tensorflow 代码如下 encoding utf 8 import tensorflow as tf x tf plac
带有 s3 路径的张量板 logdir

我看到tensorflow支持AWS s3文件系统 https github com tensorflow tensorflow tree master tensorflow core platform s3 https github co
张量流急切模块错误

我的操作系统是 Ubuntu 16 04 Python版本是3 5 张量流版本是14 0 当我尝试为 TF Eager 模块编写简单代码时 import tensorflow as tf import tensorflow contrib
OutOfRangeError（请参阅上面的回溯）：FIFOQueue '_1_batch/fifo_queue' 已关闭并且元素不足（请求 32，当前大小 0）

我在使用队列中张量流读取图像时遇到问题请让我知道我犯了什么错误下面是代码 import tensorflow as tf slim tf contrib slim from tensorflow python framework imp
TensorFlow：在输入处获取梯度时性能缓慢

我正在使用 TensorFlow 构建一个简单的多层感知器并且我还需要获取神经网络输入损失的梯度或误差信号这是我的代码它有效 cost tf reduce mean tf nn softmax cross entropy with
Keras 通过设置种子获得不同的结果[重复]

这个问题在这里已经有答案了在keras中每次运行都有很高的方差和不稳定的性能为了解决这个问题根据https keras io getting started faq how can i obtain reproducible res
用于分布式计算的 Tensorflow 设置

任何人都可以提供有关如何设置张量流以在网络上的许多CPU上工作的指导吗到目前为止我发现的所有示例最多只使用一个本地盒子和多个 GPU 我发现我可以在 session opts 中传递目标列表但我不确定如何在每个盒子上设置张量流来侦听网
Tensorflow `tf.layers.batch_normalization` 不会向 `tf.GraphKeys.UPDATE_OPS` 添加更新操作

以下代码复制粘贴可运行说明了如何使用tf layers batch normalization import tensorflow as tf bn tf layers batch normalization tf constant
从tensorflow_cc和tensorflow_framework生成静态库

据我了解使用 bazel 我只能生产libtensorflow cc so and libtensorflow framework so 我需要生产静态库与位置无关 fPIC 因为稍后我会将它们链接到我自己的动态库 I found 这个答
在 keras 中集成采样的 softmax 失败

基于如何在 Keras 模型中使用 TensorFlow 的采样 softmax 损失函数 https stackoverflow com questions 47892380 how can i use tensorflows sampl
在 Keras 上使用回调 Tensorboard 时出现 AttributeError：“Model”对象没有属性“run_eagerly”

我已经使用 Keras 的功能 API 构建了一个模型当我将 Tensorboard 实例添加到 model fit 函数的回调中时它会抛出一个错误 AttributeError Model object has no attribut

随机推荐

我可以将同一个 Firebase 用于两个不同的应用吗？

我想为两个应用程序使用相同的 Firebase 在这两个应用程序中用户应该能够通过 Google Facebook 或电子邮件登录但在我的 Firebase 仪表板的登录和身份验证部分中我只能添加一个 Facebook 应用程序
用不同的方式从列表中删除重复项

我有一个名为employee的类它是pojo 并且我创建了该pojo类型的employee类型的列表现在我想从列表中删除重复项请告知实现这一目标的各种方法是什么 class Emp implements Comparable Stri
无法在经典 asp 中写入文件

好吧自从我使用经典的 asp 以来已经有一段时间了所以我有点生疏了这是我的问题我正在尝试使用 FSO 将文件写入文件系统下面的代码非常简单但是该文件没有出现也没有出现错误我知道它正在运行代码因为我可以在此片段之前和之后添
无法打开源文件：“WIN32”：没有这样的文件或目录

在 VS2008 中构建 C 项目时出现此错误很困惑这是什么意思为什么它认为WIN32是一个文件 Go to Project gt 特性 gt C C gt 命令行你很可能有一个 I 在你之前 D WIN32 由于某种原因空的 in
在 Typescript 上获取插件函数

我正在尝试在打字稿文件上使用一些科尔多瓦插件功能但我无法构建该文件想象一下我想要访问设备平台和型号有人可以帮我弄这个吗我应该为插件的 js 文件上的每个函数创建接口吗提前致谢对此已有定义 https github com bo
在 Dart 中克隆列表、映射或集

来自 Java 背景克隆 Dart 的推荐方法是什么List Map and Set Use of clone in Java is tricky and questionable1 2 Effectively clone is a co
检测多列中的关键词并在新列中标记它们

我有这种类型的数据 set seed 123 df lt data frame v1 sample LETTERS 1 10 5 v2 sample LETTERS 1 10 5 v3 sample LETTERS 1 10 5 v4 sa
Vite 构建命令挂在“模块已转换”处。在Vue 3.3.4、Vite 4.3.8环境下

您好我目前正在使用 Vue 3 3 4 Vuetify 3 2 5 和 Vite 4 3 8 开发一个项目当我运行 vite build 命令时该过程似乎挂起并且未完成最后的输出我看到的是 679 modules transform
应该如何将 F# SqlDataConnection TypeProvider 与 App.Config 文件一起使用？

我正在使用类型表达式 type dbSchema SqlDataConnection
我可以定位 .net 的（表单）消息框或通用对话框吗？

我试图获得父窗体的中心而不是屏幕行为的中心传入父窗体似乎只能控制窗口的所有权这些类是密封的因此我不知道如何执行任何 WinProc 技巧重写类并不是一个有吸引力的选择还有其他想法吗正如 HTH 上面所解释的有一些丑陋的方法可
spring data elasticsearch如何使用offset和limit进行查询

spring data elasticsearch如何使用offset和limit进行查询我想使用偏移量和限制参数来查询页面但我找不到方法支持例如 queryBuild withPageable PageRequest of page
为4000万条记录的表添加多列主键

我正在维护一个数据库该数据库存储不同网络之间的数据传输信息本质上每次数据传输都会被记录下来并在每个月末运行一个 perl 脚本将日志文件加载到数据库的表中我没有设计 Perl 脚本或数据库模式这是在我开始从事这个项目之前完成的
苹果风格的滚动条WPF

我正在尝试减小滚动条控件的大小并使其更像 Apple 因为它非常适合我的界面我想要实现的目标是这样的到目前为止我所拥有的就是这个
如何用 R 重现这个移动分布图？

G Elliot Moris showed political polarization through time using a moving distribution plot https twitter com gelliottmor
比使用“任务/生产/消费”更好的方法将惰性集合表示为协程

使用起来非常方便Tasks表达一个惰性集合生成器 Eg function fib Task do prev prev 0 prev 1 produce prev while true cur prev prev prev produce
查找超过 1 小时的 -mtime 文件 [重复]

这个问题在这里已经有答案了我目前每 24 小时运行一次此命令 find var www html audio daystart maxdepth 1 mtime 1 type f name mp3 exec rm f 我想每 1 小时运行
Spring数据：DeleteAll和Insert在同一事务中

我正在尝试使用 hibernate Spring JPA 实现以下本机查询逻辑但是如果其中一条记录无法持久保存则 save Iterable 会引发异常并回滚整个事务有什么方法可以捕获记录错误并继续插入其他记录 eg 原生 SQL
具有不同合同但业务对象相同的两个 WCF 服务

例如我有两个托管在 IIS 中的服务 ServiceContract public interface IDeviceService OperationContract DeviceCollection GetAllDevices Cus
如何使用 Ruby 模拟类？

我正在使用 minitest mock 并想模拟一个类我并不是尝试测试模型类本身而是尝试测试服务 SomeService 与模型 SomeModel 的交互我想出了这个 Hack ClassDelegate 但我不相信这是一个好主意
从保存的检查点恢复训练模型时，Tensorflow 批量丢失会出现峰值？

我遇到了一个奇怪的问题我一直在尝试调试但运气不佳我的模型开始正确训练批次损失持续减少从最初的约 6000 到 20 个时期后的约 120 然而当我暂停训练并稍后通过从检查点恢复模型来恢复训练时批次损失似乎比前一个批次损失暂停

从保存的检查点恢复训练模型时，Tensorflow 批量丢失会出现峰值？

从保存的检查点恢复训练模型时，Tensorflow 批量丢失会出现峰值？ 的相关文章

随机推荐

热门标签

从保存的检查点恢复训练模型时，Tensorflow 批量丢失会出现峰值？的相关文章