TensorFlow：恢复 RNN 网络后损失猛增

2023-12-04

环境信息

操作系统：Windows 7 64位
从预构建的 pip 安装的 Tensorflow（无 CUDA）：1.0.1
Python 3.5.2 64 位

Problem

我在恢复网络（RNN 字符基础语言模型）时遇到问题。下面是具有相同问题的简化版本。

例如，当我第一次运行它时，我得到了这个。

    ...
    step 160: loss = 1.956 (perplexity = 7.069016620211226)
    step 180: loss = 1.837 (perplexity = 6.274748642468816)
    step 200: loss = 1.825 (perplexity = 6.202084762557817)

但在第二次运行时，恢复参数后，我得到了这个。

    step 220: loss = 2.346 (perplexity = 10.446611983898903)
    step 240: loss = 2.346 (perplexity = 10.446709120339545)
    ...

所有 tf 变量似乎都已正确恢复，包括将馈送到 RNN 的状态。数据位置也被恢复（从“步骤”开始）。

我也为 MNIST 识别模型做了一个类似的程序，这个程序运行良好：恢复前后的损失是连续的。

还有其他参数或状态需要保存和恢复吗？

    import argparse
    import os
    import tensorflow as tf
    import numpy as np
    import math

    B = 20  # batch size
    H = 200 # size of hidden layer of neurons
    T = 25  # number of time steps to unroll the RNN for
    data_file = 'ptb.train.txt' # any plain text file will do
    checkpoint_dir = "tmp"

    #----------------
    # prepare data
    #----------------
    data = open(data_file, 'r').read()
    chars = list(set(data))
    data_size, vocab_size = len(data), len(chars)
    print('data has {0} characters, {1} unique.'.format(data_size, vocab_size))
    char_to_ix = { ch:i for i,ch in enumerate(chars) }
    ix_to_char = { i:ch for i,ch in enumerate(chars) }

    input_index_raw = np.array([char_to_ix[ch] for ch in data])
    input_index_raw = input_index_raw[0:len(input_index_raw) // T * T]
    input_index_raw_shift = np.append(input_index_raw[1:], input_index_raw[0])
    input_all = input_index_raw.reshape([-1, T])
    target_all = input_index_raw_shift.reshape([-1, T])
    num_packed_data = len(input_all)

    #----------------
    # build model
    #----------------
    class Model(object):
      def __init__(self):
        self.input_ph = tf.placeholder(tf.int32, [None, T], name="input_ph")
        self.target_ph = tf.placeholder(tf.int32, [None, T], name="target_ph")
        embedding = tf.get_variable("embedding", [vocab_size, H], initializer=tf.random_normal_initializer(), dtype=tf.float32)
        # input_ph is B x T.
        # input_embedded is B x T x H.
        input_embedded = tf.nn.embedding_lookup(embedding, self.input_ph)

        cell = tf.contrib.rnn.BasicRNNCell(H)

        self.state_ph = tf.placeholder(tf.float32, (None, cell.state_size), name="state_ph")

        # Make state variable so that it will be saved by the saver.
        self.state = tf.get_variable("state", (B, cell.state_size), initializer=tf.zeros_initializer(), trainable=False, dtype=tf.float32)

        # Construct initial_state according to whether restoring or not.
        self.isRestore = tf.placeholder(tf.bool, shape=(), name="isRestore")
        zero_state = cell.zero_state(B, dtype=tf.float32)
        self.initial_state = tf.cond(self.isRestore, lambda: self.state, lambda: zero_state)

        # input_embedded : B x T x H
        # output: B x T x H
        # state : B x cell.state_size
        output, state_ = tf.nn.dynamic_rnn(cell, input_embedded, initial_state=self.state_ph)
        self.final_state = tf.assign(self.state, state_)

        # reshape to (B * T) x H.
        output_flat = tf.reshape(output, [-1, H])

        # Convert hidden layer's output to vector of logits for each vocabulary.
        softmax_w = tf.get_variable("softmax_w", [H, vocab_size], dtype=tf.float32)
        softmax_b = tf.get_variable("softmax_b", [vocab_size], dtype=tf.float32)
        logits = tf.matmul(output_flat, softmax_w) + softmax_b

        # cross_entropy is a vector of length B * T
        cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=tf.reshape(self.target_ph, [-1]), logits=logits)
        self.loss = tf.reduce_mean(cross_entropy)

        optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.001)
        self.global_step = tf.get_variable("global_step", (), initializer=tf.zeros_initializer(), trainable=False, dtype=tf.int32)
        self.training_op = optimizer.minimize(cross_entropy, global_step=self.global_step)

      def train_batch(self, sess, input_batch, target_batch, initial_state):
        final_state_, _, final_loss = sess.run([self.final_state, self.training_op, self.loss], feed_dict={self.input_ph: input_batch, self.target_ph: target_batch, self.state_ph: initial_state})
        return final_state_, final_loss

    # main
    with tf.Session() as sess:
      if not tf.gfile.Exists(checkpoint_dir):
        tf.gfile.MakeDirs(checkpoint_dir)

      batch_stride = num_packed_data // B

      # make model
      model = Model()
      saver = tf.train.Saver()

      # always initialize
      init = tf.global_variables_initializer()
      init.run()

      # restore if necessary
      isRestore = False
      ckpt = tf.train.get_checkpoint_state(checkpoint_dir)
      if ckpt:
        isRestore = True
        last_model = ckpt.model_checkpoint_path
        print("Loading " + last_model)
        saver.restore(sess, last_model)

      # set initial step
      step = tf.train.global_step(sess, model.global_step) + 1
      print("start step = {0}".format(step))

      # fetch initial state
      state =  sess.run(model.initial_state, feed_dict={model.isRestore: isRestore})
      print("Initial state: {0}".format(state))

      while True:
        # prepare batch data
        idx = [(step + x * batch_stride) % num_packed_data for x in range(0, B)]
        input_batch = input_all[idx]
        target_batch = target_all[idx]

        state, last_loss = model.train_batch(sess, input_batch, target_batch, state)

        if step % 20 == 0:
          print('step {0}: loss = {1:.3f} (perplexity = {2})'.format(step, last_loss, math.exp(last_loss)))

        if step % 200 == 0:
          saved_file = saver.save(sess, os.path.join(checkpoint_dir, "model.ckpt"), global_step=step)
          print("Saved to " + saved_file)
          print("Last state: {0}".format(model.state.eval()))
          break;

        step = step + 1

问题已经解决了。它与 RNN 和 TensorFlow 无关。

我变了

chars = list(set(data))

chars = sorted(set(data))

现在可以了。

这是因为python 使用随机哈希函数构建该集合，每次 python 重新启动时，“chars”都有不同的顺序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

recurrentneuralnetwork

languagemodel

TensorFlow：恢复 RNN 网络后损失猛增的相关文章

张量流服务错误：参数无效：JSON 对象：没有命名输入

我正在尝试使用 Amazon Sagemaker 训练模型并且希望使用 Tensorflow 服务来为其提供服务为了实现这一目标我将模型下载到 Tensorflow 服务 docker 并尝试从那里提供服务 Sagemaker 的训练
tf.gather_nd 直观上是做什么的？

你能直观地解释一下或者举更多例子吗tf gather nd用于在 Tensorflow 中索引和切片为高维张量我读了API https www tensorflow org api docs python tf gather nd 但它保
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
TensorFlow 无法编译

尝试从源代码编译 TensorFlow 时出现以下错误任何想法都会有帮助 bazel out host bin solib local U S Stensorflow Spython Cgen Unn Uops Upy Uwrappers
合并张量流数据集批次

请考虑下面的代码 import tensorflow as tf import numpy as np simple features np array 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 simple labels
为什么我的结果仍然无法重现？

我想要为 CNN 获得可重复的结果我使用带有 GPU 的 Keras 和 Google Colab 除了建议插入某些代码片段这应该允许再现性之外我还在层中添加了种子 This is the first code snipped to
在张量流的卷积层中使用自定义过滤器

我一直在从各种教程中学习 Tensorflow 并且想知道是否可以定义一个自定义过滤器供卷积网络使用例如如果我知道特征中有有意义的结构使得每个其他特征都是相关的我想定义一个看起来像 0 1 0 1 0 1 的过滤器 tf nn co
无法使用 Keras 中的 multi_gpu_model 后的 model.save 保存模型

升级到 Keras 2 0 9 后我一直在使用multi gpu model实用程序但我无法使用保存我的模型或最佳权重 model save path 我得到的错误是类型错误无法pickle模块对象我怀疑访问模型对象时存在一些问题
AttributeError：模块“tensorflow.python.summary.summary”没有属性“FileWriter”

我收到此错误尽管我到处都看过file writer tf summary FileWriter path to logs sess graph 被提到为正确的实施this https github com tensorflow tenso
PyTorch LSTM 中的“隐藏”和“输出”有什么区别？

我无法理解 PyTorch 的 LSTM 模块以及类似的 RNN 和 GRU 的文档关于输出它说输出输出 h n c n 输出 seq len batch hidden size num directions 包含RNN最后一层的
PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
如何在张量流中使用带有估计器的衰减学习率？

我正在尝试将 LinearClassifier 与具有衰减学习率的 GradientDescentOptimizer 一起使用 My code def main load data features np load data feature
TensorFlow 运算符重载

有什么区别 tf add x y and x y 在 TensorFlow 中当您使用以下命令构建图表时您的计算图表会有什么不同代替tf add 更一般地说有或者其他张量超载的操作如果至少有一个x or y is a tf Te
如何通过不规则索引获取子张量？

我想通过不规则索引获得子张量这是我的问题 Input tensor 2x8x10x1 Batch x Height x Width x Channel index Height 0 1 4 5 index Width 0 1 4 5 8
Keras 中批量大小可变的batch_dot

我正在尝试编写一个层来合并 2 个张量formula https i stack imgur com I49aj png x 0 和x 1 的形状都是 1 500 M是500 500的矩阵我希望输出为 500 500 我认为这在理论上是可
Tensorflow 数据集的数据预处理是针对整个数据集还是针对每次调用 iterator.next() 进行一次？

您好我现在正在研究tensorflow中的数据集API 我有一个关于执行数据预处理的dataset map 函数的问题 file name image1 jpg image2 jpg im dataset tf data Dataset
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
keras：zca 美白卡住了 train_datagen.fit()

我尝试将 zca whitening 与 keras 图像处理选项一起使用但计算陷入困境并且永远不会结束我导致问题的代码部分如下所示 train datagen ImageDataGenerator rotation range 30
如何使用 tf.nn.top_k 返回的索引对多维张量进行排序？

我有两个多维张量a and b 我想按以下值对它们进行排序a I found tf nn top k https www tensorflow org versions r1 0 api docs python nn evaluation
使用张量流导出神经网络的权重

我使用张量流工具编写了神经网络一切正常现在我想导出神经网络的最终权重以制定单一的预测方法我怎样才能做到这一点您需要在训练结束时使用以下命令保存模型tf train Saver https www tensorflow org ver

随机推荐

使用 coord_flip 反转分组条形图中条形的顺序

使用来自的代码here 我意识到了一些我不明白的事情 library ggplot2 LoTRdata lt structure list Film structure c 1L 1L 1L 1L 1L 1L 3L 3L 3L 3L 3L
查找Python包中某些方法和函数的所有用法

给定一个包含某些模块的Python包我想找到该包中定义的方法和函数的所有用法我在想像 pycharms 这样的东西查找用法其中给定一个函数或方法它会显示调用该方法函数的所有行假设我的包有很多模块我想查找中定义的函数和方法的用法
在 Swift 中使用 where 子句扩展数组类型

我想使用 Accelerate 框架来扩展 Float 和 Double 但每个都需要不同的实现我尝试了显而易见的方法 extension Array
处理方向变化的状态

如何处理发生的方向事件的所有状态就像是开始之前保存一些屏幕状态发生时动画目的发生后加载屏幕状态我知道配置更改时可以处理方向变化我尝试了这个 public void onConfigurationChanged Config
Windows 窗体：具有多列的 TreeView 控件

有没有办法在 TreeView 控件中拥有多个列不标准 TreeView 不允许列您正在寻找的通常称为 TreeListView 所以你需要一个自定义控件 CodeProject 上列出了很多 TreeListView 用户控件精简
从 Struts2 表单提交填充集合

我正在尝试从表单填充 bean 列表 public class Foo public String attr1 public String attr2 public class Bar public List
是否可以从 scala 宏内的 WeakTypeTag 生成 Apply ？

我有一个WeakTypeTag我的宏中的某种类型我想生成如下代码 macroCreate SomeObject gt SomeObject 1 宏的定义将是这样的 def macroCreate A macro macroCreate A
错误：连接超时：连接 - Android

所以我只是安装了 Android studio 并运行了 Hello World 基本应用程序然后我得到这个错误错误连接超时连接我尝试从我的中删除 gradleUSER文件夹没有帮助非常感谢任何帮助谢谢将android s
如何从源代码中混淆的 ProGuard 类名中找到真实的类名？

我收到一封来自 Google 的电子邮件内容涉及TrustManager 的不安全实现唯一的线索表明有问题的代码位于 com b a af 类中显然这是一个混淆的名字我如何在我自己的源代码中从混淆的类名中获取真实的类名有什么方法可以
从 API 提取数据时的等待屏幕

我创建了一个 Python 脚本来使用 API 下载数据我还使用 PySimpleGUI 在其上放置了一个简单的 GUI 但是在下载数据时我想显示一个不确定的进度条或类似的东西下载完成后它将自行退出有没有办法实现这个要求呢有两种
WPF 命令行

我正在尝试创建一个采用命令行参数的 WPF 应用程序如果未给出参数则应弹出主窗口对于某些特定的命令行参数代码应在没有 GUI 的情况下运行并在完成后退出任何有关如何正确完成此操作的建议将不胜感激首先在 App xaml 文件
Java：可序列化内部类和匿名类是否应该具有 SerialVersionUID？

尽管我目前不打算序列化任何内容但我为所有可序列化的外部类以及静态嵌套类提供了一个SerialVersionUID 因为这是正确的方法不过我读过here that 由于多种原因强烈建议不要对内部类即非静态成员类的嵌套类包括本地类和
使用 ggpubr::stat_cor 绘制 ggplot 时出现解析错误（文本...）意外的逗号“，”并将输出小数设置为逗号（选项（OutDec =“，”））

设置完后输出小数到逗号使用 option 命令当使用函数 stat cor 将 Pearson 相关结果包含在 ggplot 中时出现以下错误 Error in parse text text i
System.out.print 不带“ln”的字符串

我有一个字节数组如下所示 0 0 0 0 0 0 0 0 122 98 117 54 46 0 0 115 122 42 0 0 0 0 0 0 0 0 0 0 0 116 121 116 117 108 0 0 0 0 0 0 0 0
MPMoviePlayerControlle缩略图ImageAtTime：timeOption：给出空的UIImage

我用它来获取视频的预览缩略图 void createThumb NSInteger paddingLeft 22 NSInteger paddingTop 22 CGFloat frameWidth self preview frame s
Mysql 查询到 ElasticSearch

我正在尝试将 MYSQL 查询转换为 Elasticsearch 查询包含不同字段上的多个条件让我解释一下我想要实现的目标我的 Mysql 查询是 Select from data fl where city IN miami miam
Tcl 将变量的值作为变量的名称

我在使用 Tcl 时遇到一些问题我有一个变量里面有一个字符串但现在我希望这个字符串成为下一个变量的名称我在网上发现了一些类似的问题但这些都是关于将一个变量的值放入另一个变量中不使用它作为变量的名称这是一个示例代码来帮助解释
如何在没有 sudo 的情况下构建库？

我通常会建立我的图书馆 configure make sudo make install 然而 Travis 文档不鼓励使用 sudohttp docs travis ci com user workers container based
GridView“ ”引发了未处理的事件 RowUpdating。 asp.net 背后的 C# 代码

Stackoverflow和其他网站上也有类似的问题但我似乎错过了一些东西我有一个 GridView 绑定到来自数据库的 DataTable 我的目标是使用调用以下方法的同一行中的按钮更新当时的一行 protected void Tes
TensorFlow：恢复 RNN 网络后损失猛增

环境信息操作系统 Windows 7 64位从预构建的 pip 安装的 Tensorflow 无 CUDA 1 0 1 Python 3 5 2 64 位 Problem 我在恢复网络 RNN 字符基础语言模型时遇到问题下面是具有相

TensorFlow：恢复 RNN 网络后损失猛增

环境信息

Problem

TensorFlow：恢复 RNN 网络后损失猛增 的相关文章

随机推荐

热门标签

TensorFlow：恢复 RNN 网络后损失猛增的相关文章