张量流 LSTM 模型中的 NaN 损失

2024-04-21

以下网络代码应该是经典的简单 LSTM 语言模型，一段时间后开始输出 nan 损失……在我的训练集上，这需要几个小时，而且我无法在较小的数据集上轻松复制它。但在认真的训练中，这种情况总是会发生。

Sparse_softmax_with_cross_entropy 应该在数值上稳定，所以它不可能是原因......但除此之外，我没有看到任何其他节点可能导致图中出现问题。可能是什么问题呢？

class MyLM():
    def __init__(self, batch_size, embedding_size, hidden_size, vocab_size):
        self.x = tf.placeholder(tf.int32, [batch_size, None])  # [batch_size, seq-len]
        self.lengths = tf.placeholder(tf.int32, [batch_size])  # [batch_size]

        # remove padding. [batch_size * seq_len] -> [batch_size * sum(lengths)]
        mask = tf.sequence_mask(self.lengths)  # [batch_size, seq_len]
        mask = tf.cast(mask, tf.int32)  # [batch_size, seq_len]
        mask = tf.reshape(mask, [-1])  # [batch_size * seq_len]

        # remove padding + last token. [batch_size * seq_len] -> [batch_size * sum(lengths-1)]
        mask_m1 = tf.cast(tf.sequence_mask(self.lengths - 1, maxlen=tf.reduce_max(self.lengths)), tf.int32)  # [batch_size, seq_len]
        mask_m1 = tf.reshape(mask_m1, [-1])  # [batch_size * seq_len]

        # remove padding + first token.  [batch_size * seq_len] -> [batch_size * sum(lengths-1)]
        m1_mask = tf.cast(tf.sequence_mask(self.lengths - 1), tf.int32)  # [batch_size, seq_len-1]
        m1_mask = tf.concat([tf.cast(tf.zeros([batch_size, 1]), tf.int32), m1_mask], axis=1)  # [batch_size, seq_len]
        m1_mask = tf.reshape(m1_mask, [-1])  # [batch_size * seq_len]

        embedding = tf.get_variable("TokenEmbedding", shape=[vocab_size, embedding_size])
        x_embed = tf.nn.embedding_lookup(embedding, self.x)  # [batch_size, seq_len, embedding_size]

        lstm = tf.nn.rnn_cell.LSTMCell(hidden_size, use_peepholes=True)

        # outputs shape: [batch_size, seq_len, hidden_size]
        outputs, final_state = tf.nn.dynamic_rnn(lstm, x_embed, dtype=tf.float32,
                                                 sequence_length=self.lengths)
        outputs = tf.reshape(outputs, [-1, hidden_size])  # [batch_size * seq_len, hidden_size]

        w = tf.get_variable("w_out", shape=[hidden_size, vocab_size])
        b = tf.get_variable("b_out", shape=[vocab_size])
        logits_padded = tf.matmul(outputs, w) + b  # [batch_size * seq_len, vocab_size]
        self.logits = tf.dynamic_partition(logits_padded, mask_m1, 2)[1]  # [batch_size * sum(lengths-1), vocab_size]

        predict = tf.argmax(logits_padded, axis=1)  # [batch_size * seq_len]
        self.predict = tf.dynamic_partition(predict, mask, 2)[1]  # [batch_size * sum(lengths)]

        flat_y = tf.dynamic_partition(tf.reshape(self.x, [-1]), m1_mask, 2)[1]  # [batch_size * sum(lengths-1)]

        self.cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=self.logits, labels=flat_y)
        self.cost = tf.reduce_mean(self.cross_entropy)
        self.train_step = tf.train.AdamOptimizer(learning_rate=0.01).minimize(self.cost)

检查输入模型的列，在我的例子中，有一列具有 NaN 值，删除 NaN 后，它起作用了

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

LSTM

张量流 LSTM 模型中的 NaN 损失的相关文章

Python argparse 作为函数

以这种方式获取命令行参数有什么本质上的错误吗我的意思是把参数解析放入它自己的函数中它会被认为是非 Pythonic 或更严重吗 usr bin python import argparse def getArgs argv None p
Firefox 中的文件下载对话框

我正在使用firefox进行selenium python编程自动开始下载并保存文件我已经完成了所有操作但无法下载csv文件我的python版本是2 6 6 我的selenium版本是最新版本我也尝试使用以下链接即 fp web
从 Excel 获取输入并在 python 脚本中使用这些输入

如何从 excel 获取输入并在 python 中使用这些输入看一眼xlrd http pypi python org pypi xlrd 这是我发现的学习如何使用它的最佳参考 http www dev explorer com arti
Native TF 与 Keras TF 性能比较

我使用本机和后端张量流创建了完全相同的网络但在使用多个不同参数进行了多个小时的测试后仍然无法弄清楚为什么 keras 优于本机张量流并产生更好稍微但更好的结果 Keras 是否实现了不同的权重初始化方法或者执行除 tf train
熊猫加入具有不同索引级别/日期时间的数据帧？

嗨我有两个 DataFrame 如下所示 dineType menuName unique columns date y m d
Python 错误：将 statsmodels 与一行数据一起使用时，对象的 len() 未调整大小

我可以使用 statsmodel 的 WLS 加权最小二乘回归 http statsmodels sourceforge net devel generated statsmodels regression linear model WLS
使用 Python 打开新窗口时，selenium window_handles 不正确

我想使用 selenium 和 Python 在一个浏览器中打开多个选项卡并通过多个选项卡同时抓取实时投注赔率网站主页生成游戏列表但是除非您找到游戏元素并使用 click 该网站是 ajax 密集型否则无法获取游戏链接这会在同一
ipython/jupyter 中的 tk 问题

我正在尝试编写一个用于从 ipython jupyter 笔记本启动的 gui 但在笔记本中使用 tkinter 时遇到了麻烦特别是在让 tk gui 窗口正常关闭方面如何从 jupyter 制作启动 tkinter gui 然后在不
seaborn 箱线图的子图

我有一个像这样的数据框 import seaborn as sns import pandas as pd pylab inline df pd DataFrame a one one two two one two one one one
R.scale() 和 sklearn.preprocessing.scale() 之间的区别

我目前正在将数据分析从 R 转移到 Python 当在 R 中缩放数据集时我将使用 R scale 根据我的理解它将执行以下操作 x mean x sd x 为了替换该函数我尝试使用 sklearn preprocessing sca
pandas groupby 并转换为 json 列表

我有一个如下所示的 pandas 数据框 idx f1 f2 f3 1 a a b 2 b a c 3 a b c 87 e e e 我需要将其他列转换为基于索引列的字典列表所以最终结果应该是 idx features 1 f1 a f
在 Python 中通过网络发送对象的最佳方式是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我需要通过网络发送对象我将使用 Twisted 并且我刚刚开始查看它的文档据我所知 python实现套接字的唯一方式是通过文本那么我如何使
如何在 FastAPI Swagger API 中按方法类型对方法进行排序？

如何在 FastAPI Swagger 自动文档中设置 API 方法的排序顺序我希望所有方法按类型分组 GET POST PUT DELETE 这个答案 https stackoverflow com questions 24951268
Python：Factory Boy 生成对象创建时指定长度的列表

我正在尝试使用 Factoryboy 在创建时指定长度的对象中创建一个列表我可以创建列表但由于提供的长度大小的惰性性质每次尝试创建具有指定长度的列表都会导致问题这是我到目前为止所拥有的 class FooFactory facto
Tensorflow `tf.layers.batch_normalization` 不会向 `tf.GraphKeys.UPDATE_OPS` 添加更新操作

以下代码复制粘贴可运行说明了如何使用tf layers batch normalization import tensorflow as tf bn tf layers batch normalization tf constant
如何在 Windows 7 中使用 Python 廉价地创建非常大的文件？ [复制]

这个问题在这里已经有答案了可能的重复在Windows系统上快速创建大文件 https stackoverflow com questions 982659 quickly create large file on a windows s
Django - 渲染到字符串无法加载 CSS

我正在尝试使用 Django 1 8 render to string 通过管理命令将 html 转换为 pdf 而不是使用 View request 以下代码可以将模板转换为 pdf 但它无法将 CSS 加载到模板中 def html t
检查图像中是否有太薄的区域

我正在尝试验证雕刻机的黑白图像更多的是剪贴画图像不是照片我需要考虑的主要事情之一是区域的大小或线条的宽度因为机器无法处理太细的线条所以我需要找到比给定阈值更细的区域以此图为例竖琴的琴弦可能太细而无法雕刻我正在阅读有关 Ma
如何动态选择要在flask中使用的模板目录？

默认情况下 Flask 使用存储在 template 目录中的模板文件 flaskapp application py templates hello html 有没有办法根据登录的用户动态选择模板目录这就是我想要的目录结构 flaska
Hoare Partitioning算法讲解

根据许多网站给出的伪代码我写了这个Hoare分区算法它采用一个数组根据给定的主元来分区子数组的开始和结束索引它工作得很好但是有人可以解释一下逻辑它是如何做到这一点的吗这是代码 def hoare arr start end p

随机推荐

如何将Hyperledger Composer部署到“Azure Hyperledger Single Member Blockchain”？

我找到了将 Hyperledger Fabric 部署到 Azure Hyperledger Single Member Blockchain 的指南here https gallery technet microsoft com Hype
Google Tensorflow 中的事件文件

我正在使用 Tensorflow 构建神经网络我想在 Tensorboard 上显示训练结果到目前为止一切正常但我对 Tensorboard 的事件文件有疑问我注意到每次运行 python 脚本时它都会生成不同的事件文件当我
java重写方法调用

我有一个超级课程 public class SuperClass public void dosomething firstMethod secondMethod public void firstMethod System out pri
Javascript：如何根据项目属性值删除数组项目（JSON 对象）？

像这样 var arr name robin age 19 name tom age 29 name test age 39 我想删除这样的数组项数组原型方法 arr remove name test remove by name arr
启用 SplitView 和 MultiTask iPad 混合应用程序。删除交互

我们有 ionic iPad 应用程序使用 cordova 电容器平台我们使用以下链接启用了 iPad 13 的分割视图https en gg enable ipad split screen feature in an ionic o
如何在 Android 应用程序中合理管理音频音量？

我有一个应用程序在其活动打开时播放间歇性声音用户总是期望它发出这些声音但不幸的是它受到音乐流音量的限制我发现的选项是调整音乐流的音量如果用户当时正在播放音乐则可能会使用户耳聋如果音乐流的音量为0 则调用MediaPlayer
如何在 Tensorflow 上测试自己的图像到 Cifar-10 教程？

我训练了 Tensorflow Cifar10 模型我想为其提供自己的单个图像 32 32 jpg png 我想将标签和每个标签的概率视为输出但我对此遇到了一些麻烦搜索堆栈溢出后我发现了一些帖子this https stackove
从 nib 初始化自定义 UITableViewCell，无需 dequeueReusableCellWithIdentifier

SWIFT 我需要制作一个单元格数组我有一些带有 nib 文件的自定义单元格类继承自 UITableViewCell 如何在不在表视图中注册笔尖并执行 dequeueReusableCellWithIdentifier 的情况下初始化单
如何设置 MySQL 以便与 C# 一起使用？

我的任务是为旧网站创建一个新的前端它是用 php oo 之前的版本编写的并使用 MySQL 数据库主机提供 Net包但不提供Ms Sql Server 这很好因为数据库工作正常但我真的想使用 Asp net 作为页面然而我
在 NSMenuItem 中使用 NSProgressIndicator

我正在尝试在状态栏菜单内使用 NSProgressIndicator 不确定我使用 NSView 对象作为菜单项的视图然后子视图进度指示器来显示它但是每当我尝试调用 startAnimation 来获取进度时什么也没有发生当我尝试
使用conftest.py 与从专用模块导入装置

我最近开始熟悉 pytest 以及如何使用conftest py定义在我的测试中自动发现和导入的装置我很清楚如何conftest py工作原理以及如何使用它但我不确定为什么这在某些基本场景中被认为是最佳实践假设我的测试是这样构建的 t
UITextView 可以容纳多少文本？

我有一个不可编辑的UITextView显示用户输入的文本如果文本很长会发生什么它会让我的应用程序崩溃吗我应该对文本进行分页吗 iPhone 网络浏览器如 Safari Chrome 或 Firefox 如何处理此问题有没有类似的东
如何在Cloudant或CouchDB中使用skip参数？

在 Cloudant 或 CouchDB 的索引中使用 Skip 参数是否存在潜在的性能损失有更好的技术可以使用吗 The 在 CouchDB 中写入和查询 MapReduce 视图 http my safaribooksonline c
React antd 轮播方法

我正在考虑使用antd轮播但我还没有看到描述如何使用的示例goTo slideNumber dontAnimate 方法我尝试过使用这个问题的答案带箭头的react js antd轮播 https stackoverflow com q
Xamarin 不尊重 JDK 位置 (VS2015)

我无法在 Visual studio 2015 中构建 Xamarin 应用程序因为 Xamarin 忽略配置的 JDK 位置我将 Xamarin 配置为使用 JDK 1 8 但构建仍然失败因为它使用的是我从计算机中删除的旧 JDK
在 Linux (libusb-1.0) 上访问 USB 设备？

我正在编写一个小程序使用 Linux 上的 libusb 1 0 与特定 USB HID 产品由供应商和产品 ID 标识进行通信现在我必须以 root 身份运行该程序因为 libusb 需要对 USB 设备节点的写访问权限有没
UNIQUE 约束失败：accounts_user.username

让我们开始解决问题我有一个页面我希望用户在其中填写有关自己的信息并且我想保存该数据但我收到这个错误 IntegrityError at accounts profile edit 1 change profile UNIQUE co
python 中两个字符串的 Anagram 测试

这是问题编写一个名为 test for anagrams 的函数该函数接收两个字符串参数均由字母字符组成返回如果两个字符串是字谜词则为 True 否则为 False 两个字符串是如果一个字符串可以通过重新排列来构造则为 a
Silverlight 异步单元测试

我在使用 Silverlight 单元测试框架时遇到了一个奇怪的问题每次执行的第一个方法都会失败我使用完全相同的代码进行了第二次测试并且通过了第一次调用的奇怪之处在于它实际上是在等待超时and then执行存储库调用如果您关心的
张量流 LSTM 模型中的 NaN 损失

以下网络代码应该是经典的简单 LSTM 语言模型一段时间后开始输出 nan 损失在我的训练集上这需要几个小时而且我无法在较小的数据集上轻松复制它但在认真的训练中这种情况总是会发生 Sparse softmax with cros

张量流 LSTM 模型中的 NaN 损失

张量流 LSTM 模型中的 NaN 损失 的相关文章

随机推荐

热门标签

张量流 LSTM 模型中的 NaN 损失的相关文章