tf.keras 损失变为 NaN

2023-12-09

我正在 tf.keras 中编写一个 3 层的神经网络。我的数据集是 MNIST 数据集。我减少了数据集中的示例数量，因此运行时间较短。这是我的代码：

import tensorflow as tf
from tensorflow.keras import layers
import numpy as np
import pandas as pd

!git clone https://github.com/DanorRon/data
%cd data
!ls

batch_size = 32
epochs = 10
alpha = 0.0001
lambda_ = 0
h1 = 50

train = pd.read_csv('/content/first-repository/mnist_train.csv.zip')
test = pd.read_csv('/content/first-repository/mnist_test.csv.zip')

train = train.loc['1':'5000', :]
test = test.loc['1':'2000', :]

train = train.sample(frac=1).reset_index(drop=True)
test = test.sample(frac=1).reset_index(drop=True)

x_train = train.loc[:, '1x1':'28x28']
y_train = train.loc[:, 'label']

x_test = test.loc[:, '1x1':'28x28']
y_test = test.loc[:, 'label']

x_train = x_train.values
y_train = y_train.values

x_test = x_test.values
y_test = y_test.values

nb_classes = 10
targets = y_train.reshape(-1)
y_train_onehot = np.eye(nb_classes)[targets]

nb_classes = 10
targets = y_test.reshape(-1)
y_test_onehot = np.eye(nb_classes)[targets]

model = tf.keras.Sequential()
model.add(layers.Dense(784, input_shape=(784,)))
model.add(layers.Dense(h1, activation='relu', kernel_regularizer=tf.keras.regularizers.l2(lambda_)))
model.add(layers.Dense(10, activation='sigmoid', kernel_regularizer=tf.keras.regularizers.l2(lambda_)))

model.compile(optimizer=tf.train.GradientDescentOptimizer(alpha), 
             loss = 'categorical_crossentropy',
             metrics = ['accuracy'])

model.fit(x_train, y_train_onehot, epochs=epochs, batch_size=batch_size)

每当我运行它时，都会发生以下三件事之一：

在几个时期内，损失会减少，准确度会增加，直到损失无明显原因变为 NaN，准确度直线下降。
每个时期的损失和准确性保持不变。通常损失为2.3025，精度为0.0986。
损失从 NaN 开始（并保持这种状态），而准确度仍然很低。

大多数时候，模型会执行其中一项操作，但有时它会执行随机操作。发生的不稳定行为类型似乎是完全随机的。我不知道问题是什么。我该如何解决这个问题？

编辑：有时，损失会减少，但准确性保持不变。另外，有时损失会减少，准确度会增加，然后一段时间后，准确度会下降，但损失仍然会减少。或者，损失减少，准确度增加，然后切换，损失快速上升，而准确度直线下降，最终以损失结束：2.3025 acc：0.0986。

编辑2：这是有时会发生的事情的一个例子：

Epoch 1/100
49999/49999 [==============================] - 5s 92us/sample - loss: 1.8548 - acc: 0.2390

Epoch 2/100
49999/49999 [==============================] - 5s 104us/sample - loss: 0.6894 - acc: 0.8050

Epoch 3/100
49999/49999 [==============================] - 4s 90us/sample - loss: 0.4317 - acc: 0.8821

Epoch 4/100
49999/49999 [==============================] - 5s 104us/sample - loss: 2.2178 - acc: 0.1345

Epoch 5/100
49999/49999 [==============================] - 5s 90us/sample - loss: 2.3025 - acc: 0.0986

Epoch 6/100
49999/49999 [==============================] - 4s 90us/sample - loss: 2.3025 - acc: 0.0986

Epoch 7/100
49999/49999 [==============================] - 4s 89us/sample - loss: 2.3025 - acc: 0.0986

编辑 3：我将损失更改为均方误差，网络现在运行良好。有没有办法让它保持交叉熵而不收敛到局部最小值？

我将损失更改为均方误差，网络现在运行良好

MSE is not针对此类分类问题的适当损失函数；你当然应该坚持loss = 'categorical_crossentropy'.

最有可能的是，该问题是由于您的 MNIST 数据未标准化所致；你应该将你的最终变量标准化为

x_train = x_train.values/255
x_test = x_test.values/255

不规范输入数据是导致梯度爆炸问题的已知原因，这可能就是这里发生的情况。

其他建议：设置activation='relu'对于您的第一个密集层，并摆脱所有层中的正则化器和初始化器参数（默认glorot_uniform实际上是一个更好的初始化器，而这里的正则化实际上可能对性能有害）。

作为一般建议，请尝试not重新发明轮子——从一个开始喀拉拉邦示例使用内置 MNIST 数据...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tf.keras 损失变为 NaN 的相关文章

在Python中使用字典作为switch语句[重复]

这个问题在这里已经有答案了我正在尝试使用字典用 Python 制作一个简单的计算器这是我的代码 def default print Incorrect input def add a b print a b def sub a b pr
我如何在 python 2.6 中测试抽象方法

我有一个抽象类 import abc class Hello object metaclass abc ABCMeta abc abstractmethod def add self foo pass abc abstractmethod
优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
如何修复 Apache mod_wsgi 的 Python 版本不匹配问题？

我收到此错误 Thu Jul 12 14 31 36 2012 error python init Python version mismatch expected 2 6 7 found 2 6 8 当尝试启动 Apache 服务器时在
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
如何在Python中求和

我想知道如何在 python 中表示总和而不需要像这样的循环here http docs scipy org doc scipy reference tutorial optimize html 我们有 def rosen x The Ro
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词

随机推荐

仅使用 data.table 将 NA 替换为 data.table 中的最后一个非 NA

我想更换NA最后一个非 NA 值的值data table并使用data table 我有一个解决方案但它比na locf library data table library zoo library microbenchmark f1 l
Google Drive API 403 禁止

我们使用 Google Drive API 来允许用户浏览并选择要在报告中使用的文件我们的一位用户该问题并不普遍在尝试获取文件列表时遇到错误如下从 Google 返回的 JSON 正文 error errors domain gl
HttpClient - 如何判断服务器是否更快地关闭？

我正在使用 NETHttpClient向我的服务器发送请求我已经设定HttpClient Timeout属性为 10 秒所以我得到了A task was cancelled每当服务器无法在 10 秒内处理我的请求时就会出现异常到这里
Windows快捷方式的内部结构是怎样的？

一台计算机上有 3 个硬盘 2 个 Windows XP 1 个 Windows 7 依次从每个硬盘加载操作系统我发现在第一个 XP 中创建的一些工作快捷方式不是全部在第二个 XP 和 Windows 7 中不起作用不可用于查看快捷
Xcode 4.5 iOS 6.0 模拟器方向不起作用

我已经将我的 Xcode 更新到 4 5 我已经实现了如下方向方法 BOOL shouldAutorotate return YES NSUInteger supportedInterfaceOrientations return UIIn
ASMX 操作 404s，但 ASMX 服务描述没有，url 路由问题？

所以我发现自己遇到了一个难题我们的应用程序中有一些旧的 asmx Web 服务多年来一直运行良好突然间他们停止了构建服务器 CI 上的工作我说停止工作因为即使当我导航到服务时显示服务描述调用任何操作都不会路由到服务 Web 表
在 React 中，ref 是引用虚拟 DOM 还是实际 DOM？

我假设虚拟 DOM 并且 React 通过比较来处理它但我有一位招聘人员说 ref 会影响实际的 DOM 我不明白这是怎么回事我认为他们只是误会了 Refs 应该引用实际的 DOM Refs 的一种用法是与第三方 DOM 库集成因此您
使用 Lodash 合并复杂对象数组

我是 Lodash 的新手正在尝试解决这个问题但可以找到一个好方法我有一个从数据库返回的对象数组数据结构如下 var data index 1 Aoo a1 Boo b2 index 1 Aoo a2 Boo b2 index 2
无效的 Swift 支持/无效的 Swift 实现

我想上传一个用 swift 编写的应用程序应用程序加载器成功交付应用程序但几分钟后我收到苹果的回复无效的 Swift 支持该捆绑包包含无效的 Swift 实现该应用程序可能是使用不合规或预发布的工具构建或签名的访问develop
如何更新已从 BOT 发送给用户的自适应卡？

我已经发送了包含捕获详细信息和按钮的卡片从任务模块单击提交后该模块将通过 http API 保存详细信息此处的活动类型为调用现在我必须更新现有的自适应卡我有更新消息的代码但如何更新卡或再次重新发送卡 connector new
Webpack 提供的 Angular 2 应用程序基于环境的属性？

我正在使用由 JHipster 生成并由 Spring Boot 服务器提供服务的独立 Angular 控制台我希望根据环境本地开发产品等提供具有不同属性的应用程序我看到很多关于配置每个环境的 webpack 构建的帖子但我需
PHP/Regex：bbcode [s] 或 [strike] 的简单正则表达式无法工作

对于一个愚蠢的 bbcode 解析器我想将两个定义添加到一个中我最初的 preg replace 定义是这样的 s s si
无法在 Heroku 上使用 Gmail 发送电子邮件

我无法让我的 Rails 应用程序使用 Gmail 发送电子邮件我可以在本地开发环境中发送电子邮件但无法从 Heroku 发送这是我的配置文件应用程序 rb config action mailer smtp settings ad
Spark Streaming StreamingContext.start() - 启动接收器时出错 0

我有一个使用 Spark Streaming 的项目我使用 spark submit 运行它但遇到了以下错误 15 01 14 10 34 18 ERROR ReceiverTracker Deregistered receiver f
如何使 Satchmo 在 Google App Engine 中工作

我知道数据存储方面存在很大差异但既然 django 是捆绑的并且它从 Satchmo 中抽象出数据存储那么可以做些什么吗事实上我不是 Python 爱好者到目前为止主要是 Java PHP 但我愿意学习另外如果今天不可能让我
如何将 Node.js 应用程序上传到 FTP 服务器？

我对 Node js 有点陌生但我构建了一个应用程序并对它非常满意我想知道如何将 Node js 应用程序上传到 FTP 服务器有可能做到这一点吗 Node JS 应用程序只是文件的集合您可以像任何其他文件一样使用 FTP 将它们
实体框架代码首先将 TPT 转换为 TPH

我使用 EF Code First 使用 TPT 开发了一个应用程序发布附件评论等它运行良好并且正在与许多客户进行 beta 测试但是存在许多层次结构因此我有一个包含各种继承模型的基本模型每个模型都包含许多属性这些属性本
HTMLAgilityPack 使用 C# 解析 HTML 时出现问题

我只是想了解 HTMLAgilityPack 和 XPath 我试图从纳斯达克网站获取 HTML 链接公司列表 http www nasdaq com quotes nasdaq 100 stocks aspx 我目前有以下代码 Html
使用 jquery 显示/隐藏文本

基本上我有 6 个按钮和 6 个段落每个按钮与特定段落相关我想在单击某个按钮时显示一段文本然后在再次单击该按钮时隐藏该段落我浏览过类似的问题但似乎无法让它发挥作用我认为这是因为我才开始尝试使用 jquery 并且没有真正理解这个
tf.keras 损失变为 NaN

我正在 tf keras 中编写一个 3 层的神经网络我的数据集是 MNIST 数据集我减少了数据集中的示例数量因此运行时间较短这是我的代码 import tensorflow as tf from tensorflow keras

tf.keras 损失变为 NaN

tf.keras 损失变为 NaN 的相关文章

随机推荐

热门标签