Softmax 交叉熵损失爆炸

2024-01-08

我正在创建一个用于逐像素分类的深度卷积神经网络。我正在使用 adam 优化器，softmax 和交叉熵。

Github 存储库 https://github.com/dhasl002/Research-DeepLearning

I asked a similar question found here https://stackoverflow.com/questions/48600374/cross-entropy-loss-suddenly-increases-to-infinity but the answer I was given did not result in me solving the problem. I also have a more detailed graph of what it going wrong. Whenever I use softmax, the problem in the graph occurs. I have done many things such as adjusting training and epsilon rates, trying different optimizers, etc. The loss never decreases past 500. I do not shuffle my data at the moment. Using sigmoid in place of softmax results in this problem not occurring. However, my problem has multiple classes, so the accuracy of sigmoid is not very good. It should also be mentioned that when the loss is low, my accuracy is only about 80%, I need much better than this. Why would my loss suddenly spike like this?

x = tf.placeholder(tf.float32, shape=[None, 7168])
y_ = tf.placeholder(tf.float32, shape=[None, 7168, 3])

#Many Convolutions and Relus omitted

final = tf.reshape(final, [-1, 7168])
keep_prob = tf.placeholder(tf.float32)
W_final = weight_variable([7168,7168,3])
b_final = bias_variable([7168,3])
final_conv = tf.tensordot(final, W_final, axes=[[1], [1]]) + b_final

cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=final_conv))
train_step = tf.train.AdamOptimizer(1e-5).minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(final_conv, 2), tf.argmax(y_, 2))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

您需要标签平滑。

我刚刚遇到了同样的问题。我正在训练tf.nn.sparse_softmax_cross_entropy_with_logits这和你使用的一样tf.nn.softmax_cross_entropy_with_logits带有one-hot标签。我的数据集预测罕见事件的发生，因此训练集中的标签为 99% 0 类和 1% 1 类。我的损失将开始下降，然后停滞（但预测合理），然后突然爆炸，然后预测也变坏了。

使用tf.summary通过将内部网络状态记录到 Tensorboard 中，我观察到 logits 的绝对值不断增长。最终>1e8，tf.nn.softmax_cross_entropy_with_logits数值变得不稳定，这就是产生那些奇怪的损失峰值的原因。

在我看来，发生这种情况的原因在于 softmax 函数本身，这与 Jai 的评论一致，即在 softmax 之前放置一个 sigmoid 可以解决问题。但这也肯定会使 softmax 似然不可能准确，因为它限制了 logits 的值范围。但这样做可以防止溢出。

Softmax 定义为likelihood[i] = tf.exp(logit[i]) / tf.reduce_sum(tf.exp(logit[!=i]))。交叉熵定义为tf.reduce_sum(-label_likelihood[i] * tf.log(likelihood[i])因此，如果你的标签是单热的，那么它就会减少到目标可能性的负对数。实际上，这意味着你正在推动likelihood[true_class]尽可能接近1.0尽你所能。由于 softmax，唯一的方法是如果tf.exp(logit[!=true_class])变得尽可能接近0.0尽可能。

所以实际上，您已经要求优化器生成tf.exp(x) == 0.0做到这一点的唯一方法是x == - infinity。这就是数值不稳定的原因。

解决方案是“模糊”标签，而不是[0,0,1]你用[0.01,0.01,0.98]。现在优化器可以达到tf.exp(x) == 0.01这导致x == -4.6它安全地处于 GPU 计算准确可靠的数值范围内。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Softmax 交叉熵损失爆炸的相关文章

如何避免使用 python 处理空的标准输入？

The sys stdin readline 返回之前等待 EOF 或新行所以如果我有控制台输入 readline 等待用户输入相反我想打印帮助并在没有需要处理的情况下退出并显示错误而不是等待用户输入原因我正在寻找一个Pytho
此 TypeError 消息中提到的“代码对象”是什么？

在尝试使用Python时exec声明我收到以下错误 TypeError exec arg 1 must be a string file or code object 我不想传递字符串或文件但什么是代码对象如何创建一个创建代码对象的
使用python查找txt文件中字母出现的次数

我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数到目前为止我已经能够在一行中打印内容但计数有问题有人可以指导吗 infile open grades txt content infile read for char
Virtualenv 在 OS X Yosemite 上失败并出现 OSError

我最近更新到 OSX Yosemite 现在无法使用virtualenv pip 每当我执行 virtualenv env 它抛出一个 OSError Command Users administrator ux env bin pytho
在python中将数据库表写入文件的最快方法

我正在尝试从数据库中提取大量数据并将其写入 csv 文件我正在尝试找出最快的方法来做到这一点我发现在 fetchall 的结果上运行 writerows 比下面的代码慢 40 with open filename a as f writ
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
在Python上获取字典的前x个元素

我是Python的新手所以我尝试用Python获取字典的前50个元素我有一本字典它按值降序排列 k 0 l 0 for k in len dict d l 1 if l lt 51 print dict 举个小例子 dict d m
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
具有不同尺寸图像的 Tensorflow 输入数据集

我正在尝试使用不同大小的输入图像来训练完全卷积神经网络我可以通过循环训练图像并在每次迭代时创建单个 numpy 输入来做到这一点即 for image input label in zip image data labels train
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome

随机推荐

难以更改异步任务中的进度对话框消息

我创建了一个异步任务想要在 doBackground 的不同阶段更改进度对话框的消息这是代码 public class sc extends AsyncTask
Liberty + Spring Data 中的容器管理的 MongoDB 连接

我们开发了一个应用程序Spring Boot spring data 后端 MongoDB并使用IBM Websphere Liberty作为应用服务器我们被利用了应用程序管理的数据库连接 in an yml文件并享受 Spring B
Backbone.js 自定义构造函数？

我正在寻找一些在我的模型上创建自定义构造函数的示例我希望模型数据的结构有所不同然后将其设置为属性有人可以向我展示一些如何执行此操作的基本示例吗 Thanks 如果您确实想重写构造函数请传递constructor财产给Backbon
在 numba 中缓存 jit 编译的函数

我想使用 numba 编译一系列常用函数并且因为我只需要在我的机器上使用相同的签名运行它们所以我想缓存它们但是当尝试这样做时 numba 告诉我该函数无法缓存因为它使用大型全局数组这是它显示的具体警告 NumbaWarning 无
DataType.fromJson() 错误：java.lang.IllegalArgumentException：无法将 JSON 字符串“int”转换为数据类型

尝试从 JSON 文件创建 StructType 用作创建数据帧的架构 JSON 结构 type struct fields name LocationID type int nullable false metadata name Bor
LINQ 左连接错误

我在 LINQ 中编写了以下查询来执行左连接但它抛出错误 var qry from c in dc category feature Name trans SelectAll Active join p in dc product cat
使用 VBA 和 ActiveX 减少 WithEvent 声明和子事件

在工作表上我有 3 个 ActiveX 对象分别是 TextBox1 TextBox2 ListBox1 省略其他代码我有一个 clsEvents 类其中包含 Private WithEvents txbControl As MSF
无法为 ggplot2 中的多个密度图制作图例

我正在使用 ggplot2 绘制一些带有图例的密度图但我无法将图例添加到最终结果中 m lt ggplot chickwts aes x weight m geom density kernel gaussian adjust 3 col
@Component 和 @Repository / @Service 注解的处理方式有什么区别？

今天我在 Spring 3 0 中偶然发现了一个相当奇怪的问题有一个抽象类A及其具体实施A Impl A Impl被注释为 Repository并由 Spring 自动扫描
Chrome 说“资源解释为脚本，但以 MIME 类型文本/纯文本传输。”，什么给出了？

在 FF 等所有环境中我的 javascript 运行良好但在 Chrome 中它给出了这样的消息资源解释为脚本但使用 MIME 类型 text plain 进行传输我已经检查了所有脚本标签它们都有MIME type text
尝试了解password_verify PHP

我试图了解password verify如何使用它来重置密码我本以为这会起作用但散列似乎不匹配 sUniqueCode uniqid 1234 true sHash1 password hash sUniqueCode PASSWORD
找不到springframework的标签库描述符

我试图遵循 spring JPetStore 的示例但在引用 lib 标签 spring 的行中的 JSP 页面中出现错误找不到 http www springframework org tags 的标签库描述符这个图书馆的网址是什么
将 Javascript 对象转换为代理（而不是其引用）

我可以获取一个 Javascript 对象o并从中创建一个新的 Proxy 对象 let p new Proxy object 但是有没有办法改变现有对象引用以跟踪原始对象的更改特别是有没有办法可以从外部源跟踪对象上新键的添加代理规范
在 pg-promise 中返回

我使用所有查询创建了一个单独的文件pg promise节点模块虽然对于大多数人来说我只是使用req res在查询之后我想返回一个值这是行不通的它返回undefined passportLogin email gt db one SE
Interface Builder 项到底什么时候被实例化？

假设我从 XCode4 中的模板创建一个基于导航的应用程序那么 MainWindow xib 中将有一个导航控制器它有一个子 RootViewController 到底什么时候会 RootViewController 的实例被创建吗该
使最后一个内联列表项扩展容器的剩余宽度

我正在寻找一种方法来使最后一个内联列表项扩展其容器的其余部分所以我有这样的东西
使编译器/优化器能够制作更快的程序的编码实践

许多年前 C 编译器还不是特别聪明作为一种解决方法 K R 发明了register关键字提示编译器将此变量保留在内部寄存器中也许是个好主意他们还制作了三级运算符来帮助生成更好的代码随着时间的推移编译器逐渐成熟他们变得非常聪明
数据表固定列（仅限右侧）问题

我正在使用 JQuery Datatable 当我使用固定列时遇到了问题它已经显示了两次我的固定栏 https i stack imgur com qlSCh png 我正在使用服务器端处理这是我的代码 dataTable table
jQuery 在传递 POST 数据时在新选项卡中打开页面

我有一个名为 list 的 JavaScript 变量我需要将其作为 POST 数据发送到另一个页面并在新选项卡中打开该页面存在 POST 数据这段代码 jQuery post datadestination php list 发送数
Softmax 交叉熵损失爆炸

我正在创建一个用于逐像素分类的深度卷积神经网络我正在使用 adam 优化器 softmax 和交叉熵 Github 存储库 https github com dhasl002 Research DeepLearning I asked a

Softmax 交叉熵损失爆炸

Softmax 交叉熵损失爆炸 的相关文章

随机推荐

热门标签

Softmax 交叉熵损失爆炸的相关文章