Ada-Delta 方法在具有 MSE 损失和 ReLU 激活的去噪自动编码器中使用时不会收敛？

2024-02-27

我刚刚实施了 AdaDelta (http://arxiv.org/abs/1212.5701 http://arxiv.org/abs/1212.5701）用于我自己的深度神经网络库。这篇论文说的是 AdaDelta 的 SGD 对超参数不敏感，并且它总是收敛到好的地方。（至少AdaDelta-SGD的输出重建损失与经过良好调整的Momentum方法相当）

当我在去噪自动编码器中使用 AdaDelta-SGD 作为学习方法时，它确实在某些特定设置中收敛，但并非总是如此。当我使用 MSE 作为损失函数，Sigmoid 作为激活函数时，它收敛得非常快，经过 100 个 epoch 迭代后，最终的重建损失优于所有普通 SGD、带有 Momentum 的 SGD 和 AdaGrad。

但是当我使用 ReLU 作为激活函数时，它没有收敛，而是继续以高（坏）重建损失堆叠（振荡）（就像您使用具有非常高学习率的普通 SGD 时的情况一样）。它叠加的重建损失的大小比Momentum方法生成的最终重建损失大约高10到20倍。

我真的不明白为什么会发生这种情况，因为报纸上说 AdaDelta 很好。请让我知道这些现象背后的原因，并教我如何避免它。

ReLU 的激活是无界的，这使得它在自动编码器中的使用变得困难，因为您的训练向量可能没有任意大且无界的响应！ ReLU 根本不适合这种类型的网络。

您可以通过对输出层应用一些转换来强制 ReLU 进入自动编码器，如下所示在这里完成 http://eprints.pascal-network.org/archive/00008596/01/glorot11a.pdf。然而，嘿，不要讨论自动编码器的结果质量，而只是作为分类的预训练方法。因此，尚不清楚构建自动编码器是否值得付出努力。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Ada-Delta 方法在具有 MSE 损失和 ReLU 激活的去噪自动编码器中使用时不会收敛？的相关文章

使用 libsvm 交叉验证后重新训练

我知道交叉验证用于选择好的参数找到它们后我需要在不使用 v 选项的情况下重新训练整个数据但我面临的问题是在使用 v 选项训练后我得到了交叉验证精度例如 85 没有模型我看不到 C 和 gamma 的值在这种情况下我该如何重新
如何以 HDF5 格式提供 caffe 多标签数据？

我想将 caffe 与矢量标签一起使用而不是整数我检查了一些答案似乎 HDF5 是更好的方法但后来我陷入了这样的错误 precision layer cpp 34 检查失败 outer num inner num bottom 1
如何计算两个字符串向量之间的余弦相似度

我有 2 个维度为 6 的向量我想要一个介于 0 和 1 之间的数字 a c HDa 2Pb 2 BxU BuQ Bve b c HCK 2Pb 2 09 F G 谁能解释我应该做什么使用lsa包和该包的手册 create some f
具有多个输入的 Keras TimeDistributed 层

我正在尝试使以下代码行正常工作 low encoder out TimeDistributed AutoregressiveDecoder X tf embeddings Where AutoregressiveDecoder是一个需要两个
如何在 Caffe 的网络中出现多次损失？

如果我在网络中定义多个损失层从这些末端到网络的开头是否会发生多个反向传播我的意思是他们真的是这样工作的吗假设我有这样的事情 Layer1 Layer2 Layer n Layer cls1 bottom layer n top cl
在 SciKit-Learn 中使用 Pipeline 计算排列重要性

我正在使用来自的确切示例SciKit https scikit learn org stable auto examples inspection plot permutation importance html sphx glr auto
支持向量机或人工神经网络进行文本处理？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案对于某些文本处理项目我们需要在支持向量机和快速人工神经网络之间做出选择它包括上下文拼写纠正然后将文本标记为某些短语及其同义词哪种方
如何在 Keras 中使用部分输入进行训练，其余部分用于损失函数

我是 Keras 新手正在尝试实现神经网络机器学习模型输入张量看起来像 X1 X2 和输出 Y 注意 X1 和 X2 是相关的在模型中只有 X1 将用于训练但 X1 和 X2 都将传递给损失函数该损失函数是 X1 X2 y pr
LSTM 批次与时间步

我按照 TensorFlow RNN 教程创建了 LSTM 模型然而在这个过程中我对批次和时间步长之间的差异如果有的话感到困惑并且我希望得到帮助来澄清这个问题教程代码见下文本质上是根据指定数量的步骤创建批次 wi
将索引数组转换为 NumPy 中的 one-hot 编码数组

给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列即a max 1 然后对于每一行i 设置a i 第列至1 gt
如何确定 Keras Conv2D 函数中的“filter”参数

我刚刚开始我的 ML 之旅并且已经完成了一些教程对我而言不清楚的一件事是如何为 Keras Conv2D 确定过滤器参数我读过的大多数资料只是将参数设置为 32 没有任何解释这只是经验法则还是输入图像的尺寸起作用例如 CIF
在 Tensorflow 对象检测 API 中绘制验证损失

我正在使用 Tensorflow 对象检测 API 来检测和定位图像中的一类对象为了这些目的我使用预先训练的faster rcnn resnet50 coco 2018 01 28 model 我想在训练模型后检测拟合不足过度拟合我
预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
在监督分类中，使用partial_fit() 的MLP 比使用fit() 的表现更差

我正在使用的学习数据集是灰度图像flatten让每个像素代表一个单独的样本第二张图像在训练后将被逐像素分类Multilayer perceptron MLP 前一个分类器我遇到的问题是MLP当它一次接收到所有训练数据集时表现更好 fit
神经网络中的时间序列提前预测（N点提前预测）大规模迭代训练

N 90 使用神经网络进行提前预测我试图预测提前 3 分钟即提前 180 点因为我将时间序列数据压缩为每 2 个点的平均值为 1 所以我必须预测 N 90 超前预测我的时间序列数据以秒为单位给出值在 30 90 之间它们通常从
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
Tensorflow conv2d_transpose 大小错误“out_backprop 的行数与计算的不匹配”

我正在张量流中创建一个卷积自动编码器我得到了这个确切的错误 tensorflow python framework errors InvalidArgumentError Conv2DBackpropInput Number of row
McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
如何重现 Ridge(normalize=True) 的行为？

这段代码 from sklearn pipeline import make pipeline from sklearn preprocessing import StandardScaler from sklearn linear mod
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed

随机推荐

Java计算MD5哈希值

In http www anyexample com programming java java simple class to compute md5 hash xml http www anyexample com programmin
FireFox 中内容可编辑的光标位置/样式

我在 FireFox 3 中使用 contentEditable 时遇到问题我遇到的问题是在单击 div 后光标将出现在 div 上方或仅部分出现在 div 中直到我开始输入此时它的行为正确关于如何阻止这种情况发生有什么想法吗
为什么在 exec() 之前调用 quit() 不会退出应用程序？

为什么这个程序可以正常运行并显示主窗口我希望它会退出quit 在构造函数中调用主要 cpp include
Qt 5.0程序在QtCreator中运行但不在外部运行

这是上下文我在Windows 7 x64下用Qt开发了一个程序我已经升级到Qt 5 0 1 QtCreator 2 6 1 编译器VS2010 现在状态我的程序在 QtCreator 中运行良好但是当我在外面尝试时我收到了几个错误
在 Swift 中向 NSLayoutAnchor 约束添加乘数

锚约束简化了添加约束的过程但故事板中可用的乘数属性似乎并不适用于所有类型的约束例如作为根据这里的答案 https stackoverflow com questions 63042059 center uilabel created
使用 awk 删除包含唯一第一个字段的行？

希望仅打印具有重复第一个字段的行例如从看起来像这样的数据 1 abcd 1 efgh 2 ijkl 3 mnop 4 qrst 4 uvwx 应该打印出 1 abcd 1 efgh 4 qrst 4 uvwx 仅供参考我的数据中第一个字
hadoop/bin/hadoop 没有示例 jar

我安装了 hadoop 2 2 0 并尝试运行示例 wordcount 程序为此我首先使用以下命令将数据导入到 hdfs bin hadoop fs copyFromLocal home prassanna Desktop input
FileBeat 收获问题

我们使用 ELK 来控制我们的程序日志在我们的 FileBeat 配置中我们从中获取30种不同包含每秒更新的文件的路径它仅在产品机器中每秒更新在其他开发机器中我们的日志要少得多我们的日志文件不会被删除直到它们变旧并且我们停止使
Indy 和 smtps：无法连接

我正在尝试使用 Indy 和说明的技术从 smtps 安全 smtp 发送电子邮件在 Marco Cant 的这篇文章中 http www marcocantu com tips oct06 gmail html 这就是我正在使用的 obj
在 SciKit 线性回归上出现“ValueError：形状未对齐”

一般来说 SciKit 和 Python 的线性代数机器学习相当新所以我似乎无法解决以下问题我有一个训练集和一个测试数据集其中包含连续值和离散分类值 CSV 文件被加载到 Pandas DataFrame 中并匹配形状分别为 1
初始化列表与向量

在 C 11 中可以使用初始化列表来初始化函数中的参数其目的是什么不能用 const 向量做同样的事情吗下面两个程序有什么区别使用初始化列表 include
Apache Beam 计数器/指标在 Flink WebUI 中不可用

我正在使用 Flink 1 4 1 和 Beam 2 3 0 并且想知道是否可以在 Flink WebUI 或任何地方中提供可用的指标如 Dataflow WebUI 中那样我用过类似的计数器 import org apache be
数据库操作的任务与服务

JavaFX 8 任务和服务之间有什么区别在哪种情况下使用其中一个更好数据库操作用什么比较好任务和服务之间的主要区别一次性执行与重复执行 A Task http docs oracle com javafx 2 api javafx
C 中的布谷鸟哈希

有没有人有实施布谷鸟哈希 http en wikipedia org wiki Cuckoo hashing在C语言中如果有一个开源的非 GPL 版本那就完美了既然 Adam 在评论中提到了它有人知道为什么它没有被太多使用吗这只是一
Python 3.10 匹配/大小写与常量[重复]

这个问题在这里已经有答案了我尝试用更短的代码块替换 if elif elif else 代码块match case从 Python 3 10 开始我定义了三个常量并希望对每个常量执行不同的操作因此我的代码大致如下所示 gt gt g
BadTokenException：无法添加窗口——令牌 null 无效；您的活动正在运行吗？在activity.isFinishing语句中

如果用户仍在当前活动中我有一个需要在几秒钟后显示的弹出窗口我实现了一个语句检查活动是否未完成销毁然后显示弹出窗口对于周末用户来说它工作得很好从一个活动缓慢单击到另一个活动但在高压测试中活动正在重新创建完成快速移动形式
Android studio 导航抽屉在设计视图上显示黑屏

我安装了 Android studio 3 1 3 但它只显示黑屏构建 gradle apply plugin com android application android compileSdkVersion 28 defaultCon
使用 Google App Script 从 google 驱动器中进行 OCR 图像

我已经实现了以下脚本使用图像 URL 对单个和多个图像进行 OCR function doOCRALL var selected SpreadsheetApp getActiveSheet getActiveRange getValues
iOS 7 后退按钮符号？

我真的很喜欢 iOS 7 中后退按钮箭头的形状并且想在我的一个 UIButton 上使用它但像 gt 而不是 You have to use an image These assets are in the original size
Ada-Delta 方法在具有 MSE 损失和 ReLU 激活的去噪自动编码器中使用时不会收敛？

我刚刚实施了 AdaDelta http arxiv org abs 1212 5701 http arxiv org abs 1212 5701 用于我自己的深度神经网络库这篇论文说的是 AdaDelta 的 SGD 对超参数不敏感并

Ada-Delta 方法在具有 MSE 损失和 ReLU 激活的去噪自动编码器中使用时不会收敛？

Ada-Delta 方法在具有 MSE 损失和 ReLU 激活的去噪自动编码器中使用时不会收敛？ 的相关文章

随机推荐

热门标签

Ada-Delta 方法在具有 MSE 损失和 ReLU 激活的去噪自动编码器中使用时不会收敛？的相关文章