神经网络立即过拟合

2024-03-19

我有一个带有 2 个隐藏层的 FFNN，用于几乎立即过拟合的回归任务（epoch 2-5，取决于 # 个隐藏单元）。（ReLU、Adam、MSE、每层相同的隐藏单元数、tf.keras）

32 个神经元：

128 个神经元：

我将调整隐藏单元的数量，但为了限制搜索空间，我想知道上限和下限应该是多少。

Afaik 最好是拥有一个太大的网络并尝试通过 L2-reg 或 dropout 进行正则化，而不是降低网络的容量 - 因为较大的网络将具有更多的局部最小值，但实际损失值会更好。

尝试对从一开始就过度拟合的网络进行正则化（例如通过 dropout）是否有任何意义？

如果是这样，我想我可以增加这两个界限。如果没有，我会降低它们。

model = Sequential()
model.add(Dense(n_neurons, 'relu'))
model.add(Dense(n_neurons, 'relu'))
model.add(Dense(1, 'linear'))
model.compile('adam', 'mse')

超参数调整通常是机器学习中最困难的步骤，通常我们随机尝试不同的值并评估模型并选择提供最佳性能的一组值。

回到你的问题，你有一个高方差问题（训练良好，测试糟糕）。

您可以按顺序做八件事

确保您的测试和训练分布相同。
确保将数据打乱然后将其分成两组（测试和训练）
一个好的火车：测试分配将是 105:15K
使用带有 Dropout/L2 正则化的更深网络。
增加训练集大小。
尝试提前停止
改变你的损失函数
更改网络架构（切换到 ConvNet、LSTM 等）。

根据您的计算能力和时间，您可以设置您可以拥有的隐藏单元和隐藏层的数量。

因为更大的网络将有更多的局部最小值。

不，这并不完全正确，实际上，随着输入维度数量的增加，陷入局部最小值的机会就会减少。所以我们通常会忽略局部极小值的问题。这是非常罕见的。对于局部/全局最小值，工作空间中所有维度的导数必须为零。因此，在典型模型中这是极不可能的。

另一件事，我注意到你在最后一层使用线性单位。我建议你改用 ReLu。一般来说，我们不需要回归中的负值。它将减少测试/训练错误

拿着它：

In MSE 1/2 * (y_true - y_prediction)^2

because y_prediction可以为负值。当 y_predicted 变得高度负或高度正时，整个 MSE 项可能会膨胀到很大的值。

最后一层使用 ReLu 可确保y_prediction是积极的。因此，预计误差较低。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

neuralnetwork

Keras

hyperparameters

神经网络立即过拟合的相关文章

张量流 LSTM 模型中的 NaN 损失

以下网络代码应该是经典的简单 LSTM 语言模型一段时间后开始输出 nan 损失在我的训练集上这需要几个小时而且我无法在较小的数据集上轻松复制它但在认真的训练中这种情况总是会发生 Sparse softmax with cros
神经网络中“特征”的定义是什么？

我是神经网络的初学者我对这个词很困惑feature 你能给我一个定义吗feature 这些特征是隐藏层中的神经元吗这些特征是输入向量的元素特征的数量等于网络输入层的节点数量如果您使用神经网络根据物理属性的测量将动物分类为猫或狗那么
随着新数据的出现，如何增量训练 FANN？

我使用 FANN 库构建并训练了一个神经网络这是初步培训大部分数据将在线收集当在线数据可用时我想要improve使用这些新数据的网络不是重新训练而是使之前的训练更加准确如何用FANN来做这种增量训练呢从更改为的文件进行训练 s
Odroid XU4 上的 Tensorflow 编译

我正在尝试在 Odroid XU4 16GB eMMc Ubuntu 16 上编译 Tensorflow 尝试了完整和精简版但出现如图所示的错误 https www dropbox com sh j86ysncze1q0eka AAB8R
使用 load_model 加载经过训练的tensorflow.keras模型会返回JSON解码错误，而未经训练的模型加载正常

我有一个训练有素的 Keras 模型使用 tensorflow keras API 构建和训练并使用tf keras save model 没有可选参数的方法 Tensorflow 是最新的我的 Python 版本是 3 8 根据我的
如何在 Mac 上安装支持 GPU 的 TensorFlow？

我的 MacBook Pro 没有 NVIDIA GPU 所以不可能运行CUDA 我想知道哪些早期版本的 TensorFlow 支持 Mac OS 的 GPU 我如何在 Anaconda 上安装如上所述official https www
Tensorflow：tf.get_collection 未返回范围内的变量

我正在尝试获取变量范围内的所有变量如所解释的here https stackoverflow com questions 36533723 tensorflow get all variables in scope 然而该行tf get
TensorFlow 数据集的函数 cache() 和 prefetch() 有何作用？

我正在关注 TensorFlow图像分割 https www tensorflow org tutorials images segmentation教程其中有以下几行 train dataset train cache shuffle
分支输出 Keras

我的模型分为 2 个输出层如下所示输入 gt L1 gt L2 gt L3 gt 输出1 输入 gt L1 gt L2 gt L3 gt 输出2 我这样使用它是因为我想要out1 and out2有2个不同的激活函数因此我创建了一个
使用 keras 和多个序列进行时间序列预测

我明白了有状态 LSTM 预测示例 https github com fchollet keras blob master examples stateful lstm py在 Keras 中的单个序列上该示例有一个包含 50k 个观察值
使用稀疏张量计算梯度时，tensorflow给出nans

以下代码片段来自相当长的一段代码但希望我可以提供所有必要的信息 y2 tf matmul y1 ymask dist tf norm ystar y2 轴 0 y1 和 y2 为 128x30 ymask 为 30x30 ystar 为
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
将 Keras (Tensorflow) 卷积神经网络转换为 PyTorch 卷积网络？

Keras 和 PyTorch 使用不同的参数进行填充 Keras 需要输入字符串而 PyTorch 使用数字有什么区别如何将一个转换为另一个哪些代码在任一框架中获得相同的结果 PyTorch 还采用参数 in channels o
如何使用keras打印神经网络中预测类的名称？

我在 keras 中使用预先训练的模型最终将类索引预测为一些整数值但我似乎不明白如何打印这些类的名称我使用的模型是 ResNet 50 看一下https martin thoma com image classification ht
无法构建具有 int 输入的 Keras 层

我有一个复杂的 keras 模型其中一层是自定义预训练层需要 int32 作为输入该模型作为继承自 Model 的类实现其实现如下 class MyModel tf keras models Model def init self
tensorflow SavedModel - 如何迭代保存

我正在采用新的SavedModel据我所知 API 是未来应该优先于tf train Saver 我想要实现的目标是每次保存一个模型N批次数我想最多保留 20 个已保存的模型显然我可以自己监控这一点但如果tf train Save
如何将“实例键”添加到 keras 模型输入以在 gcloud ai-platform 中进行批量预测？

我正在尝试添加键以匹配 Google AI Platform 的批量预测输出但是我的模型输入只允许一个输入看起来像这样 input tf keras layers Input shape max len x tf keras lay
使用 GridsearchCV () 进行保留验证

GridsearchCV 有一个参数cv 默认值为3 表示是3倍有没有办法将 Gridsearch 与保留验证方案一起使用例如80 20 分割你可以使用sklearn model selection ShuffleSplit or s
softmax_cross_entropy_with_logits和loss.log_loss有什么区别？

之间的主要区别是什么tf nn softmax cross entropy with logits and tf losses log loss 两种方法都接受 1 hot 标签和 logits 来计算分类任务的交叉熵损失这些方法在理论上
Tensorflow Inception 多 GPU 训练损失未求和？

我正在尝试检查多个 GPU 在一台机器上的 Tensorflow 初始代码我很困惑因为据我所知我们从不同的塔又名 GPU 中得到了多次损失但是loss评估的变量似乎只是最后一个塔的变量而不是所有塔的损失之和 for step

随机推荐

couchdb 视图使用另一个视图？

我对 couchdb 中的视图有疑问目前我有许多视图例如 view A view B view Z 对于每个视图它们包含相同范围的键但具有不同的值 IE view A key key 1 value 10 key key 2 val
作为函数输入传递的 python 字典在该函数中的作用类似于全局函数，而不是局部函数

我对下面的行为感到非常困惑情况 1 3 和 4 的表现符合我的预期但情况 2 却没有为什么情况 2 允许函数全局更改字典条目的值即使函数从未返回字典我使用函数的一个主要原因是将函数中的所有内容与代码的其余部分隔离但如果我选择在函
VBA Excel Outlook 电子邮件正文格式

我有自动发送电子邮件的 useform 我想更改电子邮件的正文其中一些将基于带有文本的单元格因此它可以是动态的有些将在代码中修复现在在运行我需要对象的错误我将感谢您的帮助我希望电子邮件正文中的每一行都是分开的 Sub send
Erlang编译器错误

我有以下代码 loop Data gt receive Key Value gt Key Value Data Key gt member Key Data 14 loop Data stop gt io format server sto
在 Snow Leopard 上安装 Mac OS X SDK 10.5

有没有一种简单的方法可以在 Snow Leopard 上安装下载 Mac OS X 10 5 SDK 我通过 Mac App Store 安装了 Xcode 4 0 如果需要的话我也可以从开发者网站下载它但我不知道它是否包含10 5 S
如何定义C结构：c-linkage和udt

我有用 C ABI 接口用 X 语言编写的 dll 我想在我的 C 程序中使用这个 C ABI 我在main cpp中写道 extern C struct Foo const char const data unsigned len str
如何在 Jenkins WEB GUI 中显示生成的 trx 文件？

我有一堆测试结果文件 trx 在目录中构建完成后TestResults 是否可以在 Jenkins 中显示这些测试结果如何我尝试了 MSTest Jenkins 插件但它只允许一个trx每个作业的文件 trx文件在每次构建后生成并以
初始化 log4j 文件时出现异常

当尝试从配置文件初始化 hibernate 时我得到 NullPointerException 根本原因如图所示 Caused by org apache commons logging LogConfigurationException
为什么Tomcat需要安装JDK？ [复制]

这个问题在这里已经有答案了据我所知 JRE是运行时 JDK是用于Java代码的开发但在生产中的 Tomcat 服务器上将无法开发 Java 应用程序所以我的问题是为什么我们不能只安装 JRE 来运行 Tomcat 为什么运行 To
Ruby on Rails 3 中的类方法 — 我完全迷失了！

背景here http www railway at 2010 03 09 named scopes are dead 在上面的链接中给出了以下示例 class lt lt self def by author author where
为什么 OpenJDK 将私有方法放入 vtable 中？

看起来开放JDK 8 http hg openjdk java net jdk8 jdk8 hotspot file 87ee5ee27509 src share vm oops klassVtable cpp l575放置非私有方法fin
如何在 Delphi 7 中的文件中保存 UTF-16（Little Endian）和字符串值？

我想将编辑框中的值和 UTF 16 Little Endian 值保存在文件中我将举一个简单的例子来更好地理解我的问题 Edit Box Value gt Good Hex value FFFEFF15410042004300 which
如何将环境变量添加到 Azure Devops 管道中

我正在为 Node 应用程序设置 Azure 管道并使用 Jest 来测试 API 和集成源代码位于 Azure DevOps 上代码部署在 Azure 门户中当我运行测试时它在管道中失败因为 env 从未在远程存储库中检查环
在 C++ 中将 HTTP 响应正文与标头分离

我目前正在为某个项目编写自己的 C HTTP 类我正在尝试找到一种方法将响应正文与标头分开因为这是我需要返回的唯一部分如果您不熟悉这里是原始 http 标头的示例 HTTP 1 1 200 OK Server nginx 0 7 6
如何对不同形状使用同一组修改器

作为我学习 SwiftUI 项目的一部分我做了一些形状旋转下面有代码我想知道如何避免每个形状使用相同的三行修饰符 func getShape shape Int i Int gt AnyView switch shape case 0
为什么当我“使用”BinaryReader 对象时我的 FileStream 对象被释放？

考虑以下函数 private int GetSomethingFromFile FileStream fs using BinaryReader br new BinaryReader fs fs Seek 0 SeekOrigin Beg
线程和多处理模块之间有什么区别？

我正在学习如何使用threading和multiprocessingPython 中的模块可并行运行某些操作并加速我的代码我发现这很难也许是因为我没有任何理论背景来理解threading Thread 对象和一个multiproces
如何检查可见 DOM 中是否存在元素？

如何在不使用getElementById method 我已经设置了一个现场演示 http jsbin com apawi5 3以供参考我还将在这里打印代码
如何在 python 中实现“#ifdef”？

编程于C我曾经有代码部分仅用于调试目的记录命令等通过使用这些语句可以完全禁用生产 ifdef预处理器指令如下所示 ifdef MACRO controlled text endif MACRO 做类似事情的最好方法是什么python
神经网络立即过拟合

我有一个带有 2 个隐藏层的 FFNN 用于几乎立即过拟合的回归任务 epoch 2 5 取决于个隐藏单元 ReLU Adam MSE 每层相同的隐藏单元数 tf keras 32 个神经元 128 个神经元我将调整隐藏单元的数量但为

神经网络立即过拟合

神经网络立即过拟合 的相关文章

随机推荐

热门标签

神经网络立即过拟合的相关文章