为什么epoch太多会导致过拟合？

2023-12-23

我正在阅读《Python 深度学习》一书。读完第 4 章“对抗过度拟合”后，我有两个问题。

为什么增加纪元数可能会导致过度拟合？我知道增加纪元数将涉及更多的梯度下降尝试，这会导致过度拟合吗？
在对抗过拟合的过程中，准确率会降低吗？

我不确定您正在阅读哪本书，因此在我具体回答问题之前，一些背景信息可能会有所帮助。

首先，增加 epoch 的数量并不一定会导致过度拟合，但肯定会导致过度拟合。如果学习率和模型参数都很小，可能需要很多epoch才会导致可测量的过拟合。也就是说，进行更多培训是很常见的。

为了正确看待这个问题，重要的是要记住，我们最常使用神经网络来构建可用于预测的模型（例如，预测图像是否包含特定对象或下一个时间步骤中变量的值是多少））。

我们通过迭代调整权重和偏差来构建模型，以便网络可以充当在输入数据和预测输出之间进行转换的函数。我们出于多种原因转向此类模型，通常是因为我们不知道函数是什么/应该是什么，或者函数太复杂而无法进行分析开发。为了使网络能够对如此复杂的功能进行建模，它本身必须能够高度复杂。虽然这种复杂性很强大，但也很危险！该模型可能变得非常复杂，以至于它可以非常精确地有效记住训练数据，但随后无法充当适用于训练集之外的数据的有效通用函数。 IE。它可能会过度拟合。

你可以把它想象成有点像某人（模型）通过一遍又一遍地烘焙水果蛋糕（训练数据）来学习烘焙——很快他们就能够在不使用食谱的情况下烘焙出美味的水果蛋糕（训练），但他们可能无法很好地烘烤海绵蛋糕（未见过的数据）。

回到神经网络！由于神经网络过度拟合的风险很高，因此深度学习工程师可以使用许多工具和技巧来防止过度拟合，例如使用 dropout。这些工具和技巧统称为“正则化”。

这就是为什么我们使用涉及测试数据集的开发和训练策略——我们假装测试数据是看不见的，并在训练期间对其进行监控。您可以在下图中看到这样的示例（形象信用 https://commons.wikimedia.org/wiki/File:2d-epochs-overfitting.svg）。大约 50 个 epoch 后，随着模型开始“记忆训练集”，测试误差开始增加，尽管训练误差仍保持在最小值（通常训练误差会继续改善）。

所以，回答你的问题：

允许模型继续训练（即更多时期）会增加权重和偏差被调整到模型在未见过的（或测试/验证）数据上表现不佳的风险。该模型现在只是“记住训练集”。
持续的 epoch 很可能会提高训练的准确性，但这并不一定意味着模型根据新数据做出的预测会准确——通常情况下它实际上会变得更糟。为了防止这种情况，我们使用测试数据集并在训练期间监控测试准确性。这使我们能够就模型对于未见过的数据是否变得更加准确做出更明智的决定。

我们可以使用一种称为提前停止，一旦测试精度在少数时期后停止提高，我们就停止训练模型。早期停止可以被认为是另一种正则化技术。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

gradientdescent

为什么epoch太多会导致过拟合？的相关文章

Python Sci-Kit 学习：多标签分类 ValueError：无法将字符串转换为浮点数：

我正在尝试使用 scikit learn 0 17 进行多标签分类我的数据看起来像 training Col1 Col2 asd dfgfg 1 2 3 poioi oiopiop 4 test Col1 asdas gwergwger
VotingClassifier：不同的功能集

在我的例子中我有两个不同的功能集因此行数相同且标签相同 DataFrames df1 A B C 1 4 2 1 4 8 2 1 1 2 3 0 3 2 5 df2 E F 6 1 1 3 8 1 2 8 5 2 labels lab
梯度下降Matlab实现

我已经浏览了堆栈溢出中的许多代码并在同一行上编写了自己的代码这段代码有一些问题我无法理解我正在存储值 theta1 和 theta 2 以及用于分析目的的成本函数 x 和 Y 的数据可以从此下载页它具有 dat 文件形式的 x 和
如何更新反卷积层的权重？

我正在尝试开发一个反卷积层或者准确地说是转置卷积层在前向传递中我进行了完全卷积零填充卷积在向后传递中我进行有效的卷积没有填充的卷积以将错误传递到前一层偏差的梯度很容易计算只需对多余维度进行平均即可问题是我不知道如何更新
Xgboost：bst.best_score、bst.best_iteration 和 bst.best_ntree_limit 有什么区别？

当我使用 xgboost 训练我的数据时2 cates classification problem 我想使用提前停止来获得最佳模型但我对在预测中使用哪一个模型感到困惑因为提前停止将返回 3 个不同的选择例如我应该使用 preds
检查输入时出错：预期 conv2d_1_input 有 4 个维度，但得到形状为 (800, 1000) 的数组

我正在尝试使用 CNN 进行情感分析我的代码我的数据具有 1000 1000 形状当我将数据传递给 convolution2D 时它会抛出一个错误我无法解决我尝试了以下解决方案但仍然面临问题在构建 CNN 时我收到 Kera
在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误

我试图通过对 Databricks 中的 pyspark 数据框应用余弦相似度来查找文本列标题标题的相似性我的函数称为 cosine sim udf 为了能够使用它我必须进行第一次 udf 转换将函数应用于 df 后出现查找错误
Q-learning 和价值迭代有什么区别？

Q learning 与强化学习中的值迭代有何不同我知道 Q learning 是无模型的训练样本是过渡 s a s r 但是既然我们知道 Q 学习中的转换和每个转换的奖励那么它与基于模型的学习不一样吗在基于模型的学习中我们知道
带有 TF 后端的 Keras：获取输出相对于输入的梯度

我有一个非常简单的 Keras MLP 并且我正在尝试获取输出相对于输入的梯度我正在使用以下代码 regressor Sequential Dense 32 input shape n features activation relu D
Keras 自定义损失函数：访问当前输入模式

在 Keras 带有 Tensorflow 后端中当前输入模式可用于我的自定义损失函数吗当前输入模式被定义为用于产生预测的输入向量例如请考虑以下情况 X train X test y train y test train test
Scikit-learn 具有使用“特征”的自定义评分函数

我正在尝试使用一种名为 SERA 平方误差相关区域的新指标作为本文中提到的不平衡回归的自定义评分函数 https link springer com article 10 1007 s10994 020 05900 9 https lin
Caffe，在层中设置自定义权重

I have a network In one place I want to use concat As on this picture 不幸的是该网络无法训练为了理解为什么我想连续改变权重这意味着 FC4096 中的所有值一开始都
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
scikit-learn RandomForestClassifier 中的子样本大小

如何控制用于训练森林中每棵树的子样本的大小根据 scikit learn 的文档随机森林是一种适合许多决策的元估计器数据集的各个子样本上的树分类器并使用平均以提高预测准确性并控制过度拟合子样本大小始终与原始输入样本相同大小但如
Keras 中的损失函数和度量有什么区别？ [复制]

这个问题在这里已经有答案了我不清楚 Keras 中损失函数和指标之间的区别该文档对我没有帮助损失函数用于优化您的模型这是优化器将最小化的函数指标用于判断模型的性能这仅供您查看与优化过程无关
将索引数组转换为 NumPy 中的 one-hot 编码数组

给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列即a max 1 然后对于每一行i 设置a i 第列至1 gt
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过
McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
如何重现 Ridge(normalize=True) 的行为？

这段代码 from sklearn pipeline import make pipeline from sklearn preprocessing import StandardScaler from sklearn linear mod
为什么LeNet5使用32×32图像作为输入？

我知道mnist数据集中的手写数字图像是28 28 但是为什么LeNet5中的输入是32 32 您的问题已在原纸 http yann lecun com exdb publis pdf lecun 98 pdf 卷积步骤始终采用比前一层的特

随机推荐

std::regex -- 是否有一些需要链接的库？

我收到以下代码的链接器错误 include
如何在 Ruby 中输出尾随零？ [复制]

这个问题在这里已经有答案了请考虑以下代码 class Book def initialize price price price end def book price puts Price price end end book1 Book
点击隐藏选项卡时谷歌地图部分加载

我使用 2 个选项卡第一个用于显示列表另一个用于显示地图第一次加载页面时默认显示 1 个选项卡单击第二个选项卡时显示地图但是当我单击列表选项卡并再次单击地图选项卡时地图部分加载这是我的 JAVASCRIPT 代码 docum
Visual Studio 参考和平台之间的冲突

自从我将 C ASP Net 项目的目标框架升级到 4 6 1 后我在构建过程中收到了很多冲突警告 50 多条消息例如考虑将程序集 System Runtime InteropServices RuntimeInformation C
将 WHERE IN 子句添加到 JPA 规范

我正在尝试实现受 IN 子句限制的搜索功能我想实现具有过滤器限制的搜索实现 GetMapping find public Page
pandas dataframe滚动窗口与groupby

我可以添加一个新列c这是最后两个值的总和b如下所示 df c df b rolling window 2 sum shift df a b c 0 1 3 NaN 1 1 0 NaN 2 0 6 3 0 3 1 0 6 0 4 0 0 6
计算每个类别列的出现次数

我正在尝试计算每个 SNP 名称的 iets 列中 Opp 的出现次数最终我想将 Opp 的出现次数除以 df MM library data table df lt structure list SNP structure c 1L 1
在 R markdown 中混合文本和引用

是否可以在 R markdown 文档中混合常规文本和引用使它们看起来如下作者 2018 方法目前我已经尝试过 Author2018 Methods 这使 Author 2018 Methods 和 Author2018 Metho
ZF + 原则 2：重型模型类还是轻量级模型 + 服务层？

我正在整合Zend框架 and 学说2 我正在发现服务层现在我明白我错了吗我有两种可能的架构 A model 其中类包含域逻辑即属性 getter setter 复杂方法 A 轻量化模型其中类包含属性 getters setter
如何将 Lua 与 .Net 集成

要求是用户应该能够在文本框中添加 Lua 脚本然后我需要检查用户是否添加了正确的 Lua 脚本如果脚本正确那么我需要运行该脚本有人可以建议我一些代码吗我尝试了以下操作 using Lua state new Lua state D
viewWillAppear 期间静态 UITableViewCell 更改未反映在显示中

我正在使用一些静态UITableViewCell在情节提要中配置为显示一些设置信息如果关闭其他设置之一则应禁用其他一些单元格为了使细胞进入适当的状态在viewWillAppear我从 NSUserDefaults 读取设置然后相应
需要写入 Program File 文件夹的自更新 .NET 客户端应用程序

如同如果路径受保护请请求 Windows Vista UAC 提升 https stackoverflow com questions 17533 request vista uac elevation if path is prote
将列数据映射到值 (Oracle)

我有一个 Oracle 数据库并且有一个名为Car 我可以选择Mileage像这样的汽车 SELECT MILEAGE FROM CAR 这给了我 100 500 1000 etc 但是我希望 1000 以上的值标记为High其余的为L
如何在spaCy中强制使用某个标签？

我正在使用 spaCy 3 0 0rc2 与定制模型不幸的是我的训练数据的连字符较少因此连字符经常被标记为NOUN 有什么方法可以强制某些tag or pos 以确保all the 令牌被标记为PUNCT 基本上我正在寻找一个像在这
如何处理 AOSP 存储库同步上的curl clone.bundle 错误

从 AOSP 下载 master 分支后出现以下错误 curl 22 The requested URL returned error 404 Not Found Server does not provide clone bundle
如何使用机器人框架在多个 Facebook 页面上使用同一个机器人

我有几个 Facebook 页面我想在每个页面上运行相同的机器人我正在使用机器人框架现在一页的一切都完美运行如何关联多个页面当您调用 Facebook Send API 时您通过access token范围您可以通过修改此访问
递归调用函数对象

如何从函数对象内部调用函数对象看来我不能使用this 例子 class factorial public int operator int n if n 0 return 1 return n n 1 我该放在什么地方 include
对于如何使用 VB.NET 在 ASP.NET 中创建按钮单击事件，为什么选择私有与受保护？

我从来没有认真思考过一些事情但我很好奇并且想了解实际的推理在 ASP NET 中使用VB NET 您可以通过 2 种不同的方式定义连接按钮单击事件到 ASP NET 服务器控件出于本次对话的目的通过按钮属性手动连接这里不讨论双
Mongoose 聚合 $match 与 ids 不匹配

我想按 ids 显示产品 56e641d4864e5b780bb992c6 and 56e65504a323ee0812e511f2 并显示减去折扣后的价格如果有我可以使用聚合来计算最终价格但这会返回集合中的所有文档如何使其仅返回匹
为什么epoch太多会导致过拟合？

我正在阅读 Python 深度学习一书读完第 4 章对抗过度拟合后我有两个问题为什么增加纪元数可能会导致过度拟合我知道增加纪元数将涉及更多的梯度下降尝试这会导致过度拟合吗在对抗过拟合的过程中准确率会降低吗我不确定您正在

为什么epoch太多会导致过拟合？

为什么epoch太多会导致过拟合？ 的相关文章

随机推荐

热门标签

为什么epoch太多会导致过拟合？的相关文章