随着批量大小的变化，学习率应该如何变化？ [关闭]

2024-03-06

当我增加/减少 SGD 中使用的小批量的批量大小时，我应该更改学习率吗？如果是这样，那又如何呢？

作为参考，我和某人讨论过，据说当batch size增加时，学习率应该有一定程度的降低。

我的理解是，当我增加批量大小时，计算出的平均梯度的噪音会更少，因此我要么保持相同的学习率，要么增加它。

另外，如果我使用自适应学习率优化器，例如 Adam 或 RMSProp，那么我想我可以保持学习率不变。

如果我错了，请纠正我，并就此提供任何见解。

理论表明，当将批量大小乘以 k 时，应该将学习率乘以 sqrt(k) 以保持梯度期望的方差恒定。请参阅第 5 页：A·克里热夫斯基。并行化卷积神经网络的一种奇怪技巧: https://arxiv.org/abs/1404.5997 https://arxiv.org/abs/1404.5997

然而，最近对大型小批量的实验建议采用更简单的线性缩放规则，即在使用 kN 的小批量大小时将学习率乘以 k。看P.Goyal 等人：准确、大型小批量 SGD：1 小时内训练 ImageNet https://arxiv.org/abs/1706.02677 https://arxiv.org/abs/1706.02677

我想说，使用 Adam、Adagrad 和其他自适应优化器，如果批量大小没有大幅变化，学习率可能保持不变。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

deeplearning

随着批量大小的变化，学习率应该如何变化？ [关闭] 的相关文章

在 TensorFlow 中将多个字节读取到单个值中

我尝试以 TensorFlow 中 cifar10 示例中描述的类似方式读取标签 label bytes 2 it was 1 in the original version result key value reader read fil
Caffe，在层中设置自定义权重

I have a network In one place I want to use concat As on this picture 不幸的是该网络无法训练为了理解为什么我想连续改变权重这意味着 FC4096 中的所有值一开始都
如何计算两个字符串向量之间的余弦相似度

我有 2 个维度为 6 的向量我想要一个介于 0 和 1 之间的数字 a c HDa 2Pb 2 BxU BuQ Bve b c HCK 2Pb 2 09 F G 谁能解释我应该做什么使用lsa包和该包的手册 create some f
使用 Keras 的 ImageDataGenerator 预测单个图像

我对深度学习很陌生所以请原谅我这个可能很简单的问题我训练了一个网络来分类positive and negative 为了简化图像生成和拟合过程我使用了ImageDataGenerator和fit generator函数如下图 imp
如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？

我开发了一个用于多标签分类的文本模型这OneVsRest分类器 http scikit learn org stable modules generated sklearn multiclass OneVsRestClassifier h
PyTorch 中的连接张量

我有一个张量叫做data形状的 128 4 150 150 其中 128 是批量大小 4 是通道数最后 2 个维度是高度和宽度我有另一个张量叫做fake形状的 128 1 150 150 我想放弃最后一个list array从第 2 维
当我想在电脑中加载该模型时，我可以在 colab bu 中加载我的深度模型，但我不能

我在colab中通过keras 2 3 1和tensorflow 2 1 0训练了一个深度模型我用JSON和Keras保存了我的模型 saveWeightPath content drive My Drive model info mod
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
PyTorch 中的交叉熵

交叉熵公式但为什么下面给出loss 0 7437代替loss 0 since 1 log 1 0 import torch import torch nn as nn from torch autograd import Variable
使用sklearn进行多标签特征选择

我希望使用 sklearn 对多标签数据集执行特征选择我想要获得最终的功能集across标签然后我将在另一个机器学习包中使用它我打算使用我看到的方法here https stackoverflow com questions 1640
随机森林修剪

我有 sklearn 随机森林回归器它非常重有 1 6 GB 并且在预测值时工作很长时间我想把它修剪一下让它变得更轻据我所知决策树和森林没有实施修剪我无法自己实现它因为树代码是用 C 编写的而我不知道有谁知道解决方案吗
如何组织循环神经网络？

我想模拟以下内容 y t F x t 1 x t 2 x t k 或者说一个函数其当前输出取决于最后 k 个输入 1 我知道一种方法是使用一个经典的神经网络其中 k 个输入为 x t 1 x t 2 x t k 对于每个y t 并训练它
将索引数组转换为 NumPy 中的 one-hot 编码数组

给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列即a max 1 然后对于每一行i 设置a i 第列至1 gt
如何使用 pytorch 同时迭代两个数据加载器？

我正在尝试实现一个接收两张图像的暹罗网络我加载这些图像并创建两个单独的数据加载器在我的循环中我想同时遍历两个数据加载器以便我可以在两个图像上训练网络 for i data in enumerate zip dataloaders1
mlflow 如何使用自定义转换器保存 sklearn 管道？

我正在尝试使用 mlflow 保存 sklearn 机器学习模型这是一个包含我定义的自定义转换器的管道并将其加载到另一个项目中我的自定义转换器继承自 BaseEstimator 和 TransformerMixin 假设我有 2 个项
Caffe 的 LSTM 模块

有谁知道 Caffe 是否有一个不错的 LSTM 模块我从 russel91 的 github 帐户中找到了一个但显然包含示例和解释的网页消失了以前是http apollo deepmatter io http apollo deep
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过
神经网络不能立即重现？

通过使用反向传播导数弹性的前馈神经网络中的随机权重初始化误差图上的初始位置位于某个随机谷的顶部该随机谷可能是也可能不是局部最小值可以使用方法来克服局部最小值但假设这些方法没有被使用或者在给定的地形上不能很好地工作那么神经网络
神经网络中的时间序列提前预测（N点提前预测）大规模迭代训练

N 90 使用神经网络进行提前预测我试图预测提前 3 分钟即提前 180 点因为我将时间序列数据压缩为每 2 个点的平均值为 1 所以我必须预测 N 90 超前预测我的时间序列数据以秒为单位给出值在 30 90 之间它们通常从
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1

随机推荐

在 React Native 和 Android 之间共享 Realm 实例

我正在开发一个 React Native 项目该项目使用 Realm for React Native 它工作没有问题但现在我面临着编写使用相同 Realm 实例的 Android 服务的问题这可能吗我该怎么做我认为你可以通过以
如何在 C# 中的泛型类型参数中使用 Switch...Case？

我有一堂课正在使用Generic Type Parameter动态地使用它现在我正在使用if else这与我的自定义类配合得很好我想知道我是否可以使用switch case here 如果数据类型是decimal or int那么我可
在create-react-app中添加git信息

在开发中我希望能够从网络上查看构建信息 git 提交哈希作者最后提交消息等我努力了使用child process执行git命令行并读取结果由于浏览器环境不起作用期间生成 buildInfo txt 文件npm build并从
Google App Engine - 请求在等待太长时间后被中止，无法尝试满足您的请求

我有时会收到此错误等待后请求也被中止很长时间尝试为您服务要求这很可能表明你已经达到了你的同时动态请求限制这几乎总是由于您的应用程序中的延迟过高请参见http code google com appengine docs q
外部调用UI按钮

回答结果可以在这里看到 http apitecture com dev cked index 2 html http apitecture com dev cked index 2 html 工作代码摘录 a color on click
无法推断此地图的类型

我一直在尝试定义类型TESTS打字稿中的对象如下但仍然无法弄清楚任何内容如果有人知道它的类型是什么并且向我解释一下因为我刚刚开始使用那将非常有帮助ts 这是我正在谈论的对象 const TESTS reminderEmail ne
OSError: [WinError 10013] 尝试以访问权限禁止的方式访问套接字

我正在尝试使用 Huey 作为跨平台任务队列我发现了https github com pjcunningham flask huey example https github com pjcunningham flask huey exa
Python 错误 - IDLE 的子进程未建立连接。 IDLE 无法启动或个人防火墙软件阻止连接

我是编程新手我决定先学习 Python 所以我安装了Python 最新版本3 4 我正在尝试打开Python IDLE GUI 模式所以当我打开时我收到消息 IDLE的子进程没有建立连接 IDLE无法启动或个人防火墙软件正在阻止连接
如何将 Spring AbstractRoutingDataSource 与动态数据源一起使用？

我正在使用 Spring Spring Data JPA Spring Security Primefaces 的项目我正在关注本教程 http spring io blog 2007 01 23 dynamic datasource r
Python：为控制台打印编写单元测试

功能foo打印到控制台我想测试控制台打印我怎样才能在Python中实现这一点需要测试这个函数没有 return 语句 def foo inStr print hi inStr 我的测试 def test foo cmdProcess
文本到 Div 底部

有什么方法可以将div的内容文本放到它的底部吗这里我准备了一个例子 http jsfiddle net JGuP7 http jsfiddle net JGuP7 这是示例层次结构 div class button Button Labe
如何通过在邮件内容中插入html来使用php发送邮件？ [复制]

这个问题在这里已经有答案了如何通过在邮件内容中插入html来使用php发送邮件我尝试在内部插入html代码 message 当我测试时显示错误像这样Parse error syntax error unexpected margin
用于解析属性中所有 IDREFS 的 XPath 查询（可能包含许多 ID）

我需要提出一个查询给出未售出商品类型的产品这意味着如果商品属于服装类型并且交易列表中没有出现服装商品我需要显示它这是我的 XML 文件对超级加拿大风格表示歉意
如何从字节创建 numpy ndarray？

我可以使用将 numpy ndarray 转换为字节myndarray tobytes 现在我怎样才能把它恢复到 ndarray 呢使用来自的示例 tobytes 方法文档 gt gt gt x np array 0 1 2 3 gt g
使用 getFieldValue() 保存多种表单中的数据

我尝试保存 2 个表单中的数据 Main and SubForm using getFieldValue 这里应该出现两个表单数据 const save gt console log myRef current getFieldValue
为什么使用片段，何时使用片段而不是活动？

在 Android API 11 中 Google 发布了一个新类名为Fragment 在视频中谷歌建议只要有可能 link1 https www youtube com watch v WGIU2JX1U5Y link2 https
时态数据库建模和标准化

时态数据库的日期应该存储在一张还是两张表中如果这不违反规范化 PERSON1 DATE11 DATE21 INFO11 INFO21 DEPRECATED PERSON2 DATE21 DATE22 INFO21 INFO22 CURRE
Watch OS 应用程序无法与 iOS 应用程序连接

我正在尝试将我的 Watch OS 应用程序与 iOS 应用程序连接并获取一些数据但当我尝试与 iOS 应用程序连接时出现以下错误 WC 28 WCSession activateSession block invoke 2 sessio
Java 摆动范围滑块 U.I

我需要一个带有两个旋钮的滑块代表一个范围我发现了这个漂亮的滑块here http blog limewire org p 340 然而他们创建了自己的用户界面它扩展了Java的基本滑块UI http java sun com j2s
随着批量大小的变化，学习率应该如何变化？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案当我增加减少 SGD 中使用的小批量的批量大小时我应该更改学习率吗如果是这样那又如何呢作为参考我和某人讨论过据说当batch

随着批量大小的变化，学习率应该如何变化？ [关闭]

随着批量大小的变化，学习率应该如何变化？ [关闭] 的相关文章

随机推荐

热门标签