梯度下降方法中的学习率(learning rate), 衰减因子(decay) 冲量(momentum)

2023-05-16

本文总结自如下两个链接的内容，建议读者直接阅读链接中的文章

1. https://www.jianshu.com/p/58b3fe300ecb

2. https://www.jianshu.com/p/d8222a84613c

学习率

学习率 lr(learning rate), 梯度下降算法中迭代步长。假设待优化函数为func(x), dx为函数对变量x的导数，即下降方向。每次x的迭代公式为：

x = x + -lr*dx

lr一般不宜过大， lr过大时，迭代过程会出现震荡现象(图1右)

图1. (图片来源于https://www.jianshu.com/p/d8222a84613c)

衰减(decay)

从图1还可得知，随着迭代过程的继续，学习率应当适当减小，这样才能更稳妥地到达极值点。这种想法就是通过权重衰减因子实现的。

lr_i = lr_start * 1.0 / (1.0 + decay * i)

x = x - lr_i*dx

上式中 i 为迭代周期，如epoch; lr_start是lr的初始值; decay为衰减因子，取值范围[0,1]. 随着 i 的增加，学习率逐渐减小.

图2. (图片来源于https://www.jianshu.com/p/d8222a84613c)

图2 是lr=0.9, decay分别为0, 0.01, 0.5, 0.9时优化迭代示意图。从图中可以看出，decay=0时，震荡很厉害，而decay的引入会减缓震荡。

冲量(momentum)

从上面的分析以及图示还可知，随着迭代的进行，学习率lr慢慢减小，后期的迭代过程会非常缓慢。而冲量可以较好地解决这一问题。冲量的理念来源于物理过程。例如，快速行驶的汽车即使踩死刹车，车也不会立刻停下，仍然会向前行驶一段距离，这是因为前一时刻车速依然不为0导致的。换言之，前一刻车的运行状态对此刻是有影响的。

冲量也可以这样理解。在迭代过程中，考虑前一次迭代对本次迭代的影响

x = x - lr*dx + v * momentum

其中，v = - lr*dx, 但dx是上一次迭代对x的导数。momentum取值范围[0, 1].

图3 (图片来源于https://www.jianshu.com/p/58b3fe300ecb)

图3 是lr=0.1, momentum分别为0, 0.1, 0.5, 0.9时的优化示意图。从图中可以看出冲量的增加能加速迭代过程，但若momentum过大，则可能使迭代出现增长的现象(图3右)。

上述图片内容若侵犯作者权益，请留言通知我。我会尽快删除。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Learning

rate

decay

Momentum

梯度下降方法中的学习率

梯度下降方法中的学习率(learning rate), 衰减因子(decay) 冲量(momentum) 的相关文章

使用动量(Momentum)的SGD、使用Nesterov动量的SGD

使用动量 Momentum 的SGD 使用Nesterov动量的SGD 参考 xff1a 使用动量 Momentum 的SGD 使用Nesterov动量的SGD 一使用动量 Momentum 的随机梯度下降虽然随机梯度下降是非常受欢迎的
Meta-learning：Learn to learn

基于李宏毅教授的ML课程做的笔记 xff0c 主要供自己复习 xff0c 所以就留下了一些自己想多看的东西 xff0c b站有全面的课程视频引言 xff1a 为什么few shot任务常常提及元学习meta learning xff1f
浅谈 few-shot learning和meta-learning的区别

Few shot learning和meta learning都是机器学习中的一类问题 xff0c 但它们有一些不同之处 Few shot learning 是指在面对新任务时 xff0c 只有很少的样本可供学习在这种情况下 xff0c
【CAM】Learning Deep Features for Discriminative Localization

论文链接 github Abstract 1 Introduction CNN能保留位置信息 xff0c 但经过用于分类的全连接神经网络时会丢失位置信息最近的NIN和GoogLeNet使用全卷积网络避免使用全连接层 xff0c 来减少参
[翻译]Learning Deep Features for Discriminative Localization

英文原文请点这里摘要在这项工作中 xff0c 我们重新审视了 Network in network 中提出的全局平均池化层 xff08 global average pooling xff09 xff0c 并阐明了它是如何通过图片标签
浅谈联邦学习Federated Learning

最近人工智能大数据领域的公众号疯狂给我推送联邦学习相关的文章 xff0c 使得本来并不好奇的我 xff0c 有了一丝丝揭开它神秘面纱的冲动公众号的每篇推文写得都很好 xff0c 但同时也十分学术 xff0c 作为刚上路的我 xff0
2017论文阅读：Learning a Rotation Invariant Detector with Rotatable Bounding Box

文章代码已开源文章目录文章贡献1 Rotatable bounding box2 Rotation invariant detection2 1 模型结构总览2 2 模型训练2 3 实现的细节 3 实验 amp 结果文章贡献提出了一
Model-Agnostic Meta-Learning （MAML）模型介绍及算法详解

整理自 xff1a Frank Tian 回答首先 xff0c 我们先从Meta Learning的概念说起原始的机器学习的流程被认为是下面这这样的 xff1a 也就是我们根据我们先验知识设计网络架构和参数初始化方法 xff0c 从Tr
Multi-Center Federated Learning

Multi Center Federated Learning Motivation 现有的联合学习方法通常采用单个全局模型来通过汇总其梯度来捕获所有用户的共享知识 xff0c 而不管其数据分布之间的差异如何但是 xff0c 由于用户行为
Ardupilot速率控制器rate_controller_run解析

Ardupilot速率控制器rate controller run解析 PID速率控制器源码解析rate controller run PID运算积分限制update i get ff set xxx 内容补充 xff1a 函数中陀螺仪数据
Deep Learning 最优化方法之Adam

本文是Deep Learning 之最优化方法系列文章的Adam方法主要参考Deep Learning 一书整个优化系列文章列表 xff1a Deep Learning 之最优化方法 Deep Learning 最优化方法之SGD
自监督学习（self-supervised learning）（20201124）

看论文总是会看出来一堆堆奇奇怪怪的名词从远程监督有监督半监督无监督开始 xff0c 最近又看到了一个自监督首先先对上面的概念进行简述 xff1a 半监督 xff08 semi supervised learning xff09 x
An Introduction on Deep Learning for the Physical Layer

An Introduction on Deep Learning for the Physical Layer 代码实现 xff1a https github com shengjian3476077 DLforPhy 一文章的主要工作
[Machine Learning & Algorithm] 随机森林（Random Forest）

1 什么是随机森林 xff1f 作为新兴起的高度灵活的一种机器学习算法 xff0c 随机森林 xff08 Random Forest xff0c 简称RF xff09 拥有广泛的应用前景 xff0c 从市场营销到医疗保健保险 xff0c
【Paper】Learning to Resize Images for Computer Vision Tasks

From 别魔改网络了 xff0c Google研究员 xff1a 模型精度不高 xff0c 是因为你的Resize方法不够好 xff01 知乎 zhihu com paper 2103 09950v2 pdf arxiv org code
机器学习中的降维与度量学习(reduce dimension and metric learning)

降维与度量学习 k近邻学习 k近邻 k Nearest Neighbor 简称kNN 学习是一种监督学习方法其工作机制为 xff1a 在样本中 xff0c 根据距离度量找出训练集中临近的k个样本 xff0c 基于这k个样本进行预测一般
使用Angular编写用户管理系统前台界面

目录工作准备项目框架功能描述工作准备安装node js node js中包含了npm node v查看node版本 npm v查看npm版本全局安装angular CLI npm install g angular cli ng
使用套接字 tcp c# 计算每秒速度和发送文件的剩余时间

如何计算每秒的速度以及以秒为单位的剩余时间我尝试过使用 void backgroundWorker1 DoWork object sender DoWorkEventArgs e long prevSum 0 while fileTran
如何在 Tensorflow 中量化 tf.Variables 的值

我有一个像这样的训练模型 Y w X b 其中 Y 和 X 是输出和输入占位符 w 和 b 是向量我已经知道w的值只能是0或1 而b仍然是tf float32 当我定义变量 w 时如何量化它的范围 or我可以有两个不同的学习率吗像往常一
提醒用户对应用程序进行评分的警报

正如您可能在某些应用程序中看到的那样会弹出一个警报要求用户在 iTunes 中对应用程序进行评分通常您可以选择的选项如下当然这将打开应用程序的评分页面第二个选项是不谢谢它会关闭警报第三个选项通常是稍后它会稍后显示警报

随机推荐

基于Gensim的Word2Vec增量式训练方法

Word2Vec训练好以后 xff0c 随着时间的积累 xff0c 出现一些新词 xff0c 此时可能需要在已有的模型基础上重新训练 xff0c 以补充这些新词汇 xff0c 亦即增量式训练本文分析了基于Gensim的Word2Vec的增
Numpy/Pytorch中函数参数dim/axis到底怎么用？

numpy或pytorch中很多函数可指定参数dim或axis 例如sum函数 xff0c dim 61 0或dim 61 1是对矩阵列行进行求和 xff0c 时间久了 xff0c 就搞混了 xff0c 如果是高维array tensor
Tensorflow中截断高斯分布(truncated norm)采样的python实现

Tensorflow中可调用函数tf truncated normal来进行截断高斯分布的采样什么是截断高斯分布 xff0c 看下图 xff0c 分布在 0 1和0 1处被截断了 xff0c 具体如下 import tensorflow
tf.contrib.image.transform与opencv中PerspectiveTransform

tensorflow中tf contrib image transform函数可对图像做透视变换 xff0c 用法如下读取图像 img 61 cv2 imread 39 home xp1 Pictures 004545 jpg 39 in
转：模式识别机器学习计算机视觉相关资料论坛网站牛人...

转自 http www cnblogs com kshenf archive 2012 02 07 2342034 html 常用牛人主页链接 xff08 计算机视觉模式识别机器学习相关方向陆续更新 xff09 牛人主页 xff08
李航统计学习方法EM算法三枚硬币例子Q函数推导

具体推导如下 xff1a 上面推导省略了第i次迭代的i的标记当得到上式以后 xff0c 可以参考 http www cnblogs com Determined22 p 5776791 html 来继续一下推导当然 xff0c 参考博客
李航博士-统计学习方法-SVM-python实现

下面的代码是根据李航博士统计学习方法一书写的SVM的实现还有些问题 xff0c 贴出来大家给些建议 usr bin env python2 coding utf 8 34 34 34 Created on Thu Oct 19 16
web客户编程，开发一个注册页面

用html开发一个注册页面 xff0c 检验注册格式是否正确 Register html lt html gt lt head gt lt style type 61 34 text css 34 gt 64 import url Css
windows下GDAL及python接口编译过程注意事项

Window下编译GDAL的方法在网上已经能搜到很多了 xff0c 例如http blog csdn net zhoubl668 article details 6641027 但是在实际操作中还是碰到些问题 xff0c 现在把注意事项写下
Matrix67：什么是P问题、NP问题和NPC问题

前记本想写一篇介绍P xff0c NP xff0c NPC xff0c NP hard问题的文章 xff0c 搜索了一下 xff0c 看到了Matrix67写的这篇 xff1a 什么是P问题 NP问题和NPC问题文章写的非常清晰易懂 x
（转）从CNN到GCN的联系与区别——GCN从入门到精（fang）通（qi）

转载于 xff1a 博客 1 什么是离散卷积 xff1f CNN中卷积发挥什么作用 xff1f 了解GCN之前必须对离散卷积 xff08 或者说CNN中的卷积 xff09 有一个明确的认识 xff1a 如何通俗易懂地解释卷积 xff1f 这
PR&ML之路

先写篇初稿吧 12年读研 xff0c 我初次接触到机器学习模式识别 xff08 PR amp ML xff09 这个方向当时PR amp ML绝对不像今天这么火 xff0c 甚至时至今日 xff0c 大家也只是知道人工智能 xff0c 不
Banach's Fixed Point Theorem（contraction mapping theorem，巴拿赫不动点定理）

先看一下定理描述 xff1a Theorem 1 1 xff1a Let be a complete metric space and be a map such that for some and all and in Then has
Jetson TX2 编译 Pytorch (Wheel)

Nvidia发布了编译好的pytorch版本 xff0c 可自行百度点我 xff0c 最好不要自己编译参考 https gist github com dusty nv ef2b372301c00c0a9d3203e42fd83426 1
matplotlib.pyplot.axis 画faster-rcnn的anchors

参考来源 xff1a https matplotlib org api as gen matplotlib pyplot axis html 心血来潮 xff0c 想用matplotlib画一下faster rcnn中生成的基础anchor
Faster-RCNN解读材料优选

先吐槽一下 xff0c 目前CSDN上的一些关于AI方面的文章都是靠为了蹭热度粗制滥造骗人点进去 xff0c 其实什么有价值的内容也没有 xff0c 浪费大家时间吐槽完毕 1 知乎一文读懂Faster RCNN xff0c 通过此文能
Mark:UFLDL反向传播算法及其检验调试方法——适合自己的才是好的

人工智能机器学习泛滥以前搜不出来 xff0c 现在搜出来的太多找自己想看的都得费半天劲这当然是好的 xff0c 有资料总比没有强但是搞这个方向 xff0c 适合自己的才是好材料太简单 xff0c 你觉得不过瘾 xff0c 太深奥
torch.utils.data.dataloader参数collate_fn简析

torch utils data DataLoader是pytorch提供的数据加载类 xff0c 初始化函数如下 xff0c torch utils data DataLoader dataset batch size 61 1 shuf
软件工程—— 学校人力资源管理系统说明

课程设计内容 1 设计目的人力资源管理系统是事业单位最基本的人事管理系统用户可以通过该系统 xff0c 管理事业单位内部职工的档案进行人事考勤 xff0c 准确无误地记录职工的出勤情况 xff1b 全自动生成职工的工资表 xff0c
梯度下降方法中的学习率(learning rate), 衰减因子(decay) 冲量(momentum)

本文总结自如下两个链接的内容 xff0c 建议读者直接阅读链接中的文章 1 https www jianshu com p 58b3fe300ecb 2 https www jianshu com p d8222a84613c 学习率学习

热门标签