(Note)优化器Adam的学习率设置

2023-05-16

记录一下知乎看到的问题:Adam的学习率设置

常用的神经网络优化器Adam的自适应学习率并不是真正意义上的自适应。

从统计的角度看,Adam的自适应原理也是根据统计对梯度进行修正,但依然离不开前面设置的学习率。如果学习率设置的过大,则会导致模型发散,造成收敛较慢或陷入局部最小值点,因为过大的学习率会在优化过程中跳过最优解或次优解。按照经验,一开始并不会设置过大的学习率,而是需要根据不同的任务进行选择。通常默认的学习率设置为1e-3。

同时神经网络的损失函数基本不是凸函数,而梯度下降法这些优化方法主要针对的是凸函数,所以在优化方面深度学习的学习率会设置的比传统机器学习小得多。如果学习率设置过高,Adam优化器只会矫正梯度,而不会影响设置的初始学习率,这时模型的Loss会出现较大的波动,这代表模型没有办法收敛。

  1. 相对于SGD来说,Adam的lr更加统一。

即不同的task可以用一个相同的lr去调节,通用性更强;

  1. learning rate decay很重要。

即使按照paper里面的原理,lr可自动学习已无需调整,但是下降一次之后效能依然有大幅提升;

  1. lr的decay影响远远不如SGD。

一般来说SGD在CV问题有两次lr下降,每一次的提升都较为可观,但是Adam在第一次的之后后续的影响微乎其微。这一点甚至在multi-scale的长周期训练中,Adam还不如SGD;

Reference:

https://www.zhihu.com/question/387050717

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

(Note)优化器Adam的学习率设置 的相关文章

随机推荐

  • 常用数据集网盘免费下载(转载)

    List item 遥感影像库 链接 xff1a https pan baidu com s 1bGLRZo 密码 xff1a ic0t facebook大数据 链接 xff1a https pan baidu com s 1geGBLb9
  • C++连接MySQL 操作的封装

    以前写过一篇 c 43 43 连接mysql 的博客 xff0c 每次都要写类来封装数据库的操作函数 xff0c 参考一位大佬的封装 xff0c 不说了 xff0c 直接上代码 xff1a 头文件如下 xff1a pragma once i
  • C++11 线程池的使用

    本文主要介绍C 43 43 中线程池的实现以及C 43 43 11中新特性 仿函数 线程 互斥量 原子 条件变量等 的使用 xff0c 最终会实现一个简易的线程池 xff0c 可支持传参不传参等任务 目录 一 线程池的用途 1 线程池的作用
  • ubuntu 首次安装后配置开发环境

    目录 1 配置root 密码 2 安装SSH 3 安装网络 4 安装和配置 vim 5 配置C 43 43 开发环境 6 安装代码管理工具 git 6 1 配置邮箱和用户名 7 多用户与图形界面切换 1 配置root 密码 sudo pas
  • window11 无法切换输入法打印不出汉字问题修改

    1 xff09 按 WINDOW 43 R 键启动cmd 窗口 2 xff09 在cmd窗口中输入 services msc 启动服务窗口 3 xff09 找到 TextInputManagementService xff0c 开启即可
  • 在c++中字符串复制与内存复制之间的区别

    1 编程实现strcpy函数 字符串复制的实现 原型char strcpy char strdest const char strSrc 对于上述代码 xff0c 为什么要用char 类型呢 xff1f 为了能够链式表达式 2 内存复制函数
  • static静态变量与普通变量的区别

    1 static全局变量与普通全局变量的区别 全局变量的说明之前再加上static就构成静态全局变量 全局变量本身就是静态存储方式 xff0c 静态全局变量当然也是静态存储方式 这两者在存储方式上没有区别 区别在于 xff0c 非静态全局变
  • VS2013与数据库mysql8.0的连接

    1 准备 xff1a vs2013 mysql 8 0 1 1首先我们到官网上下载mysql 下载完成后解压 xff0c 安装 vs2013下载解压安装 2 我们打开安装后的mysql文件夹 我们一会要重点用到 include 和lib 所
  • 用VS2013中MFC开发视频播放器

    1 搭建开发环境 1 1 vs2013网上有许多软件可以自行下载或者 vs2013的安装包 有需要的留言我给发 1 2 搭建DirectShow开发环境 我参考的书上说要自己下一个DriectShow xff0c 但是我下载了好多次 xff
  • 用VS2013中MFC开发视频播放器(2)

    上一个博客我写了做视频播放器的环境搭建 xff0c 没写完这个项目 xff0c 所以今天在把它详细的写一遍流程 xff0c 介绍一下这个项目的编写 1 需求分析 xff1b 要求开发播放器系统能够播放媒体文件 xff0c 而且还可以进行播放
  • 基于正点原子探索者使用STM32CubeMX+FreeRTOS+LWIP

    开发板是使用正点原子的探索者为例 xff0c PHY芯片可以是LAN8720A和IP101GR xff0c 因为有两份代码参考 xff0c 一份是LAN8720A xff0c 一份是IP101GR 首先第一步 xff1a 我们使用移植好的功
  • C++笔试中遇到的问题

    1 sizeof与strlen的区别 xff1f 答 xff1a sizeof是操作符 xff0c 分配的数组实际所占的内存空间大小 xff0c 不受里面存储内容的影响 strlen是函数 xff0c strlen计算字符串的长度 xff0
  • CRC计算的简单原理及代码实现(python)

    目录 多项式的获取 CRC计算的示例图 示例代码 多项式的获取 举例如下 xff08 其余的多项式依次类推即可 xff09 xff1a 故最终多项式获取的参与异或计算的数据为 xff1a 1011 CRC计算的示例图 假设原始数据为 xff
  • 深度学习训练数据中的特征重要性排名

    查看神经网络模型特征重要性的思路 xff1a 依次变动各个特征 xff0c 通过模型最终预测的结果来衡量特征的重要性 神经网络特征重要性的获取步骤如下 xff1a 训练一个神经网络模型 xff1b 每次对一个特征列进行随机shuffle x
  • (笔记)Python import 其他路径下的文件

    一般情况下 xff0c 如果要import的文件和被import的文件位于同一路径下 xff0c 可以使用 xff1a import 文件名 的方式直接进行引用 但如果这两个文件不在同一路径下 xff0c 就需要在被import的文件路径下
  • (Note)Python osgeo&shapefile库的安装

    1 shapefile anaconda xff1a conda install pyshp pip xff1a pip install pyshpe 2 osgeo 进入Link xff1a https www lfd uci edu g
  • (Note)Python 统计列表中各元素出现的次数

    演示列表 xff1a Demo list 61 1 2 3 3 3 5 6 2 2 0 4 5 2 7 8 4 5 1 3 9 8 7 1 统计列表中不同元素的个数 Demo list 61 1 2 3 3 3 5 6 2 2 0 4 5
  • (Note)海韵&海韵代工的电源-风扇智能启停按钮

    海韵是电源四大厂之一 xff0c 旗下有众多型号的电源 其中 xff0c 部分电源的后部会有一个方形的按钮 xff08 在电源开关左侧 xff09 如图所示 xff1a 这是海韵FOCUS 43 电源特有的 34 HYBRIDMOOE 34
  • (Note)七彩虹30系列显卡——《一键超频》按键

    七彩虹部分30系高端显卡提供了一键超频功能 xff0c 通过按下超频按钮可以实现显卡一键超频 七彩虹显卡的一键超频按钮使用方法 xff1a 按下超频 xff0c 弹起默认 切换需要重启电脑 xff01
  • (Note)优化器Adam的学习率设置

    记录一下知乎看到的问题 xff1a Adam的学习率设置 常用的神经网络优化器Adam的自适应学习率并不是真正意义上的自适应 从统计的角度看 xff0c Adam的自适应原理也是根据统计对梯度进行修正 xff0c 但依然离不开前面设置的学习