【常见的优化算法介绍】

2023-05-16

常见的优化算法介绍

1. 批量梯度下降算法(batch gradient descent BGD)
每次迭代都需要把所有样本都送入,这样的好处是每次迭代都顾及了全部的样本,做的是全局最优化,但是有可能达到局部最优。

2. 随机梯度下降算法(Stochastic gradient descent SGD)
针对梯度下降算法训练速度过慢的缺点,提出了随机梯度下降算法,随机梯度下降算法算法是从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。

#pytorch中的使用
torch.optim.SGD()

3. 小批量梯度性下降(Mini-batch gradient descent MBGD)
SGD相对来说要快很多,但是也有存在问题,由于单个样本的训练可能会带来很多噪声,使得SGD并不是每次迭代都向着整体最优化方向,因此在刚开始训练时可能收敛得很快,但是训练一段时间后就会变得很慢。在此基础上又提出了小批量梯度下降法,它是每次从样本中随机抽取一小批进行训练,而不是一组,这样即保证了效果又保证的速度。

4.动量法
mini-batch SGD算法虽然这种算法能够带来很好的训练速度,但是在到达最优点的时候并不能够总是真正到达最优点,而是在最优点附近徘徊。

另一个缺点就是mini-batch SGD需要我们挑选一个合适的学习率,当我们采用小的学习率的时候,会导致网络在训练的时候收敛太慢;当我们采用大的学习率的时候,会导致在训练过程中优化的幅度跳过函数的范围,也就是可能跳过最优点。我们所希望的仅仅是网络在优化的时候网络的损失函数有一个很好的收敛速度同时又不至于摆动幅度太大。

所以Momentum优化器刚好可以解决我们所面临的问题,它主要是基于梯度的移动指数加权平均,对网络的梯度进行平滑处理的,让梯度的摆动幅度变得更小。
v = 0.8 v + 0.2 ▽ w , ▽ w 表 示 当 前 一 次 的 梯 度 v = 0.8v + 0.2▽w ,▽w 表示当前一次的梯度 v=0.8v+0.2w,w
w = w − w − l r ∗ v , l r 表 示 学 习 率 w = w-w - lr*v ,lr表示学习率 w=wwlrv,lr
5.AdaGrad
AdaGrad算法就是将每一个参数的每一次迭代的梯度取平方累加后在开方,用全局学习率除以这个数,作为学习率的动态更新,从而达到自适应学习率的效果。
g r a d e n t = h i s t o r y g r a d e n t + ( ▽ w ) 2 gradent = history_gradent+(▽w)^{2} gradent=historygradent+(w)2
w = w − l r / ( g r a d e n t 1 / 2 + t ) ( ▽ w ) t 为 小 常 数 , 设 置 为 1 0 − 7 w = w - lr/(gradent^{1/2}+t)(▽w) t为小常数,设置为10^{-7} w=wlr/(gradent1/2+t)(w)t107

6.RMSProp
动力算法(Momentum)优化算法中,虽然初步解决了优化中摆动幅度大的问题,为了进一步优化损失函数在更新中存在摆动幅度过大的问题,并且进一步加快函数的收敛速度,RMSProp算法对参数的梯度使用了平方加权平均数。
g r a d e n t = 0.8 ∗ h i s t o r y g r a d e n t + ( ▽ w ) 2 gradent =0.8*history_gradent+(▽w)^{2} gradent=0.8historygradent+(w)2
w = w − w − l r / ( g r a d e n t 1 / 2 + t ) ( ▽ w ) w =w -w - lr/(gradent^{1/2}+t)(▽w) w=wwlr/(gradent1/2+t)(w)

7.Adam
Adam(Adaptive Moment Estimation)算法是将Momentum算法和RMSProp算法结合起来使用的一种算法,能够达到防止梯度的摆幅多大,同时还能够加开收敛速度。

优点:学习率可以自适应,梯度的振幅不会过大。
在这里插入图片描述

torch中API的使用
torch.optim.Adam()

8.总结

  • 批量梯度下降法在进行参数更新时,会使用所有的样本信息,当数据量很大时,会造成训练过程慢,但迭代次数较少。
  • 随机梯度下降法每次只使用一个样本的信息来更新参数,在样本很大的情况下,可能只用其中几万条或者几千条的样本,就已经将theta迭代到最优解了,相比于批量梯度下降来说就快了很多了。但是,因为每次只利用一个样本的信息,不能保证每次迭代都向着整体最优化方向,也就是会曲折着前行。
  • 小批量梯度下降法就是结合BGD和SGD的折中,对于含有n个训练样本的数据集,每次参数更新,选择一个大小为m 的mini-batch数据样本计算其梯度,虽然既保证了训练速度又保证了准确率,但是如何选择学习率是一个难题,如何自适应调整学习率?
  • 因此引出了AdaGrad算法,RMSProp算分,Adam算法;这3中优化算法可以实现自适应学习率。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【常见的优化算法介绍】 的相关文章

随机推荐

  • 无人机姿态解算:四元数及其与欧拉角的转换

    无人机姿态解算 xff1a 四元数及其与欧拉角的转换 引言 xff1a 获得无人机飞行时的飞行姿态对于无人机稳定控制来说至关重要 无人机主要通过传感器数据融合来进行状态估计 xff0c 常用于无人机的传感器包括 xff1a MPU xff0
  • (纯干货)备战“金3银4”,拿下这101道面试题“10拿9稳””!

    前言 xff1a 马上就到了 金9银10的 面试季 xff0c 在这里作者给各位整理了一些大厂常用的面试题 xff0c 希望能对各位有所帮助 正文 xff1a 1 问 xff1a 你在测试中发现了一个bug xff0c 但是开发经理认为这不
  • 用Excel分析音视频同步

    声明 xff1a 这里主要介绍如何运用Excel来分析音视频是否同步 xff0c 希望可以对大家有所帮助 介绍 xff1a 学习音视频就一定要知道做音视频同步 xff0c 而现在我们来分析音视频同步的工具也是有的 xff0c 比如easyI
  • 使用VLC 在PC端搭建RTP环境

    声明 xff1a 本文是我在工作中遇到的关于环境搭建问题后的一些总结 xff0c 希望可以对你有所帮助 介绍 xff1a 搭建方法 xff1a 1 xff09 搭建 VLC 软件 xff0c 点击媒体菜单 xff0c 选择 流 选项 xff
  • 使用VLC 在PC端搭建RTSP环境

    声明 xff1a 本文是我在工作中遇到的关于环境搭建问题后的一些总结 xff0c 希望可以对你有所帮助 介绍 xff1a 搭建方法 xff1a 1 xff09 搭建 VLC 软件 xff0c 点击媒体菜单 xff0c 选择 流 选项 xff
  • 2020总结

    2020年可以说是我开始工作的第二年了 在第一年中我可以说了解了工作和组里的基本情况 xff0c 而这第二年就开始真正的加深学习了 还是以时间线一点点的慢慢讲吧 春节前我们一边工作一边准备年会 我们公司有个惯例那就是让每年最新入职的员工来主
  • 嵌入式Linux——网卡驱动(1):网卡驱动框架介绍

    声明 xff1a 文本是看完韦东山老师的视频和看了一些文章后 xff0c 所写的总结 我会尽力将自己所了解的知识写出来 xff0c 但由于自己感觉并没有学的很好 xff0c 所以文中可能有错的地方敬请指出 xff0c 谢谢 在介绍本文之前
  • ROS发布订阅的消息的种类及使用

    1 消息 std msgs 的种类 在 opt ros melodic include std msgs文件夹中查询 或参考 xff1a https www itdaan com tw b30f2309fe4b1b2d5993c8ea0cb
  • SSD1306部分命令

    命令描述 1 基础命令 1 1 为页地址模式设置列低半字节的开始地址 xff08 00h 0Fh xff09 这个命令专门为8位列地址的低半字节设置以通过页地址模式显示RAM中的数据 而每一个数据使用后列地址会自动增加 请参考表格9 1的部
  • 嵌入式Linux——IIC总线驱动(3):IIC驱动OLED外设

    简介 xff1a 本文主要介绍在jz2440开发板上驱动OLED外设 xff0c 使其显示我们在应用层输入的语句 而同时我将该文分成了两部分 xff0c 第一部分讲解i2c总线的实现 xff0c 而第二部分讲解在i2c总线实现后 xff0c
  • 嵌入式Linux——RTC驱动(1):RTC框架分析

    简介 xff1a 本文通过分层的方式介绍RTC驱动 xff0c 通过分析RTC在不同层次中所做的不同工作 xff0c 以及各个层次之间的关系来了解RTC驱动框架 本文分为两部分 xff0c 第一部分总的介绍RTC框架 xff0c 而第二部分
  • 嵌入式Linux——DMA:在内核中简单使用DMA实现内存中数据传递

    简介 xff1a 本文主要介绍在内核中简单使用DMA实现内存数据传递 由于本篇文章中没有介绍与框架相关的程序 xff0c 只是使用字符设备来操作DMA xff0c 同时也没有抽象的层次 xff0c 因此本文中代码分析部分就相对简单 但我还是
  • 嵌入式Linux——uevent机制:uevent原理分析

    简介 xff1a 本文主要介绍uevent机制是什么 xff0c 并通过代码分析使用uevent机制生成设备节点的过程 而本文将分为两部分 xff0c 第一部分我们介绍一些预备知识和uevent的原理 xff0c 而第二部分 通过代码介绍使
  • 嵌入式Linux——kmsg:分析/proc/kmsg文件以及写自己的/proc/mymsg

    简介 xff1a 本文主要分析 proc kmsg文件的形成过程以及使用cat proc kmsg查看log buf中的信息时所要经历的代码 并结合上面的分析写自己的 proc mymsg和myprintk Linux内核 xff1a li
  • 嵌入式Linux——学习经历

    简介 xff1a 本文主要介绍我学习嵌入式的经历 并结合自身的经验希望可以对大家有所帮助 视频及教材 xff1a 郭天祥相关视频及教材 xff0c 天狼星相关视频及教材 xff0c 野火迷你相关视频及教材以及韦东山100ask官网所介绍的视
  • 指针简介(3)—— 指针函数与函数指针

    声明 xff1a 本文是阅读周立功老师的程序设计与数据结构后所写 xff0c 很多内容其实是书中的内容 xff0c 所以如果您想了解更多这方面的知识 xff0c 您可以阅读这本书 在前面一节我们简单介绍了指针 数组 指针数组以及数组指针 而
  • Docker常用操作命令

    成功安装Docker之后 启动Docker 如果遇到启动问题请参考 https blog csdn net w1316022737 article details 83692701 下来简单介绍Docker容器常用操作命令 安装操作MySQ
  • DIY 自己的路由器系统

    sudo apt get install subversion build essential libncurses5 dev zlib1g dev gawk git ccache gettext libssl dev xsltproc z
  • (ROS)解决gazebo闪退和tk窗口不显示问题

    问题1 xff1a 运行gazebo的时候 xff0c gazebo窗口闪退 解决办法 xff1a 1 删除gazebo xff0c 重新安装适合的版本然后再重新运行 或者 2 关闭加速3D图形 xff08 需要关闭虚拟机 rostopic
  • 【常见的优化算法介绍】

    常见的优化算法介绍 1 批量梯度下降算法 xff08 batch gradient descent BGD xff09 每次迭代都需要把所有样本都送入 xff0c 这样的好处是每次迭代都顾及了全部的样本 xff0c 做的是全局最优化 但是有