深度学习笔记(五) 代价函数的梯度求解过程和方法

2023-11-07

作为自己的笔记系列,方便自己查阅和理解。


1)什么是梯度
梯度 本意是一个向量(矢量) 当某一函数在某点处沿着该方向的方向导数取得该点处的最大值,即函数在该点处沿方向变化最快,变化率最大(为该梯度的模)。
在二元函数的情形,设函数z=f(x,y)在平面区域D内具有一阶连续偏导数,则对于每一点P(x,y)∈D,都可以定出一个向量(δf/x)*i+(δf/y)*j     这向量称为函数z=f(x,y)在点P(x,y)的梯度,记作gradf(x,y)。 类似的对三元函数也可以定义一个:(δf/x)*i+(δf/y)*j+(δf/z)*k 记为grad[f(x,y,z)]

(百度百科)


2)为什么需要求解梯度
上一个章节分析了各种的cost function(cf),既然是付出代价,我们希望付出的代价最小,因为输入的x是逐步添加的,我们不可能一步到位,那么选择下降最快的方向,尽快达到最低,使得系统稳定。这就是我们需要梯度的原因。
梯度下降原理:将函数比作一座山,我们站在某个山坡上,往四周看,从哪个方向向下走一小步,能够下降的最快;
3)求解过程
a)线性回归为例

 首先我们给θ一个初试值,然后向着让J(θ)变化最大的方向更新θ的取值,如此迭代。公式如下:

    

    公式中α称为步长(learning rate),它控制θ每次向J(θ)变小的方向迭代时的变化幅度。J(θ)对θ的偏导表示J(θ)变化最大的方向。由于求的是极小值,因此梯度方向是偏导数的反方向。求解一下这个偏导,过程如下:

    

    那么θ的迭代公式就变为:

    


4)常用方法

这部分全部来源于:http://blog.csdn.net/qq_21460525/article/details/70146665

目标:min f(x)

核心思想:负梯度方向是使函数值下降最快的方向,在迭代的每一步根据负梯度的方向更新x的值,从而求得最小的f(x)。因此我们的目标就转变为求取f(x)的梯度。

a)全局最优梯度下降

当f(x)是凸函数的时候,用梯度下降的方法取得的最小值是全局最优解,但是在计算的时候,需要在每一步(xk处)计算梯度,它每更新一个参数都要遍历完整的训练集,其代码表示如下:

   
   
  1. for i in range(nb_epochs):
  2. params_grad = evaluate_gradient(loss_function, data, params)
  3. params = params - learning_rate * params_grad
不难看出,在批量梯度下降法中,因为每次都遍历了完整的训练集,其能保证结果为全局最优,但是也因为我们需要对于每个参数求偏导,且在对每个参数求偏导的过程中还需要对训练集遍历一次,当训练集(m)很大时,这个计算量是惊人的!
所以,为了提高速度,减少计算量,提出了SGD随机梯度下降的方法,该方法每次随机选取一个样本进行梯度计算,大大降低了计算成本。

b)SGD随机梯度下降

随机梯度下降 算法 和批量梯度下降的不同点在于其梯度是根据随机选取的训练集样本来决定的,其每次对theta的更新,都是针对单个样本数据,并没有遍历完整的参数。当样本数据很大时,可能到迭代完成,也只不过遍历了样本中的一小部分。因此,其速度较快,但是其每次的优化方向不一定是全局最优的,但最终的结果是在全局最优解的附近。
需要:学习速率 ϵ, 初始参数 θ 
每步迭代过程: 
1. 从训练集中的随机抽取一批容量为m的样本{x1,…,xm},以及相关的输出yi 
2. 计算梯度和误差并更新参数
   
   
  1. for i in range(nb_epochs):
  2. np.random.shuffle(data)
  3. for example in data:
  4. params_grad = evaluate_gradient(loss_function, example, params)
  5. params = params - learning_rate * params_grad
c)MBGD小批量梯度下降
核心思想:在每次迭代时考虑一小部分样本,比如考虑10个样本,同时计算在这10个样本点上的每个参数的偏导数,对于每个优化参数,将该参数在这10个样本点的偏导数求和。
   
   
  1. for i in range(nb_epochs):
  2. np.random.shuffle(data)
  3. for batch in get_batches(data, batch_size=50):
  4. params_grad = evaluate_gradient(loss_function, batch, params)
  5. params = params - learning_rate * params_grad

但是,需要注意的是因为这里也存在样本选择的随机性,学习速率应该要逐渐减小,同时上述方法并不能保证好的收敛性。主要存在的挑战有:

  1. 选择适当的学习率可能很困难。 太小的学习率会导致收敛性缓慢,而学习速度太大可能会妨碍收敛,并导致损失函数在最小点波动。
  2. 使用学习率计划:尝试在训练期间调整学习率。 比如根据预先制定的规则缓慢的降低学习速率,或者当每次迭代之间的偏导差异已经低于某个阈值时,就降低学习速率。但是这里面的学习速率更新规则,以及阈值都是需要预先设定的,因此不适应于所有的数据集。
  3. 此外,使用梯度更新的方法会导致所有参数都用学习速率更新。但是当训练集数据是稀疏的,或者特征的频率是不同的,我们可能不希望它们更新到同样的程度,因此使用相同的学习速率会导致那些很少出现的特征有较大的变化。
  4. 在求取那些高度非凸的误差函数的最小值时,我们应该避免陷入局部最优解,实验表明,最困难的不是从局部最优而是鞍点,鞍点就是沿着某一个方向他是稳定的,沿着另一个方向不稳定,既不是最小点也不是最大点。这会使得该点在所有维度上梯度为0,让SGD难以逃脱。

基于上述问题,又有了如下更多的优化策略!

d) momentum

上述SGD和MBGD算法都存在样本选择的随机性,因此含有较多的噪声,而momentum能解决上述噪声问题,尤其在面对小而较多噪声的梯度时,它往往能加速学习速率。


核心思想:Momentum借用了物理中的动量概念,即前几次的梯度也会参与运算。为了表示动量,引入了一个新的变量v(velocity)。v是之前的梯度的累加,但是每回合都有一定的衰减。

每步迭代过程: 
1. 从训练集中的随机抽取一批容量为m的样本{x1,…,xm},以及相关的输出yi 
2. 计算梯度和误差,并更新速度v和参数θ:

   
   
  1. ĝ ←+1m∇θ∑iL(f(xi;θ),yi)
  2. v←αv−ϵĝ
  3. θ←θ+v

其中参数α表示每回合速率v的衰减程度.同时也可以推断得到,如果每次迭代得到的梯度都是g,那么最后得到的v的稳定值为 ϵ∥g∥/1−α

也就是说,Momentum最好情况下能够将学习速率加速1/1−α倍.一般α的取值为0.9或者更小。当然,也可以让α的值随着时间而变化,一开始小点,后来再加大.不过这样一来,又会引进新的参数.

特点: 
本质上来说,就和我们把球从山上退下来一样,球的速度会越来越快。和我们的参数更新一样,当方向一致时,动量项会增加;当方向不一致时,动量项会降低。 
即: 
前后梯度方向一致时,能够加速学习 
前后梯度方向不一致时,能够抑制震荡

e) Nesterov Momentum

仅仅有一个追求速度的球往山下滚是不能令人满意的,我们需要一个球,它能知道往前一步的信息,并且当山坡再次变陡时他能够减速。因此,带有nesterov的出现了!

在momentum里,先计算当前的梯度(短蓝色线),然后结合以前的梯度执行更新(长蓝色线)。而在nesterov momentum里,先根据事先计算好的梯度更新(棕色),然后在预计的点处计算梯度(红色),结合两者形成真正的更新方向(绿色)。 

这是对之前的Momentum的一种改进,大概思路就是,先对参数进行估计(先往前看一步,探路),然后使用估计后的参数来计算误差 
具体实现: 
需要:学习速率 ϵ, 初始参数 θ, 初始速率v, 动量衰减参数α 
每步迭代过程: 
1. 从训练集中的随机抽取一批容量为m的样本{x1,…,xm},以及相关的输出yi 
2. 计算梯度和误差,并更新速度v和参数θ:

ĝ ←+1m∇θ∑iL(f(xi;θ+αv),yi) 
v←αv−ϵĝ 
θ←θ+v

注意在估算ĝ 的时候,参数变成了θ+αv而不是之前的θ

推荐好文——揭开nesters momentum的面纱

f) AdaGrad

AdaGrad可以自动变更学习速率,只是需要设定一个全局的学习速率ϵ,但是这并非是实际学习速率,实际的速率是与以往参数的模之和的开方成反比的.也许说起来有点绕口,不过用公式来表示就直白的多:


其中δ是一个很小的常亮,大概在10−7,防止出现除以0的情况.

核心思想:对于频繁出现的参数使用更小的更新速率,对于不频繁出现的参数使用更大的更新速率。 
正因为如此,该优化函数脚适用于稀疏的数据,比如在Google从YouTube视频上识别猫时,该优化函数大大提升了SGD的鲁棒性。在训练GloVe词向量时该优化函数更加适用。

具体实现: 
需要:全局学习速率 ϵ, 初始参数 θ, 数值稳定量δ 
中间变量: 梯度累计量r(初始化为0) 
每步迭代过程: 
1. 从训练集中的随机抽取一批容量为m的样本{x1,…,xm},以及相关的输出yi 
2. 计算梯度和误差,更新r,再根据r和梯度计算参数更新量

在SGD中,我们对所有参数进行同时更新,这些参数都使用同样的学习速率。 
比图用gt,i表示在t时间点,对i参数求得的偏导。 

那么在SGD中就会用同一个学习速率对i参数进行更新: 
但是在adagrad里,会综合考虑i之前的所有梯度值来更新学习速率,其中Gt,ii是一个对角矩阵,i行i列存储了目前时间点为止的所有i参数的偏导的平方和。后面的项是一个很小的值(1e−8),为了防止除0错误。 
优点: 
能够实现学习率的自动更改。如果这次梯度大,那么学习速率衰减的就快一些;如果这次梯度小,那么学习速率衰减的就慢一些。

缺点: 
最大的缺点在于分母中那个G是偏导的累积,随着时间的推移,分母会不断的变大,最后会使得学习速率变的非常小,而此时会使得模型不再具备学习其他知识的能力。 
经验表明,在普通算法中也许效果不错,但在深度学习中,深度过深时会造成训练提前结束。因为它到后面的衰减可能越来越慢,然后就提前结束了。为了解决提前结束的问题,引入了如下的算法:Adadelta!RMSprop!


Adadelta 
adadelta是adagrad的延伸,不同于adadelta将以前所有的偏导都累加起来,adadelta控制了累加的范围到一定的窗口中。 
但是,并非简单的将窗口大小设置并且存储,我们是通过下式动态改变的上述的G: 

这里面的gamma类似于momentum里面的项(通常取值0.9),用来控制更新的权重。 
因此以前的: 
将被改变为: 


RMSprop

RMSProp通过引入一个衰减系数,让r每回合都衰减一定比例,类似于Momentum中的做法。(我觉得和Adadelta没啥区别)

具体实现: 
需要:全局学习速率 ϵ, 初始参数 θ, 数值稳定量δ,衰减速率ρ 
中间变量: 梯度累计量r(初始化为0) 
每步迭代过程: 
1. 从训练集中的随机抽取一批容量为m的样本{x1,…,xm},以及相关的输出yi 
2. 计算梯度和误差,更新r,再根据r和梯度计算参数更新量


算法的提出者建议如上式所示,gamma取0.9,学习速率为0.001

优点: 
相比于AdaGrad,这种方法很好的解决了深度学习中过早结束的问题 
适合处理非平稳目标,对于RNN效果很好

缺点: 
又引入了新的超参,衰减系数ρ 
依然依赖于全局学习速率


Adam

Adam(Adaptive Moment Estimation)是另外一种给每个参数计算不同更新速率的方法,其本质上是带有动量项的RMSprop,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。它和上述的adadelta和RMSprop一样,都存储了以前的偏导平方衰减平均值,此外,它还存储以前的偏导衰减平均值。

具体实现: 
需要:步进值 ϵ, 初始参数 θ, 数值稳定量δ,一阶动量衰减系数ρ1, 二阶动量衰减系数ρ2 
其中几个取值一般为:δ=10−8,ρ1=0.9,ρ2=0.999 
中间变量:一阶动量s,二阶动量r,都初始化为0 
每步迭代过程: 
1. 从训练集中的随机抽取一批容量为m的样本{x1,…,xm},以及相关的输出yi 
2. 计算梯度和误差,更新r和s,再根据r和s以及梯度计算参数更新量


其中的Mt和Vt分别表示平均值角度和非中心方差角度的偏导。 

才方法的作者建议 β1取0.9, β2取0.999 ,ϵ取10-8。并且声称Adam在实践中比其他的自适应算法有更好的表现。

二 可视化

让我们来可视化的看看它们的表现:

比较一下速度: 

比较一下在鞍点的性能: 


三、如何选择


  • 如果你的数据很稀疏,那应该选择有自适应性的优化函数。并且你还可以减少调参的时间,用默认参数取得好的结果。
  • RMSprop是adagrad的一个拓展,旨在解决它提前结束的问题。
  • 而RMSprop和Adadelta类似,只是adadelta采用了RMS的方法更新参数。
  • 在RMSprop基础上增加了偏差校正和momentum,形成了Adam。
  • 综上,RMSprop、Adadelta、Adam都是类似的。
  • Kingma【Kingma, D. P., & Ba, J. L. (2015). Adam: a Method for Stochastic Optimization. International Conference on Learning Representations, 1–13.】的实验表示,偏差校正使得Adam在优化到后面梯度变的稀疏的时候使得其优化性能最好。
  • 所以,可能Adam是最好的优化函数。
  • 所以,如果你希望你的训练能变的更快,或者你要训练的是一个复杂的深度的网络,尽量选择自适应的优化函数。


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习笔记(五) 代价函数的梯度求解过程和方法 的相关文章

随机推荐

  • CUSUM算法学习+小实例

    说明 本文为个人搜集理解 并非全面 CUSUM Cumulative Sum Control Chart 累积和 一种先进的统计方法 她利用当前的和最近的过程数据来检验过程均值中不大的变化或变异性 CUSUM代表偏离目标值得变差的 累积和
  • Flutter学习之旅(二)常用的Flutter的基础组件介绍

    前言 为了能更快的创建一个好看的应用 Flutter提供了一系列的组件 有基础组件 Basics Widgets 质感组件 Material Components 等 本篇将介绍常用的基础组件 目录 看到上面的目录 从事Android开发的
  • 看完这篇 教你玩转渗透测试靶机Vulnhub——DriftingBlues-5

    Vulnhub靶机DriftingBlues 5渗透测试详解 Vulnhub靶机介绍 Vulnhub靶机下载 Vulnhub靶机漏洞详解 信息收集 暴力破解 ssh登入 KDBX文件密码爆破 定时提权 获取flag Vulnhub靶机渗透总
  • 设计模式之生成器模式

    将一个复杂对象的创建和它的表示分离 使得同样的创建过程可以有不同的表示 应用场景 一水杯工厂要生产各式各样的水杯 无论杯子是神马造型 但都包括绳子 帽子和杯体 以此模型创建各种类型的杯子 类图 cup类 public class Cup p
  • 数据仓库和数据库

    数据库 1 数据库面向事务设计 属于OLTP 在线事务处理 系统 主要操作是随机读 写 2 在设计时尽量避免冗余 常采用符合范式规范来设计 范式分为第一范式 第二范式 第三范式 一般要求符合第三范式 较为符合人的逻辑思维 3 数据库一般存储
  • Leetcode 33. Search in Rotated Sorted Array

    题目描述 将有序数组打乱 然后从中查找一个数据的下标 Suppose an array sorted in ascending order is rotated at some pivot unknown to you beforehand
  • TensorFlow在人脸识别中的应用-人脸检测

    参考 1 TensorFlow技术解析与实战 2 http blog csdn net tmosk article details 78087122 3 https www cnblogs com libinggen p 7786901 h
  • 去除 element-ui 中 Dialog 对话框遮罩层的方法

    在使用element ui的Dialog时 默认会有遮罩层 想要去除遮罩层 官方文档给出了 modal 属性 modal 是一个布尔值 表示是否需要遮罩层 然而 将 modal 赋值为 false 时并不生效 这里官方文档也给出了提示 当
  • Python入门项目——飞机大战

    文章目录 项目描述 Pygame 安装 Windows 平台下安装 Linux 平台安装 开始编写项目 创建 pygame 窗口 设置背景色 创建设置类 添加飞船图像 创建 Ship 类 在屏幕上绘制飞船 重构 模块 game func 函
  • openwrt路由器的各种常用小指令

    df h 看磁盘容量使用情况 du h 看当前目录下文件 包含子目录 df i 看磁盘文件数量使用情况 cat sys class net eth1 operstate 可以查看有线网线是否接上 扫描WiFi iwpriv ra0 set
  • BME/BMP280环境传感器、MLX90614红外测温传感器、HX711称重模块

    Mixly 是由北师大米思齐团队开发的图形化编程软件 自发布以来深受国内创客圈的喜爱 Mixly 编程软件采用图形化编程 不用记代码 只需要拖拽 简单设置 就能让你快速完成创意电子编程 本专栏系列课程由裘炯涛老师主讲 从基础入门到逐步提升
  • 数字货币即将面世 蹭“数字货币”热度套路频现

    随着央行数字人民币逐步在北京 上海等地进入测试阶段 数字货币在我国呼之欲出 与此同时 相关谣言或虚假信息也层出不穷 蹭 数字货币 热度的常见套路都有哪些 一起来看看 在网上签到学习就能提现 近日 某非法平台宣称 该平台系国家为大力发展数字货
  • 循序渐进,学会用pyecharts绘制玫瑰图

    循序渐进 学会用pyecharts绘制玫瑰图 玫瑰图简介 玫瑰图全称南丁格尔玫瑰图 是英国护士和统计学家弗罗伦斯 南丁格尔发明的 又名为极区图 南丁格尔自己常昵称这类图为鸡冠花图 coxcomb 用以表达军医院季节性的死亡率 提供给那些不太
  • adb install 多个设备时指定设备

    在emulator 5554模拟器上安装ebook apk adb s emulator 5554 install ebook apk 在真机上安装ebook apk adb s HT9BYL904399 install ebook apk
  • 可孚医疗:「最懂互联网」的医疗器械企业是如何炼成的?

    如果说钉钉在过去的标签是软件 是低代码 那么在医疗这个赛道里 这些标签已经不足以成为钉钉价值的侧写 除了固有标签之外 在可孚医疗的场景里 钉钉可以连接 可以成为智能BI 也更可以做到内外部协同等 作者 皮爷 出品 产业家 1000分 打开可
  • GetX项目级实战

    在使用了 Provider 一年后 遇到了很多阻力 期间尝试过 BLoC MobX 均不如意 一个样本代码太多 使用复杂 一个生产代码要等很久 难道 Flutter 就没有诸如原生 Android 的 jetpack 套装一样方便的套件吗
  • Cyclic Components CodeForces - 977E(找简单环)

    先求连通块 再看是不是所有连通块的点的度数为2 如果是那就是简单环 只不过我觉得我这个代码时间复杂度还是挺高的 虽然这题没啥问题 不过我看有他人是一遍用dfs找环 一遍判断找到环时的那个点的度数是不是2 AC代码 include
  • ES:一次分片设计问题导致的故障

    现象 1 单节点CPU持续高 2 写入骤降 3 线程池队列积压 但没有reject 4 使用方没有记录日志 排查 1 ES监控 只能看到相应的结果指标 无法反应出原因 2 ES日志 大量日志打印相关异常 routate等调用栈 core a
  • Java是解释型还是编译型语言?

    Java是解释型还是编译型语言 首先JVM是什么 JVM虚拟机也是java的运行环境 因为所有系统平台都支持JVM 所以实现了Java的跨平台 我们可以把JVM虚拟机比作人 有食物供我们食用 当我们需要吃哪种食物的时候就吃哪个实物 在JVM
  • 深度学习笔记(五) 代价函数的梯度求解过程和方法

    作为自己的笔记系列 方便自己查阅和理解 1 什么是梯度 梯度 本意是一个向量 矢量 当某一函数在某点处沿着该方向的方向导数取得该点处的最大值 即函数在该点处沿方向变化最快 变化率最大 为该梯度的模 在二元函数的情形 设函数z f x y 在