【optimizer详解】

2023-05-16

optimizer

定义

optimizer就是在深度学习反向传播过程中，指引损失函数（目标函数）的各个参数往正确的方向更新合适的大小，使得更新后的各个参数让损失函数（目标函数）值不断逼近全局最小

步骤

待优化参数： ω \omega ω
目标函数： f ( x ) f(x) f(x)
初始学习率： α \alpha α
迭代epoch： t t t

参数更新步骤如下：

Ⅰ.计算目标函数关于当前参数的梯度：
g t = ∇ f ( ω t ) g_t=\nabla{f(\omega_t)} gt=∇f(ωt)
Ⅱ. 根据历史梯度计算一阶动量和二阶动量：
m t = ∅ ( g 1 , g 2 , . . . . , g t ) V t = ∑ i = 0 t x i 2 m_t=\varnothing(g1,g2,....,gt)\\V_t=\sum_{i=0}^tx_i^2 mt=∅(g1,g2,....,gt)Vt=∑i=0txi2
Ⅲ. 计算当前时刻的下降梯度：
η t = α ⋅ m t / V t \eta_t=\alpha \cdot {m_t}/\sqrt{V_t} ηt=α⋅mt/Vt
Ⅳ. 根据下降梯度进行更新参数：
ω t + 1 = ω t − η t \omega_{t+1}=\omega_t-\eta_t ωt+1=ωt−ηt
步骤Ⅲ、Ⅳ对于各个算法都是一致的，主要的差别就体现在步骤Ⅰ、Ⅱ上

常见方法

随机梯度下降法（Stochastic Gradient Descent，SGD）
- 每次从训练集中随机选择一个样本来进行学习，SGD没有动量的概念
- m t = g t ; V t = I 2 m_t=g_t;V_t=I^2 mt=gt;Vt=I2
- η t = α ⋅ g t g t \eta_t=\alpha \cdot {g_t} \qquad g_t ηt=α⋅gtgt是当前参数的梯度
- ω t + 1 = ω t − η t = ω t − α ⋅ g t \omega_{t+1}=\omega_t-\eta_t=\omega_t-\alpha \cdot {g_t} ωt+1=ωt−ηt=ωt−α⋅gt
- ```
'''
params(iterable)- 参数组，优化器要优化的那部分参数。
lr(float)- 初始学习率，可按需随着训练过程不断调整学习率。
momentum(float)- 动量，通常设置为 0.9，0.8
dampening(float)- dampening for momentum ，暂时不了其功能，在源码中是这样用的：buf.mul_(momentum).add_(1 - dampening, d_p)，值得注意的是，若采用nesterov，dampening 必须为 0.
weight_decay(float)- 权值衰减系数，也就是 L2 正则项的系数
nesterov(bool)- bool 选项，是否使用 NAG(Nesterov accelerated gradient)
'''
torch.optim.SGD(params, 
                lr=<object object>, 
                momentum=0, 
                dampening=0, 
                weight_decay=0, 
                nesterov=False)
```
- SGD with Momentum
  - 在SGD基础上引入了一阶动量： m t = β 1 ⋅ m t − 1 + ( 1 − β 1 ) ⋅ g t m_t=\beta_1 \cdot m_{t-1}+(1-\beta_1)\cdot {g_t} mt=β1⋅mt−1+(1−β1)⋅gt
  - ω t + 1 = ω t − α ⋅ m t = ω t − α ⋅ ( β 1 ⋅ m t − 1 + ( 1 − β 1 ) ⋅ g t ) \omega_{t+1}=\omega_t-\alpha\cdot m_t=\omega_t-\alpha \cdot (\beta_1 \cdot m_{t-1}+(1-\beta_1)\cdot {g_t}) ωt+1=ωt−α⋅mt=ωt−α⋅(β1⋅mt−1+(1−β1)⋅gt)
  - β \beta β的经验值为0.9
  - 一阶动量是各个时刻梯度方向的指数移动平均值，也就是说t时刻的下降方向，不仅由当前点的梯度方向决定，而且由此前累积的下降方向决定
- SGD with Nesterov Acceleration
  - NAG在步骤Ⅰ，不计算当前位置的梯度方向，而是计算如果按照累积动量走了一步，那个时候的下降方向： g t = ∇ f ( ω − α ⋅ m t − 1 / V t − 1 ) g_t=\nabla{f(\omega-\alpha\cdot m_{t-1}/\sqrt{V_{t-1}})} gt=∇f(ω−α⋅mt−1/Vt−1 )
  - 参数更新公式如下
    ω t + 1 = ω t − α ⋅ g t = ω t − α ∗ ( ∇ f ( ω − α ⋅ m t − 1 / V t − 1 ) ) \omega_{t+1}=\omega_t-\alpha\cdot g_t=\omega_t-\alpha*(\nabla{f(\omega-\alpha\cdot m_{t-1}/\sqrt{V_{t-1}})}) ωt+1=ωt−α⋅gt=ωt−α∗(∇f(ω−α⋅mt−1/Vt−1 ))
  - 然后用下一个点的梯度方向，与历史累积动量相结合，计算步骤Ⅱ中当前时刻的累积动量
  - 有利于跳出当前局部最优的沟壑，寻找新的最优值，但是收敛速度慢
AdaGrad（自适应学习率算法）
- SGD系列的都没有用到二阶动量。二阶动量的出现，才意味着“自适应学习率”优化算法时代的到来
- 二阶动量——该维度上，记录到目前为止所有梯度值的平方和
  V t = ∑ τ = 1 t g τ 2 V_t=\sum_{\tau=1}^tg_{\tau}^2 Vt=∑τ=1tgτ2
- AdaGrad参数更新公式
  ω t + 1 = ω t − α ⋅ m t / V t = ω − α ⋅ m t / ∑ τ = 1 t g τ 2 \omega_{t+1}=\omega_t-\alpha\cdot m_t/\sqrt{V_t}=\omega-\alpha \cdot m_t/\sqrt{\sum_{\tau=1}^tg_\tau^2} ωt+1=ωt−α⋅mt/Vt =ω−α⋅mt/∑τ=1tgτ2
- 此时实质上的学习率由 α \alpha α变成了 α / V t \alpha/\sqrt{V_t} α/Vt ,一般为了避免分母为0，会在分母上加一个小的平滑项,因此 V t \sqrt{V_t} Vt 是恒大于0的，而且参数更新越频繁，二阶动量越大，学习率就越小
AdaDelta / RMSProp
- AdaGrad单调递减的学习率变化过于激进，考虑一个改变二阶动量计算方法的策略：不累积全部历史梯度，而只关注过去一段时间窗口的下降梯度。
- V t = β 2 ⋅ V t − 1 + ( 1 − β 2 ) g t 2 V_t=\beta_2 \cdot V_{t-1}+(1-\beta_2)g^2_t Vt=β2⋅Vt−1+(1−β2)gt2
- AdaDelta / RMSProp参数更新公式
  ω t + 1 = ω t − α ⋅ m t / V t = ω − α ⋅ m t / β 2 ⋅ V t − 1 + ( 1 − β 2 ) g t 2 \omega_{t+1}=\omega_t-\alpha\cdot m_t/\sqrt{V_t}=\omega-\alpha \cdot m_t/\sqrt{\beta_2 \cdot V_{t-1}+(1-\beta_2)g^2_t} ωt+1=ωt−α⋅mt/Vt =ω−α⋅mt/β2⋅Vt−1+(1−β2)gt2
- 避免了二阶动量持续累积、导致训练过程提前结束的问题了
Adam
- 把一阶动量和二阶动量都用起来，就是Adam了——Adaptive + Momentum
- SGD的一阶动量：
  m t = β 1 ⋅ m t − 1 + ( 1 − β 1 ) ⋅ g t m_t=\beta_1 \cdot m_{t-1}+(1-\beta_1)\cdot {g_t} mt=β1⋅mt−1+(1−β1)⋅gt
- 加上AdaDelta的二阶动量：
  V t = β 2 ⋅ V t − 1 + ( 1 − β 2 ) g t 2 V_t=\beta_2 \cdot V_{t-1}+(1-\beta_2)g^2_t Vt=β2⋅Vt−1+(1−β2)gt2
- Adam参数更新公式
  ω t + 1 = ω t − α ⋅ m t / V t = ω − α ⋅ ( β 1 ⋅ m t − 1 + ( 1 − β 1 ) ⋅ g t ) / β 2 ⋅ V t − 1 + ( 1 − β 2 ) g t 2 \omega_{t+1}=\omega_t-\alpha\cdot m_t/\sqrt{V_t}\\\qquad=\omega-\alpha \cdot (\beta_1 \cdot m_{t-1}+(1-\beta_1)\cdot {g_t})/\sqrt{\beta_2 \cdot V_{t-1}+(1-\beta_2)g^2_t} ωt+1=ωt−α⋅mt/Vt =ω−α⋅(β1⋅mt−1+(1−β1)⋅gt)/β2⋅Vt−1+(1−β2)gt2
- ```
'''
params 模型里需要被更新的可学习参数
lr 学习率
betas 平滑常数β1和β2
eps 加在分母上防止除0
weight_decay L2正则化，和Adam并无直接关系
amsgrad 如果amsgrad为True，保留历史最大的v_t，记为v_max，每次计算都是用最大的v_max，否则是用当前v_t
'''
torch.optim.Adam(params,
            lr=0.001,
            betas=(0.9, 0.999),
            eps=1e-08,
            weight_decay=0,
            amsgrad=False)
```
- Adam缺点
  - 可能不收敛
    - 二阶动量是固定时间窗口内的累积，随着时间窗口的变化，遇到的数据可能发生巨变，使得 V t V_t Vt可能时大时小，不是单调变化。可能引起学习率震荡，模型无法收敛
    - 修正方法 V t = m a x ( β 2 ∗ V t − 1 + ( 1 − β 2 ) g t 2 , V t − 1 ) V_t=max(\beta_2*V_{t-1}+(1-\beta_2)g_t^2,V_{t-1}) Vt=max(β2∗Vt−1+(1−β2)gt2,Vt−1)
      保证 ∣ ∣ V t ∣ ∣ > = ∣ ∣ V t − 1 ∣ ∣ ||V_t||>=||V_{t-1}|| ∣∣Vt∣∣>=∣∣Vt−1∣∣,使得学习率单调递减
  - 可能错过全局最优解
    - 自适应学习率算法可能会对前期出现的特征过拟合，后期才出现的特征很难纠正前期的拟合效果。后期Adam的学习率太低，影响了有效的收敛
Nadam
- Adam是集大成者，但它居然遗漏了Nesterov
- 按照NAG的步骤 g t = ∇ f ( ω t − α ⋅ m t − 1 / V t ) g_t=\nabla{f(\omega_t-\alpha \cdot m_{t-1}/\sqrt{V_t})} gt=∇f(ωt−α⋅mt−1/Vt )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

optimizer