NAG

深度学习优化算法大全系列3:NAG(Nesterov Acceleration Gradient)

1 NAG与SGD M的区别 NAG全称为Nesterov Accelerated Gradient 是在SGD Momentum基础进一步优化所得前面的文章我们提到过 SGD M主要是利用历史累积动量来代替当前梯度从而达到减小震荡加速

tensorflow深度学习算法 深度学习 动量 NAG SGDM

在Deep Learning中往往loss function是非凸的没有解析解我们需要通过优化方法来求解 Caffe通过协调的进行整个网络的前向传播推倒以及后向梯度对参数进行更新试图减小损失 Caffe已经封装好了三种优化方法分别

caffe Optimization SGD AdaGrad NAG

之前在https blog csdn net fengbingchun article details 124648766 介绍过Momentum SGD 这里介绍下深度学习的另一种优化算法NAG NAG Nesterov Accelera

Deep Learning NAG