我明白梯度下降的作用。基本上,它试图通过缓慢地沿着曲线移动来走向局部最优解。我想了解普通梯度下降法和牛顿法之间的实际区别是什么?
我从维基百科上读到了这样一句话:“牛顿方法使用曲率信息来采取更直接的路线。”这直观上意味着什么?
在局部最小值(或最大值)x
,目标函数的导数f
消失:f'(x) = 0
(假设有足够的平滑度f
).
梯度下降试图找到这样的最小值x
通过使用一阶导数的信息f
:它只是遵循从当前点开始的最陡下降。这就像在图表中滚动一个球f
直到它静止(同时忽略惯性)。
牛顿法试图找到一个点x
满意的f'(x) = 0
通过近似f'
具有线性函数g
然后显式求解该函数的根(这称为牛顿求根法)。的根g
不一定是根f'
,但在很多情况下这是一个很好的猜测(维基百科关于牛顿求根法的文章 http://en.wikipedia.org/wiki/Newton%27s_method有关于收敛标准的更多信息)。在逼近的同时f'
,牛顿法利用f''
(曲率f
)。这意味着它对流畅度有更高的要求f
,但这也意味着(通过使用更多信息)它通常收敛得更快。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)