公式
L1
![在这里插入图片描述](https://img-blog.csdnimg.cn/8883b2c588b449a0afad8d819169e12a.png)
L2
![在这里插入图片描述](https://img-blog.csdnimg.cn/7a0bdf7c73a14ebfbb2ada9a5d05f09d.png)
L1
令 x = fx - y
有Lx = |x|
求导数:
![在这里插入图片描述](https://img-blog.csdnimg.cn/33aa4b1358f74fc3a25a546f96c9e92f.png)
我们知道梯度更新方法为:
![](https://img-blog.csdnimg.cn/19ec4e360c5a43ceb1483d8ce1af9457.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/6f5c68d88fb847e59308b72a03cf62ef.png)
这样会有一个问题就是 为0 的时候不可导,另外当梯度很小时,很难收敛到极小值
优点: 前期收敛快,梯度不变,不容易收脏数据的影响,
缺点: 后期无法收敛,只能调学习率的方式,更新太快可能无法取到极小值
L2
![在这里插入图片描述](https://img-blog.csdnimg.cn/a1d20046788b401e97d26370f63bebaa.png)
令
,忽略求和及系数,则有L1(x)=x^2,其导数为
![在这里插入图片描述](https://img-blog.csdnimg.cn/d6e5538faca243568649e29af609f2df.png)
所以, l2 中, 预测和真实值的差值越大, 损失越大。
优点: 差值越大, 导数越大,反之, 容易收敛到极小值
缺点: 容易受到离群点,脏数据的影响,一开始梯度太大,容易出现训练不稳定, 梯度爆炸
![在这里插入图片描述](https://img-blog.csdnimg.cn/1b3e8f942d4f44be83d755a09fac3669.png)
Smooth l1
这是一个分段函数
![在这里插入图片描述](https://img-blog.csdnimg.cn/e6b028ae7207401698688ad5654ec8fd.png)
是l2 和l1 的结合体, 在梯度较小时,采用l2 较为平滑的方式, 较大时采用稳定的梯度下降。
![在这里插入图片描述](https://img-blog.csdnimg.cn/6015c9e8ce4741018e8e4fad93626f53.png)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)