感谢沐神教我深度学习🙏
损失为什么要平均?
平均即除以batch_size,若不除,则批越大梯度越大,梯度下降的步长就越大。除以batch_size可使梯度与批大小无关。也可以不在损失函数中除,将学习率lr除以batch_size也一样。参照下面公式(图片来自@跟李沐学AI 的动手学深度学习)
批大小对训练的影响
批越小越好。随机梯度下降的随机会带来噪音,批越小,则噪音越大,对于神经网络来说,噪音是好事,可以抑制过拟合
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)