我们应该为 adam 优化器做学习率衰减吗

2024-02-13

我正在使用 Adam 优化器训练图像定位网络,有人建议我使用指数衰减。我不想尝试这个,因为 Adam 优化器本身会降低学习率。但那家伙坚持说他以前就这么做过。那么我应该这样做吗?你的建议背后有什么理论依据吗?


这取决于。 ADAM 使用单独的学习率更新任何参数。这意味着网络中的每个参数都有一个特定的相关学习率。

But每个参数的单个学习率是使用 lambda(初始学习率)作为上限计算的。这意味着每个学习率可以从 0(无更新)到 lambda(最大更新)变化。

确实,学习率在训练步骤中会自行调整,但如果您想确保每个更新步骤不超过 lambda,您可以使用指数衰减或其他方式降低 lambda。 当使用先前关联的 lambda 参数计算出的损失停止减少时,它可以帮助减少训练的最新步骤中的损失。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

我们应该为 adam 优化器做学习率衰减吗 的相关文章

随机推荐