TF在learning_rate_decay.py中提供了几种非常骚气的学习率下降方法,今天就来玩一玩。只需要简单的参数设定,就能够产生神奇的lr衰减效果。
首先简介lr的一般使用方法:
lr = cosine_decay_restarts(
cfg.TRAIN.LEARNING_RATE * 10,
global_step,
first_decay_steps,
t_mul=2.0,
m_mul=1.0,
alpha=0.0
)
...
total_loss = self.net.train_step(sess, blobs, lr.eval(), train_op)
一、cosine_decay_restarts
在ICLR2016的论文**[Loshchilov & Hutter, ICLR2016], SGDR: Stochastic Gradient Descent with Warm Restarts**中介绍了Warm的学习率设计方法。简而言之就是衰减了但是还会回来,周期性地变化。使用方法如下:
tf.train.cosine_decay_restarts(
learning_rate,
global_step,
first_decay_steps,
t_mul=2.0,
m_mul=1.0,
alpha=0.0,
name=None
)
大概长这样:
还有更多有意思的下降方法:[link]
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)