I am finetuning
using Caffe
在图像数据集上Tesla K40
。用一个batch size=47
, solver_type=SGD
, base_lr=0.001
, lr_policy="step"
, momentum=0.9
, gamma=0.1
, the training loss
减少并且test accuracy
来自2%-50%
in 100
迭代这非常好。
当使用其他优化器时,例如RMSPROP
, ADAM
and ADADELTA
, the training loss
甚至几乎保持不变,没有任何改善test accuracy
after 1000
迭代。
For RMSPROP
,我已经按照提到的方式更改了相应的参数here https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet_solver_rmsprop.prototxt.
For ADAM
,我已经按照提到的方式更改了相应的参数here https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet_solver_adam.prototxt
For ADADELTA
,我已经按照提到的方式更改了相应的参数here https://github.com/BVLC/caffe/blob/master/examples/mnist/lenet_adadelta_solver.prototxt
有人可以告诉我我做错了什么吗?
我看到了与 pir 类似的结果:当给定 SGD 使用的相同的 base_lr 时,Adam 会发散。当我将base_lr减少到原始值的1/100时,Adam突然收敛,并给出了很好的结果。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)