1. motivation
模型不可知元学习(MAML)是目前小样本元学习的主要方法之一。尽管MAML有效,但由于固有的双层结构,其优化可能具有挑战性。具体而言,这种双层结构使得MAML的损失面可能有更多的鞍点和局部极小值,也就更容易陷入局部最优,而不是其经验风险最小化对应值。
2. contribution
为了尽可能的避免陷入局部最优,本文利用最近的锐度感知最小化(sharpness aware minimization),提出了一种sharpness aware MAML方法,称之为Sharp-MAML。
实验部分Sharp-MAML达到了SOTA的效果。文中理论部分也进行了Sharp-MAML的收敛速度分析和泛化边界分析来补充实证研究。
3. 锐度感知最小化(SAM)
SAM利用损失面的几何形状,通过同时最小化损失值和损失锐度来提高泛化性能(Sharpness-aware minimization for efficiently improving generalization,ICLR 2021)。
SAM的优化问题为:
如果定义sharpness为:
那么SAM的优化目标就是最小化sharpness和经验损失的和。SAM通过在每次迭代t中进行如下步骤来寻找平坦最小值,即:
4. Sharp-MAML
MAML具有多个局部和全局最小值的复杂损失情况,这可能产生相似的经验损失值,同时具有显著不同的泛化性能。本文提出将SAM与MAML相结合给出了一个新的优化问题。
1) Sharp-MAML问题定义
使用两个非负的超参数和给出sharp的问题定义:
相比于MAML是一个双层优化问题,sharp-MAML是一个四层优化问题,但在算法设计中,将有效地近似(P)中的两个最大值,因此Sharp-MAML的成本几乎与MAML相同。
2)Sharp-MAML的三种变体
- : SAM只应用在任务内部更新过程:
- :SAM只应用在元更新过程:
5. 实验部分
6. 总结
虽然说本文的创新点就是把SAM和MAML进行了一个结合,但是理论(这部分的证明也是按照SAM的理论给了一个推导)和实验都比较充分。直观上但对我的帮助比较有限,SAM向损失中额外引入的梯度信息能够有效的提升模型的泛化性能,但在目标域上却不一定能有类似的效果。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)