元学习论文解读 | Repurposing pretrained models for robust out-of-domain few-shot learning, ICLR2022

2023-05-16

Motivation

MAML在元训练任务上训练学习模型初始化(也称为checkpoint)，根据得到的初始化，在测试任务的支持集上进行几个梯度步骤的任务适应，就可以得到在查询集上的良好预测。然而在实践中，在元训练集上进行re-train或fine-tune可能是行不通的，并且测试任务可能来自不同的分布（cross-domain），所以元测试的优化步长不一定要和元训练一致。

Contribution

提出在测试时元训练集不可获得的情况下的跨域小样本分类任务问题；
提出一种基于不确定性的步长适应和对抗数据增强的方法；
在所给出的问题设置下，相比于MAML有一个比较大的提升。

核心内容

1. Motivating hypotheses

在元测试时，作者假设可以通过模型参数估计特定任务的不确定性。本文采用的方法是在支持集上训练ensembles，并估计模型参数的方差——每个模型学习到的参数略有不同，产生的梯度也略有不同，于是就可以将得到的参数的方差和梯度的方差视为任务特定的不确定性。

鉴于估计得到的任务不确定性，本文给出了两个方案对MAML进行改进：

Proposal 1 (task-specific stepsizes) 模型参数具有较高方差时使用较小的步长。

如果用较大的步长移动高方差分量，方差会进一步放大。（集成模型不收敛）

Proposal 2 (Task-specific adversarial examples) 梯度具有较高方差时使用具有较高对抗性扰动的对抗性样本。

梯度的方差越小，说明这个样本对模型来时是易于学的，所以需要更大的扰动增加鲁棒性。

（这里将对抗性训练视为元测试时的一种数据增广或正则化形式。）

2. Uncertainty-based gradient steps at test-time

(1) USA (uncertainty-based stepsize adaptation)

基本思想：layer-wise的步长与参数的方差成反比

例如，在mini-imagenet上得到的结果如下：

(2) UFGSM (uncertainty-based fast gradient sign method)

基本思想：对抗样本的扰动程度与梯度的方差成正比。

例如，在mini-imagenet上得到的结果如下：

结合两个模块USA和UFGSM，最后meta-test阶段算法伪代码如下：

实验结果

总结

虽然本文主要针对的是meta-test阶段对步长和样本增强方面的一些考虑，其中可取的地方是利用模型集成（或者就可以理解成BMAML中粒子的概念）对任务不确定性的建模，包含了两部分：模型参数的方差，梯度的方差。那么能不能根据单个模型在不同domain任务上会获得的参数方差或者梯度方差捕获一些域的特征（比如来自该域的任务所需要的参数的方差），来帮助后面任务的训练。比如说PMAML中，学习的就是参数的均值和方差，面对特定任务时进行采样获得任务特定参数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)