论文阅读 | Sharp-MAML: Sharpness-Aware Model-Agnostic Meta Learning, ICML2022

2023-05-16

1. motivation

模型不可知元学习（MAML）是目前小样本元学习的主要方法之一。尽管MAML有效，但由于固有的双层结构，其优化可能具有挑战性。具体而言，这种双层结构使得MAML的损失面可能有更多的鞍点和局部极小值，也就更容易陷入局部最优，而不是其经验风险最小化对应值。

2. contribution

为了尽可能的避免陷入局部最优，本文利用最近的锐度感知最小化（sharpness aware minimization），提出了一种sharpness aware MAML方法，称之为Sharp-MAML。

实验部分Sharp-MAML达到了SOTA的效果。文中理论部分也进行了Sharp-MAML的收敛速度分析和泛化边界分析来补充实证研究。

3. 锐度感知最小化（SAM）

SAM利用损失面的几何形状，通过同时最小化损失值和损失锐度来提高泛化性能（Sharpness-aware minimization for efficiently improving generalization，ICLR 2021）。

SAM的优化问题为：

如果定义sharpness为：

那么SAM的优化目标就是最小化sharpness和经验损失的和。SAM通过在每次迭代t中进行如下步骤来寻找平坦最小值，即：

4. Sharp-MAML

MAML具有多个局部和全局最小值的复杂损失情况，这可能产生相似的经验损失值，同时具有显著不同的泛化性能。本文提出将SAM与MAML相结合给出了一个新的优化问题。

1) Sharp-MAML问题定义

使用两个非负的超参数和给出sharp的问题定义：

相比于MAML是一个双层优化问题，sharp-MAML是一个四层优化问题，但在算法设计中，将有效地近似（P）中的两个最大值，因此Sharp-MAML的成本几乎与MAML相同。

2）Sharp-MAML的三种变体

$Sharp-MAML_{low}$ : SAM只应用在任务内部更新过程：

$Sharp-MAML_{up}$ ：SAM只应用在元更新过程：

$Sharp-MAML_{both}$ ：SAM同时应用在任务内部更新过程和元更新过程。

对于任务m，perturbation的计算为：

那么对于每个任务都能够计算得到任务参数：

在所有任务的query set上就可以计算得到元梯度：

由此可以计算元更新阶段的perturbation：

那么元更新阶段的扰动微调参数，就为：

则元更新过程就为：

5. 实验部分

6. 总结

虽然说本文的创新点就是把SAM和MAML进行了一个结合，但是理论（这部分的证明也是按照SAM的理论给了一个推导）和实验都比较充分。直观上但对我的帮助比较有限，SAM向损失中额外引入的梯度信息能够有效的提升模型的泛化性能，但在目标域上却不一定能有类似的效果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Sharp

MAML

Sharpness

aware

model

论文阅读 | Sharp-MAML: Sharpness-Aware Model-Agnostic Meta Learning, ICML2022 的相关文章

Rails 验证虚拟属性

我这个型号 class Bunny lt ActiveRecord Base attr accessor number validates presence of number validates numericality of numbe
laravel 使用 php artisan 时从自定义存根创建模型

当我使用php artisan make model CustomNamespace TestModel 我得到一个基于默认存根的模型如下所示 namespace App Models CustomNamespace use Illumi
如何将模型数据对象数组转换为dataProvider

假设我有模型User与其自身有多对多的关系命名为friends so user gt friends or model gt friends在视图中给了我一个数组User对象我想将朋友显示为网格视图但CGridView数据为data
AngularJS 的面向对象方法

Angular 似乎没有提供内置的解决方案来定义具有属性和方法的类实例并且需要开发人员来构建它您认为这样做的最佳做法是什么如何将其与后端链接我收集的一些技巧使用工厂服务和命名函数资料来源 Tuto 1 https medium c
如何将 tf.metrics.__ 与估计器模型预测输出一起使用

我尝试遵循tensorflow API 1 4文档来实现我在学习过程中所需要的我现在在这个阶段可以生成一个预测对象例如 classifier tf estimator DNNClassifier feature columns fea
覆盖 Django 模型 __init__ 方法

我的 Django 项目的 Ingredient 模型有一个IntegerField它声明该原料库存是否按重量单位或窝数进行管理虽然数据库有它的integervalue 我必须显示它的名称我认为最好覆盖每个成分并设置其值而不是覆盖
现有模型和数据库表的rails g脚手架

我想创建一个结构rails g scaffold Article 但我已经创建了表Articles和型号Articles 有什么办法可以做到这一点吗 rails generate scaffold controller Article
Django与领域和自身的多对多关系独特

我尝试使用语言和内容创建帖子并将其与同一页面的其他版本相关联但我陷入困境 class Page models Model content models TextField language models CharField max le
如何从 model+ModelForm 获取文本区域？

模型 py gt from django db import models from django forms import ModelForm from datetime import date import datetime from
Kohana 3：经过验证的模型示例

我找到有关模型和验证的示例和教程我说验证或至少大部分应该在模型中我同意这一点但我无法提供任何示例或教程来说明应该如何完成此操作谁能帮我举一个简单的例子来说明如何做到这一点模型中的规则在哪里验证将在哪里进行控制器如何知道验证
如何将 Request->all() 与 Eloquent 模型一起使用

我有一个 lumen 应用程序需要在其中存储传入的 JSON 请求如果我写这样的代码 public function store Request request if request gt isJson data request gt
如何使用SqlAlchemy通过id查询数据库？

我需要通过其查询 SQLAlchemy 数据库id类似的东西 User query filter by username peter 但对于身份证我该怎么做呢通过 Google 和 SO 搜索没有帮助查询有一个获取函数 https d
MVC 模型在 OnExecuted 操作过滤器中为 null ...或者设置模型的更优雅的方式？

我有一个 ActionFilter 它覆盖了 OnActionExecuted 方法在 POST 操作中 filterContext Controller ViewData Model 始终为 null 我确实发现下面的文章似乎在说它不应
Keras 中的 model.fit() 和 model.evaluate() 有什么区别？

我使用 Keras 和 TensorFlow 后端来训练 CNN 模型之间是什么model fit and model evaluate 我应该最好使用哪一种我在用model fit 截至目前我知道的用处model fit and m
使用 sunspot/solr 搜索多个模型

我已经能够成功地实现基本的全文搜索但是当我尝试使用范围 with statements 时任何涉及多对多关系模型的查询似乎都不适合我我知道相关行位于数据库中因为我的 sql 语句确实返回了数据然而太阳黑子查询不会返回任何结果我
使模型绑定适用于没有默认构造函数的模型

我一直在试图找到一种方法让模型绑定与带有参数的构造函数的模型一起进行那个行动 HttpPost public ActionResult Create Company company HttpPostedFileBase logo com
SQLAlchemy - 连接表关系上的 order_by

我正在使用声明式 SQLAlchemy 并且有三个模型 Role Permission and RolePermission 在我的Role模型我有以下内容 class Role Base name Column u NAME VARCH
如何使用 django 更新会计应用程序中的余额？

我正在学习 Django 尝试制作一个会计应用程序来跟踪我的开支等我使用两种模型创建数据库一种用于帐户一种用于操作但我不知道如何在每次操作时更新我的余额我在想也许每次我保存一个新操作时我都会通过覆盖操作模型的保存方法来更新余
如何在模型更改时停止ListView“跳跃”

我需要做什么我需要创建一个聊天窗口用一个ListView在 QML 中存储聊天消息我设置listView positionViewAtEnd 以便跟踪最后的消息我禁用positionViewAtEnd当我向上滚动时我可以阅读过去的消
Magento：如何覆盖本地模块中的模型

我试图在本地文件夹中覆盖本地文件夹中的模块但我不知道是否可能这就是我所做的我创建了 local Mycompany Modulename Model Model php 我想覆盖 local Othercompany Modulena

随机推荐

java 向上转型与向下转型

基础知识 xff1a Java中的继承机制使得一个类可以继承另一个类 xff0c 继承的类称为子类 xff0c 被继承的类称为父类在一个子类被创建的时候 xff0c 首先会在内存中创建一个父类对象 xff0c 然后在父类对象外部放上子类独
在Arm/Linux下安装python的pytorch库

在Arm Linux下安装python的pytorch库通过pip安装torch库 xff0c 报以下错误 nvidia 64 nx pengjing pytorch packget span class token function s
Ubuntu（Jetson nano） qtcreator配置Libtorch、Qt、opencv

opencv配置 jetson nano自带opencv span class token comment opencv span INCLUDEPATH span class token operator 43 61 span span
Curl工具的说明-安装-简单使用

目录 1 Curl是什么 2 Curl在Windows下安装流程 3 Curl在Linux系统下安装流程 xff1a 4 Curl常用的参数及说明 xff1a 1 Curl是什么在前后端的日常使用中会利用curl这种工具来代替Postma
Linux 网桥配置命令：brctl

Linux 网桥配置命令 xff1a brctl linux brctl Linux网关模式下将有线LAN和无线LAN共享网段实现局域网内互联思路其实很简单 xff1a 就是将虚拟出一个bridge口 xff0c 将对应的有线LAN和无线
C语言笔记（贪吃蛇）

span class token comment 忘记了在那里找到的 xff0c 希望原作者大度 x1f604 xff0c 不和我这个菜鸟计较 span span class token macro property span class
防止暴力破解ssh的四种方法

一方法介绍防止暴力破解的四种方法 xff1a 1 密码要写的足够的复杂 xff0c 通常建议将密码写16位 xff0c 并且无连贯的数字或者字母 xff1b 当然也可以固定一个时间修改一次密码 xff0c 推荐是一个月修改一次会稳妥一些
RTOS面试常问题目

RTOS常见面试问题 RTOS的实时性是如何实现的任务之间是如何通信的二值信号量和互斥量的区别任务通知是怎么是实现的RTOS内核是怎么调度的FreeRTOS四种任务状态 RTOS的实时性是如何实现的一个处理器核心在某一时刻只能运行一个任务
STM32+ze-08甲醛传感器使用教程

新房子快下来了 xff0c 装修后怕甲醛影响身体 xff0c 便决定自己动手做一个甲醛传感器检测 xff0c 本来很简单的一个东西 xff0c 做了快一个月了 xff0c 简直是累死个人 xff0c 下面听我慢慢给大家道来硬件平台 xff
华为交换机配置链路聚合（手工模式链路聚合和lacp模式聚合）

转载至 xff1a 华为交换机配置链路聚合 xff08 手工模式链路聚合和lacp模式聚合 xff09 年华学习日记的博客 CSDN博客华为链路聚合华为交换机配置链路聚合链路聚合 xff08 Eth Trunk xff09 xff0c
说走就走的「Windows」—— Windows To Go 制作详解

拥有 Mac 的同学大概都会碰到一个头疼的问题 xff0c 那就是使用 Windows 的使用需求 macOS 虽好 xff0c 不过总是会有一些讨厌的软件没有 Mac 版本 xff0c 这时就不得不在 Mac 上跑 Windows 了使
玩转华为数据中心交换机系列 | 配置动态LACP模式的链路聚合示例

转载至 xff1a 玩转华为数据中心交换机系列配置动态LACP模式的链路聚合示例 COCOgsta的博客 CSDN博客华为lacp动态聚合素材来源 xff1a 华为数据中心交换机配置指南一边学习一边整理试验笔记 xff0c 并与大家
BASH命令之乐（2）之find

继BASH命令之乐 xff08 1 xff09 xff0c 继续BASH命令学习本篇文章介绍 find命令 find命令的工作方式沿着文件层次结构向下遍历 xff0c 匹配符合条件的文件 xff0c 并执行相应的操作默认路径为当前目录
你会为 AI 转型么？我在考虑。。。

缘起看到CSDN发起的征文活动你会为 AI 转型么 xff1f xff0c 有点感想 xff0c 想记录下来 xff0c 可能不值得参考认识对人工智能的认识大部分是来源于电影 xff0c 像我 xff0c 机器人 xff0c 印度先生
BATJ关于Redis的高频面试真题

1 Redis持久化机制 2 缓存雪崩缓存穿透缓存预热缓存更新缓存降级等问题 3 热点数据和冷数据是什么 4 Memcache与Redis的区别都有哪些 xff1f 5 单线程的redis为什么这么快 6 redis的数据类型 xf
元学习论文解读 | Repurposing pretrained models for robust out-of-domain few-shot learning, ICLR2022

Motivation MAML 在元训练任务上训练学习模型初始化也称为 checkpoint xff0c 根据得到的初始化 xff0c 在测试任务的支持集上进行几个梯度步骤的任务适应 xff0c 就可以得到在查询集上的良好预测然而在实践
论文解读 | Negative Margin Matters: Understanding Margin in Few-shot Classification, ECCV2020 spotlight

Motivation 在度量学习中 xff0c 一些方法额外加一个正的边界整合到 softmax 损失或余弦 softmax 损失 xff0c 以强制在真实标签类的分数比其他类的分数至少大一个 margin xff08 正的 xff09 这
Dynamic Distillation Network for Cross-Domain Few-Shot Recognition with Unlabeled Data, NeurIPS 2021

motivation STARTUP ICLR2021 中提出基于self training的思想用target domain的去标记数据联合训练模型但STARTUP中使用在base classes上预先训练得到的网络 xff0c 为未标
元学习论文阅读 | CAD: Co-Adapting Discriminative Features for Improved Few-Shot Classification, CVPR2022

1 motivation FEAT CVPR2020 中提出了embedding adaptation这个概念 xff0c 具体来说就是对support set的样本利用transformer等方式实现信息聚合 xff0c 获取这些样本更好
论文阅读 | Sharp-MAML: Sharpness-Aware Model-Agnostic Meta Learning, ICML2022

1 motivation 模型不可知元学习 xff08 MAML xff09 是目前小样本元学习的主要方法之一尽管MAML有效 xff0c 但由于固有的双层结构 xff0c 其优化可能具有挑战性具体而言 xff0c 这种双层结构使得MA

热门标签