[Transformer] AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition

2023-11-18

微调不到0.2%就超越现有微调方法?港大等提出即插即用的轻量级模块AdaptFormerhttps://mp.weixin.qq.com/s/v5OUKK2jZdm63SwP192yKQ

AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition

论文: https://arxiv.org/abs/2205.13535

代码: https://github.com/ShoufaChen/AdaptFormer

Introduction

尽管经过预训练的视觉Transformer(ViT)在计算机视觉方面取得了巨大成功,但将ViT适应各种图像和视频任务仍具有挑战性,因为ViT的计算和存储负担很重,每个模型都需要独立地微调以适应不同的任务,从而限制了其在不同领域的可迁移性。为了应对这一挑战,作者提出了一种有效的Transformer自适应方法,即AdaptFormer,它可以将预训练好的VIT有效地适应许多不同的图像和视频任务。

它具有比现有技术相比的几个优点:

首先,AdaptFormer引入了轻量级模块,只向ViT添加了不到2%的额外参数,而它能够在不更新其原始预训练参数的情况下增加ViT的可迁移性,在动作识别基准上显著优于现有的完全微调的模型。

其次,它可以在不同的Transformer中即插即用,并可扩展到许多视觉任务。

第三,在五个图像和视频数据集上进行的大量实验表明,AdaptFormer在很大程度上改善了目标域中的ViTs。例如,当只更新1.5%的额外参数时,与Something-Something v2和HMDB51上的完全优化模型相比,它分别实现了约10%和19%的相对改进。

如上图所示,相比于完全微调整个模型,只微调0.1%参数的AdaptFormer达到了相似的性能。同时,AdaptFormer的可调参数不到2%时,在top-1精度上就超过了完全微调解决方案。

Architecture

 

图a:传统Transformer block

图b:adaptformer

用AdaptMLP代替MLP块。AdaptMLP由两个子分支组成。

左分支中的MLP层与原始网络相同。

右分支是另外引入的用于任务特定优化的轻量级模块,设计为瓶颈结构,用于限制参数量。

在微调阶段,原始模型部件(图b中的蓝色块)从预训练的checkpoint加载权重,并保持不变,避免下游任务之间的交互。新添加的参数(橙色块)在特定数据域上随任务特定损失进行更新。

在微调后,作者保持共享参数固定,并额外加载前一阶段微调的额外参数的权重。在引入的轻量级模块的帮助下,单个整体模型能够适应多个任务。

 

Discussion

Tunable parameters analysis

本文的AdaptMLP模块是轻量级的。瓶颈结构的中间通道数很小,因此新引入的参数量很少。因此当添加更多的下游任务时,总模型大小的增长几乎可以忽略。

Applicability

AdaptMLP是一个即插即用模块,可以自适应地插入现有流行的vision transformer架构中。

因为即使不同的ViT可能在MHSA架构中有所不同,但所有主干网络都有相同的MLP层。

与本文的方法相比,最近的prompt相关方法将可训练参数插入到token空间中,如上图所示。

他们在线性投影之前将可学习的参数预先添加到嵌入的token中,

或者在线性投影之后将可学习的参数添加到key and value token中【VPT】。

因此,prompt相关方法不能直接适用于特殊MHSA变体。

此外,根据实验结果,当patch token的数量从图像到视频规模增长时,prompt相关方法的性能不佳。

实验设置

预训练backbone:

使用ViT作为backbone,利用监督训练和自监督训练两种方式对模型进行预训练。

对于image,使用ImageNet-21k监督训练的预训练模型,以及MAE自监督训练模型。对于video,使用VideoMAE监督训练和自监督训练的模型。

AdaptFormer的初始化:

对于原始模型,直接load上游任务中预训练的权重,在微调过程中保持预训练权重frozen。对于新添加的模块,down映射层用Kaiming Normal初始化,其余的部分用零初始化。

Baseline methods:

将AdaptFormer与其他三个常用的微调方法进行比较。

(1)linear probing:将pretrain model作为特征提取器,后面添加一个额外的线性层,只有线性层的参数会更新。

(2)Full Fine-tuning:将所有的参数都设为可学习

(3)VPT:将可学习的参数添加到key and value token中,微调添加的额外参数

下游任务:

image:CIFAR-100 SVHN Food-101

video:SSv2 HMDB51

Experiment

作者将不同微调方法的性能与通过监督训练和自监督预训练的主干进行比较。结果表明,AdaptFormer始终优于linear probing和Visual Prompt tuning(VPT)方法。

如下图4所示,作者在SSv2和HMDB-51数据集上进行了可调参数实验。可以看出,相比于VPT方法,本文的方法在两个数据集上都能达到更高的性能。

通过监测训练阶段的测试精度,作者进一步研究了VPT的优化过程。如图5所示,作者逐渐增加VPT中的token数量,并绘制每个epoch的Top-1精度。当token数小于或等于4时,训练阶段是稳定的,例如{1,2,4}。然而,当数字变为8或更大时,例如{8,16,32},训练过程在大约第十个epoch时崩溃,在训练阶段结束时表现不佳。

消融实验

表a:中间维度控制了AdaptFormer引入参数的数量。小的中间维度引入的参数较少,可能会带来性能损失。作者在中间特征维度上进行消融来研究这种影响。如表a所示,当中间尺寸增加到64时,精度持续提高,当中间尺寸约为64时,精度达到饱和点。

表b:AdaptFormer的性能与添加的层数呈正相关。此外,当引入相同数量的层时,AdapterFormer更喜欢网络的顶部(远离输入图像的部分)而不是底部。

图6:比较并行和串行实例来研究插入方法。并行AdaptFormer比串行AdaptFormer的精度高出0.85%。

图7:对于普通ViT,嵌入patch token的数量随着视频帧的数量线性增加。作者使用不同数量的帧进行了实验,即{2,4,8},结果如上图所示。作者观察到,增加帧数对所有这三种微调方法都是有益的。然而,AdaptFormer始终优于线性方式和VPT方法。

作者使用在ImagNet-21k上预训练的模型在SSv2和HMDB-51上进行动作识别。如表3所示,AdaptFormer对模态引起的域迁移具有鲁棒性。

 

Conclusion

本文提出了一个概念简单但有效的框架AdaptFormer,用于有效地将预训练的视觉Transformer(ViT)主干迁移到可伸缩的视觉识别任务。通过引入AdaptMLP,本文的AdaptFormer能够调整轻量级模块,以生成适应多个下游任务的特征。在五个数据集(包括图像和视频域)上进行的大量实验验证了本文提出的方法能够以较小的计算成本提高ViT的可迁移性。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

[Transformer] AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition 的相关文章

随机推荐

  • selenium+java实现web自动化例子

    简单记录 有不正确的地方请指出 selenium java可以实现对web页面的自动化控制 在公司内部比较稳定 页面迭代较少的后台web系统使用时非常有效 web自动化收益最大化的情况 1 多更新于后端 前端页面迭代较少 2 在日常迭代中页
  • C++vector容器

    vector容器被称为动态数组 也被称为向量 它与array容器的区别是 array是静态数组 动态扩展 并不是在原空间之后续接新空间 而是找更大的内存空间 然后将原数据拷贝新空间 释放原空间 at 函数 返回对矢量中指定位置的元素的引用
  • 第零章 内核网络相关配置选项--基于Linux 3.10

    Kconfig选项 packet protocol 被直接和网络设备通信的应用程序使用 其没有使用内核的其它协议 像tcpdump支持需要使能该选项 af packet lt gt Packet socket 支持PF PACKET套接字
  • kubeadm构建(Calico+Dashboard+Containerd)

    文章目录 前言 一 环境 二 部署容器网络 CNI master操作 1 下载yamll 2 修改yaml 3 部署 三 部署 Dashboard 1 下载yaml 2 修改yaml 3 部署 4 创建管理员 四 切换容器引擎为Contai
  • 区块链开发之Solidity编程基础(一)

    Solidy是当前编写智能合约的主流语言 概要 sol文件结构 编译开发 引入其他文件 注释 代码注释 文档注释 合约 状态变量 类型 值类型 1 布尔类型 2 整型 3 地址 4 定长字节数组 5 有理数和整型字面量 6 枚举类型 7 函
  • controller与servlet的区别

    理解1 你可以理解为 Spring MVC是基于servlet的 它有一个DispatherServlet 然后它负责处理请求 并且调用了你的controller 打一个比方 web网站是应用程序么 你可以说浏览器是一个应用程序 而web网
  • ElementUi tab组件切换导致echarts宽度变窄问题

    解决tab组件变成100px的问题 使用echarts实例自带的resize 方法
  • 大话数据结构:栈与队列(1)

    栈 限定仅在表尾进行插入和删除操作的线性表 栈顶 允许插入和删除的一端 栈底 不允许插入和删除的一端 空栈 不含任何数据元素的栈 后进先出的线性表 LIFO结构 进栈 栈的插入 出栈 栈的删除 元素数量多 出栈的变化会更多 栈的抽象数据类型
  • pytorch实战-图像分类(一)(数据预处理)

    目录 1 导入各种库 2 数据预处理 2 1数据读取 2 2图像增强 3 构建数据网络 3 1网络构建 3 2读取标签对应的名字 4 展示数据 4 1数据转换 4 2画图 5 模型训练 1 导入各种库 上代码 import os impor
  • QQ IDKey生成--一键加群

    今天网站用到一个点击链接调用qq自动加群的弹窗功能 感觉还挺方面 记录下来以备后用 首先打开qq推广首页http shang qq com v3 index html 然后登陆需要绑定的QQ号 选择左侧一键加群组件 左侧 请选择你创建的群
  • cdc多bit信号-握手处理

    对于多bit数据跨时钟 各个bit之间路径延迟不一样 源时钟域给的数据是2 b11 目的时钟域采样到的数据可能2 b10 因此两级触发器对于单bit数据跨时钟是可以用的 但是对于多bit数据跨时钟就会出错 握手处理的关键是利用源的时钟req
  • ev3的c语言编程软件,乐高EV3编程软件教育版下载

    乐高EV3编程软件教育版官方版是一款用于机器人编程的应用工具 乐高EV3编程软件教育版最新版可以通过可视化图标形式编程 用以控制机器人的各种动作指令 乐高EV3编程软件教育版操作起来比较简单 发挥你的想象 创造无限的编程可能 软件说明 乐高
  • 【随笔三】一篇文章理清 节流、防抖以及应用场景

    前言 防抖 和 节流 很多人特别容易把概念混倄 今天 一篇文章教你彻底理清其中的概念及应用场景 先说共同点 防抖 和 节流 函数都是为了 限制函数的执行频次 从而优化函数触发频率过高导致的响应速度跟不上触发频率 导致出现延迟 卡顿的现象以及
  • css设置背景图片大小_如何使用CSS设置背景图片大小?

    css设置背景图片大小 Introduction 介绍 As we all know that the images are a very responsive yet very creative way to display your w
  • Python教程基础篇,超详细超长!

    安装Python 前往 官网下载 对应平台对应工具 另外Python2 7版本和3 3版本并不兼容 所以开发时请注意使用Python的版本 作为Mac OS X使用者 其实更推荐 PyCharm IDE 安装之后直接使用即可 数据类型 计算
  • 在多行文本输入框光标指定位置插入内容并改变光标位置

    h1 测试在指定位置插入内容并改变光标位置 h1
  • java反射<T extends Comparable<? super T>>说明

  • 【QT】如何自定义QMessageBox的窗口大小,通过继承QDialog重新实现美观的弹窗

    目录 1 QMessageBox原有的弹窗 2 网上第一种方法 通过样式表setStyleSheet实现改变弹窗大小 总体不美观 3 网上第二种方法 重写ShowEvent 改变弹窗大小 总体也不美观 4 最好的办法 继承QDialog重新
  • 环境搭建和编译-kernel

    文章目录 一 下载Kernel 二 下载完代码后配置环境变量 三 编译内核 四 编译uboot 五 编译中的错误 这里主要记录下kernel的代码下载和编译 一 下载Kernel git clone https gerrit googles
  • [Transformer] AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition

    微调不到0 2 就超越现有微调方法 港大等提出即插即用的轻量级模块AdaptFormerhttps mp weixin qq com s v5OUKK2jZdm63SwP192yKQ AdaptFormer Adapting Vision