CVPR 2023｜DropKey：两行代码高效缓解ViT过拟合（美图&国科大）

2023-05-16

编辑 | CV技术指南

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【全栈算法】技术交流群

前言美图影像研究院（MT Lab）与中国科学院大学突破性地提出正则化方法 DropKey，用于缓解 Vision Transformer 中的过拟合问题。该方法通过在注意力计算阶段随机 drop 部分 Key 以鼓励网络捕获目标对象的全局信息，从而避免了由过于聚焦局部信息所引发的模型偏置问题，继而提升了基于 Transformer 的视觉类算法的精度。该论文已被计算机视觉三大顶会之一 CVPR 2023 接收。

近期，基于 Transformer 的算法被广泛应用于计算机视觉的各类任务中，但该类算法在训练数据量较小时容易产生过拟合问题。现有 Vision Transformer 通常直接引入 CNN 中常用的 Dropout 算法作为正则化器，其在注意力权重图上进行随机 Drop 并为不同深度的注意力层设置统一的 drop 概率。尽管 Dropout 十分简单，但这种 drop 方式主要面临三个主要问题。

首先，在 softmax 归一化后进行随机 Drop 会打破注意力权重的概率分布并且无法对权重峰值进行惩罚，从而导致模型仍会过拟合于局部特定信息（如图 1）。其次，网络深层中较大的 Drop 概率会导致高层语义信息缺失，而浅层中较小的 drop 概率会导致过拟合于底层细节特征，因此恒定的 drop 概率会导致训练过程的不稳定。最后，CNN 中常用的结构化 drop 方式在 Vision Transformer 上的有效性并不明朗。

图 1 不同正则化器对注意力分布图的影响

美图影像研究院（MT Lab）与中国科学院大学在 CVPR 2023 上发表了一篇文章，提出一种新颖且即插即用的正则化器 DropKey，该正则化器可以有效缓解 Vision Transformer 中的过拟合问题。

论文链接：https://arxiv.org/abs/2208.02646

文章中对以下三个核心问题进行了研究：

第一，在注意力层应该对什么信息执行 Drop 操作？与直接 Drop 注意力权重不同，该方法在计算注意力矩阵之前执行 Drop 操作，并将 Key 作为基础 Drop 单元。该方法在理论上验证了正则化器 DropKey 可以对高注意力区域进行惩罚并将注意力权值分配到其它感兴趣的区域，从而增强模型对全局信息的捕获能力。

第二，如何设置 Drop 概率？与所有层共享同一个 Drop 概率相比，该论文提出了一种新颖的 Drop 概率设置方法，即随着自注意力层的加深而逐渐衰减 Drop 概率值。

第三，是否需要像 CNN 一样进行结构化 Drop 操作？该方法尝试了基于块窗口和交叉窗口的结构化 Drop 方式，并发现这种技巧对于 Vision Transformer 来说并不重要。

背景

Vision Transformer（ViT）是近期计算机视觉模型中的新范式，它被广泛地应用于图像识别、图像分割、人体关键点检测和人物互相检测等任务中。具体而言，ViT 将图片分割为固定数量的图像块，将每个图像块都视作一个基本单位，同时引入了多头自注意力机制来提取包含相互关系的特征信息。但现有 ViT 类方法在小数据集上往往会出现过拟合问题，即仅使用目标局部特征来完成指定任务。

为了克服以上问题，该论文提出了一种即插即拔、仅需要两行代码便可实现的正则化器 DropKey 用以缓解 ViT 类方法的过拟合问题。不同于已有的 Dropout，DropKey 将 Key 设置为 drop 对象并从理论和实验上验证了该改变可以对高注意力值部分进行惩罚，同时鼓励模型更多关注与目标有关的其他图像块，有助于捕捉全局鲁棒特征。此外，该论文还提出为不断加深的注意力层设置递减的 drop 概率，这可以避免模型过度拟合低级特征并同时保证有充足的高级特征以进行稳定的训练。此外，该论文还通过实验证明，结构化 drop 方法对 ViT 来说不是必要的。

DropKey

为了探究引发过拟合问题的本质原因，该研究首先将注意力机制形式化为一个简单的优化目标并对其拉格朗日展开形式进行分析。发现当模型在不断地优化时，当前迭代中注意力占比越大的图像块，在下次迭代过程中会倾向于被分配更大的注意力权值。为缓解这一问题，DropKey 通过随机 drop 部分 Key 的方式来隐式地为每个注意力块分配一个自适应算子以约束注意力分布从而使其变得更加平滑。值得注意的是，相对于其他根据特定任务而设计的正则化器，DropKey 无需任何手工设计。由于在训练阶段对 Key 执行随机 drop，这将导致训练和测试阶段的输出期望不一致，因此该方法还提出使用蒙特卡洛方法或微调技巧以对齐输出期望。此外，该方法的实现仅需两行代码，具体如图 2 所示。

图 2 DropKey 实现方法

一般而言，ViT 会叠加多个注意力层以逐步学习高维特征。通常，较浅层会提取低维视觉特征，而深层则旨在提取建模空间上粗糙但复杂的信息。因此，该研究尝试为深层设置较小的 drop 概率以避免丢失目标对象的重要信息。具体而言，DropKey 并不在每一层以固定的概率执行随机 drop，而是随着层数的不断加深而逐渐降低 drop 的概率。此外，该研究还发现这种方法不仅适用于 DropKey，还可以显著提高 Dropout 的性能。

虽然在 CNN 中对结构化 drop 方法已有较为详细的研究，但还没有研究该 drop 方式对 ViT 的性能影响。为探究该策略会不会进一步提升性能，该论文实现了 DropKey 的两种结构化形式，即 DropKey-Block 和 DropKey-Cross。其中，DropKey- Block 通过对以种子点为中心的正方形窗口内连续区域进行 drop，DropKey-Cross 则通过对以种子点为中心的十字形连续区域进行 drop，如图 3 所示。然而，该研究发现结构化 drop 方法并不会带来性能提升。

图 3 DropKey 的结构化实现方法

实验结果

图 4 DropKey 和 Dropout 在 CIFAR10/100 上的性能比较

图 5 DropKey 和 Dropout 在 CIFAR100 上的注意力图可视化效果比较

图 6 不同 drop 概率设置策略的性能比较

图 7 不同输出期望对齐策略的性能比较

图 8 不同结构化 drop 方法的性能比较

图 9 DropKey 和 Dropout 在 ImageNet 上的性能比较

图 10 DropKey 和 Dropout 在 COCO 上的性能比较

图 11 DropKey 和 Dropout 在 HICO-DET 上的性能比较

图 12 DropKey 和 Dropout 在 HICO-DET 上的性能比较

图 13 DropKey 和 Dropout 在 HICO-DET 上的注意力图可视化比较

总结

该论文创新性地提出了一种用于 ViT 的正则化器，用于缓解 ViT 的过拟合问题。与已有的正则化器相比，该方法可以通过简单地将 Key 置为 drop 对象，从而为注意力层提供平滑的注意力分布。另外，该论文还提出了一种新颖的 drop 概率设置策略，成功地在有效缓解过拟合的同时稳定训练过程。最后，该论文还探索了结构化 drop 方式对模型的性能影响。

往期回顾

史上最全综述 | 3D目标检测算法汇总！（单目/双目/LiDAR/多模态/时序/半弱自监督）

视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

（扫码学习最新视频）

国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群

备注：学校/公司+方向+昵称

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR 2023｜DropKey：两行代码高效缓解ViT过拟合（美图&国科大）的相关文章

什么是AD转换

ARM体系 ADC 一什么是ADC 1 ADC xff1a analog digital converter xff0c AD转换 xff0c 模数转换 xff08 也就是模拟转数字 xff09 2 模拟信号只有通过A D转化为数字信号后
什么是SPI通信

ARM体系 SPI通信一什么是SPI通信 1 SPI是串行外设接口 Serial Peripheral Interface xff0c 可以理解为一种通信协议 xff0c 也就是用来传输数据的 2 SPI 是由摩托罗拉 Motorola
petalinux uboot源码在哪的问题

petalinux uboot源码在哪的问题提出问题解决问题注意 xff1a 要知道自己的版本 1 uboot2 kernel 提出问题 petalinux 源码目录存放在哪里的问题 xff0c 也就是petalinux工程的uboot和
petalinux uboot源码怎么打补丁

petalinux的源码 petalinux工程对于我来说 xff0c 就是有一点不能直接起修改源码 xff0c 你需要间接的修改源码的内容 xff1f 这个修改你还需要遵从petalinux的规章流程当你不知道的时候你会感到无从下手 x
嵌入式Ubuntu根文件系统移植带桌面

1 为什么要移植Ubuntu根文件系统相信到达这一步的人 xff0c 都已经对根文件系统有了个充分的认识 xff0c 已经自己从无到有创建过根文件系统了 xff0c 玩过busybox的了 xff0c 也可能移植过别的嵌入式文件系统了但
Keil5在已有项目中导入文件夹(文件或模块),后编译,头文件找不到问题

Keil5在已有项目中导入文件夹文件或模块后编译头文件找不到问题如果你是以及成功导入文件后但是编译时发现头文件找不到可以直接从第二部分看起第一部分导入文件第二部分导入头文件导入头文件时注意注意注意路径问题要和导入文件时
stm32之串口使用和串口中断

1 定义串口通讯 Serial Communication 是一种设备间非常常用的串行通讯方式 xff0c 因为它简单便捷 xff0c 因此大部分电子设备都支持该通讯方式 xff0c 其通讯协议可分层为协议层和物理层物理层规定通信协议中
万字长文解析CV中的注意力机制（通道/空间/时域/分支注意力）

点击下方卡片 xff0c 关注自动驾驶之心公众号 ADAS巨卷干货 xff0c 即可获取点击进入自动驾驶之心技术交流群后台回复 transformer综述获取2022最新ViT综述论文 xff01 注意力机制是机器学习中嵌入的一
5. STM32——串口发送字符、字符串 + printf 的重定向

STM32 串口发送字符字符串 43 printf 的重定向基本框架1 配置时钟 xff1a 配置GPIO时钟窗口时钟引脚复用时钟2 配置GPIO结构体在 stm32f10x gpio h 头文件中查找相关函数函数 3 配置串口结构
Linux命令发送Http GET/POST请求

Get请求 curl命令模拟Get请求 xff1a 1 使用curl命令 xff1a curl span class token string 34 http www baidu com 34 span 如果这里的URL指向的是一个文件或者
move_base做路径规划时，利用程序设置机器人在RVIZ环境下的初始位置坐标。

在rviz仿真环境下 xff0c 可以通过2D Pose Estimate实现车辆或机器人的初始位置 xff0c 实际车辆或机器人不在rviz仿真环境下 xff0c 如何通过程序指定机器人的初始位姿呢 xff1f 2D Pose Estim
运行node报错：Error: Cannot find module ‘body-parser‘

在powershell中 xff0c 后端启动node app js时报错 xff0c 显示Error Cannot find module body parser 解决方案 xff1a 安装body parser模块 xff0c npm
【OpenCV4.5.1】0x00007FFF1A789129 处(xxx.exe 中)有未经处理的异常: Microsoft C++ 异常: cv::Exception，位于内存位置xxx。

在学习的过程中 xff0c 偶尔遇到 0x00007FFF1A789129 处 xxx exe 中有未经处理的异常 Microsoft C 43 43 异常 cv Exception xff0c 位于内存位置xxx 的错误 xff0c 按
【VS2019+OpenCV4.5.1+OpenCV_contrib4.5.1安装+配置保姆式教程】

文章目录前言一搭建环境二 OpenCV contrib4 5 1安装步骤 xff08 正文来了 xff0c 敲黑板 xff01 xff09 1 OpenCV contrib拓展包编译2 Visual Studio2019编译3 环境配置
【ORB-SLAM3论文翻译】ORB-SLAM3：一个精确的视觉、视觉惯性和多地图SLAM的开源库（注：带着原文看，很多公式和变量不好输入）

文章目录前言 xff08 非论文部分 xff09 摘要1 简介2 相关工作3 系统概述4 相机模型5 视觉惯性SLAM xff08 重点 xff09 6 地图合并与闭环7 实验结果8 结论REFERENCES xff08 略 xff09
【Opencv卸载与重装】NVIDIA Xavier NX下，卸载opencv3，重装opencv4

文章目录前言一 OpenCV3 4完全卸载二安装OpenCV xff08 以4 4 0为例 xff09 1 官网下载OpenCV对应版本的安装包2 解压到opencv文件夹下 xff0c 并新建build文件夹3 安装依赖4 进入bui
【入坑ORB-SLAM3系列1】NVIDIA Xavier NX安装编译ORB-SLAM3

文章目录前言一下载ORB SLAM3库二非ROS下编译三 ROS环境下编译总结Reference xff1a 前言开始前先说一下大致的整个过程 xff0c 各位dalao对应自己需要的部分去看就可以 xff0c 也为我自己做一个记录
纯视觉至上！聊一聊时序融合在BEV感知中的应用

作者苹果姐编辑汽车人原文链接 xff1a https zhuanlan zhihu com p 583682754 https zhuanlan zhihu com p 586713719 点击下方卡片 xff0c 关注自动驾驶之
【SLAM学习笔记4】卡方检验chi-square

文章目录前言一卡方分布二卡方检验计算步骤关于自由度n查表检验统计量拒绝域内外判定 xff1a 决策原则总结Reference 前言卡方分布和卡方检验在很多地方都会用到 xff0c 尤其是统计学和数据分析里卡方检验 chi squ
【Docker部署SLAM系列1】Windows11下安装Docker-desktop

文章目录前言1 开启虚拟化2 开启Hyper V的虚拟化功能3 开启Hyper V功能4 启动WSL和虚拟机功能5 下载安装wsl xff0c 并更新为wsl26 下载安装Docker desktop7 换镜像加速源总结相关资源Refer

随机推荐

【Docker部署SLAM系列2】Docker-desktop部署Ubuntu18.04+ROS+vscode连接+翻车总结（含最新通过rosdep总结）

文章目录前言1 部署Ubuntu18 04容器2 进入容器3 配置Ubuntu18 044 ROS安装5 VScode连接docker容器总结Reference 前言磨洋工磨洋工 xff0c 日常磨洋工一开始我都是在cmd或者Powe
jsoncpp库的使用及用httplib库搭建HTTP服务器

一 vi json test cpp include lt iostream gt 2 include lt string gt 3 include lt jsoncpp json json h gt 4 using namespace s
基于STM32F4实现串口通信（usart）

文章目录前言一串口的基本介绍1 简介2 串口协议二 1 配置步骤2 完整代码前言串口通信是一种设备间常用的串行通信方式 xff0c 因为它简单便捷 xff0c 大部分设备支持该通信方式今天使用一个ttl转usb模块连接usart
KEIL添加新的.C文件

KEIL添加新的 C文件问题描述之前在网上看了很多方法添加 C文件 xff0c 结果经常报重复定义的错误 xff0c 记录一下自己的方法吧解决方案 xff1a 右键 add exiting 点击魔法棒 34 C C 43 43 inc
汇总：使用keil5所遇见的一些常见问题以及解决方法

一新建keil5工程时出现这个警告解决方法 xff1a 右键单击Keil STM32F1xx DFP pdsc xff0c 然后点开属性界面 xff0c 由于Keil STM32F1xx DFP pdsc文件是只读文件 xff0c 将只
自定义串口协议

文章目录前言一有限状态机有限状态机代码接收数据缓冲缓冲要求循环队列一循环队列代码实现循环队列头文件 xff1a 源文件 xff1a 二有限状态机与解码有限状态机核心实现代码有限状态机与解码头文件源文件三使用小例子总结前言此
stm32f1串口发送与接收

目录串口配置串口发送 1使用SendString函数发送 2使用printf函数发送串口接收串口配置首先对串口进行初始化包括使能串口时钟 xff0c 这里我使用的是usart2 xff0c 使能GPIO时钟 xff0c 这里我用
串口通讯详解

这篇文章包含了串口通讯里面的大部分概念问题目录串口通讯线同步串行 xff08 ISP xff09 异步串行 xff08 UART xff09 波特率数据帧串口通讯线串口通信线最少需要2根 xff08 GND和信号线 xff09
包罗万象！V3Det：1.3W类全新目标检测数据集（港中文&上海AI Lab）

作者 CV君编辑我爱计算机视觉点击下方卡片 xff0c 关注自动驾驶之心公众号 ADAS巨卷干货 xff0c 即可获取点击进入自动驾驶之心目标检测技术交流群后台回复 2D检测综述获取鱼眼检测实时检测通用2D检测等近
stm32f4串口接收与发送

之前有写一篇stm32f1串口接收与发送的文章 xff0c stm32f4与f1只有配置上的一点不同 xff0c 今天把f4的串口接收与发送代码分享一下详细解释推荐大家看f1那篇 xff0c 都是一样的 xff0c stm32f1串口发送
-＞在c语言中是什么意思？

gt 是一个整体 xff0c 它是用于指向结构体子数据的指针 xff0c 用来取子数据换种说法 xff0c 如果我们在C语言中定义了一个结构体 xff0c 然后申明一个指针指向这个结构体 xff0c 那么我们要用指针取出结构体中的数据 x
C++中 i＜＜=1是什么意思

左移赋值运算变量i 左移1位 xff0c 结果仍然保存到变量i 举个栗子 xff1a i 61 101001 执行 xff1a i span class token operator lt lt 61 span span class to
详解KITTI数据集

详解KITTI数据集一 KITTI数据集发布方 2011年 xff0c Andreas Geiger xff08 KIT xff09 Philip Lenz xff08 KIT xff09 Raquel Urtasun xff08 TTI
OpenCV各版本差异

Opencv2标志着opencv革命性的改变 xff0c Opencv2带来了全新的C 43 43 接口 xff0c 将Opencv的能力无限放大在2 0时代 xff0c opencv增加了新的平台支持 xff0c 包括iOS和Andro
realsense D435 D435i D415深度相机在ros下获得RGB图、左右红外摄像图、深度图、IMU数据

首先你要你确保你的相机驱动已经安装好 xff0c 环境配置可以看我的另一篇文章 xff1a https blog csdn net weixin 46195203 article details 119205851 第一步 xff1a 新建
LaTex学习之算法如何写以及常用语句IF、FOR、WHILE

首先是在头文件中加上 usepackage span class token punctuation span algorithm span class token punctuation span algorithmic span cla
latex报错：Missing delimiter (. inserted). ... {\xi \left( {p,{p_q}} \right)} \right|}}

理想中的公式 xff0c begin span class token punctuation span equation span class token punctuation span span class token punctua
sort函数第三个参数cmp必须声明为static

span class token keyword bool span span class token keyword static span span class token function comp span span class t
linux下Tinyhttpd安装运行

tinyhttpd 超轻量型 Http Server tinyhttpd 全部代码在500 行左右 xff0c 是一个超轻量型 Http Server xff0c 这是是学习C C 43 43 入门非常棒的一个开源项目 xff0c 可以帮助
CVPR 2023｜DropKey：两行代码高效缓解ViT过拟合（美图&国科大）

编辑 CV技术指南点击下方卡片 xff0c 关注自动驾驶之心公众号 ADAS巨卷干货 xff0c 即可获取点击进入自动驾驶之心全栈算法技术交流群前言美图影像研究院 xff08 MT Lab xff09 与中国科学院大学突破

CVPR 2023｜DropKey：两行代码高效缓解ViT过拟合（美图&国科大）

CVPR 2023｜DropKey：两行代码高效缓解ViT过拟合（美图&国科大） 的相关文章

随机推荐

热门标签

CVPR 2023｜DropKey：两行代码高效缓解ViT过拟合（美图&国科大）的相关文章