Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection

2023-05-16

Kaiming在2022年发表了一篇Exploring Plain Vision Transformer Backbones for Object Detection。

文章的主要目的是追求一种包含较少诱导偏差的主干。原因在于：允许使用非检测数据(如ImageNet)对任务无关组件进行预训练可能提供一个优势，因为检测训练数据相对稀缺。主干可以使用大规模数据和/或自我监督进行有效训练。相比之下，检测任务特定组件的可用数据相对较少。

文章其中针对ViT作为目标检测backbone的情况设计了simple feature pyramid的金字塔结构，与传统FPN的结构对比如下图所示。

在这里插入图片描述
在作者设计的结构中，只使用来自backbone的最后一个特征映射，它应该具有最强的特性。我们应用一组卷积或反卷积并行产生多尺度特征地图。具体来说，使用默认的规模为1/16(步幅=16)的ViT特征映射，我们使用步幅{2,1,1/2,1/4}的卷积产生了规模{1/32,1/16,1/8,1/4}的特征映射，其中步幅分数表示反卷积。

由于卷积网络的backbone网络一直是多尺度、分层的体系结构，它影响了多尺度(如FPN)目标检测的头部设计。而与典型的ConvNets不同，原始的ViT是一个普通的、非层次结构的架构，它在整个过程中维护一个单尺度的特征图。在分层骨干中，上采样通常借助于侧连接；在普通的ViT主干中，作者根据经验发现这是没有必要的，简单的反卷积就足够了。作者假设这是因为ViT可以依赖于位置嵌入作为编码位置，也因为高维ViT补丁嵌入不一定会丢弃信息。

作者比较了两种同样构建在普通骨干网上的FPN变体。在第一种变体中，骨干网被人为地划分为多个阶段，以模仿分层骨干网的各个阶段，并应用横向和自顶向下连接。第二种变体类似于第一种，但只使用最后一种地图，而不是划分的阶段。实验证明证明这些FPN变体是不必要的，如下图所示。
在这里插入图片描述
为了允许信息传播，作者使用了少数(默认为4)块可以跨窗口。将一个预先训练的backbone平均分成4个区块子集(例如，对于24块ViT-L，每个子集6个区块)。作者在每个子集的最后一块执行全局自我关注。作者对框架结构/跨窗口块的位置等进行ablation experiments如下表所示。

在这里插入图片描述
COCO数据集上的系统级别的比较如下所示：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection 的相关文章

Optitrack下通过mavros实现offbord控制

参考文章 xff1a 树莓派通过MAVROS与Pixhawk PX4通信 PX4使用Optitrack进行室内定位通过optitrack与妙算连接在同一局域网下 xff0c 关闭防火墙 xff0c 并设置刚体发布 vrpn安装 cd ca
【场景图生成】Unbiased Scene Graph Generation from Biased Training

文章下载地址 xff1a https arxiv org pdf 2002 11949 pdf 代码地址 xff1a GitHub KaihuaTang Scene Graph Benchmark pytorch 发表地点 xff1a CV
【场景图生成】Graphical Contrastive Losses for Scene Graph Parsing

文章下载地址 xff1a Graphical Contrastive Losses for Scene Graph Parsing 代码地址 xff1a https github com NVIDIA ContrastiveLosses4V
jquery无法获取到textarea中的值详解

问题描述 xff1a 今天在springboot中jquery读取前端的值通过jquery打包为json传入后端 xff0c 发现其中textarea区域中的内容无法获取解决办法 xff1a 首先看你的textarea中是否有 name属
阿里云大学——Java语言基础自测考试 - 初级难度

1 假设有如下程序 xff1a span class token keyword public span span class token keyword class span span class token class name Dem
could not transfer artifact org.springframework.boot:spring-boot-starter-parent

Springboot异常 could not transfer artifact org springframework boot spring boot starter parent pom 2 3 0 RELEASE from to c
阿里云ECS搭建个人简历网站

能在自己的网站上搭建简历是不是很酷 xff0c 今天我就教大家如何在自己的服务器上搭建一个个人简历网站因为主流网站的搭站环境是LAMP环境 xff0c 所以第一步就是先去把服务器环境一修改为LAMP环境停止ECS实例运行点击使用就
GitHub加速神器FastGithub的使用

clone GitHub上的项目时经常超时 pull或push的时候也有类似情况有时GitHub也打不开 xff0c 这里推荐GitHub上的一个工具FastGithub xff0c 开启它后 xff0c 可大大减少超时情况的发生这里介
阿里云ECS打造属于自己的WEB——IDE编程环境

首先感谢 64 1430059860老哥的指导 xff0c 在阿里的官方视频卡着以后就一直进去入不了下一步了 xff0c 特向我的组长老哥带带 xff0c 最终搭建成功停止实例选择更换操作系统 xff08 如果使用centoS建议更换ub
给阿里云服务器装一个图形化界面——Gnome

我这里使用的是ubantu系统第一步 xff1a apt get update更新一下源第二步下载Gnome图形化界面 apt get install gnome shell ubuntu gnome desktop第三步下载完成 a
0基础使用阿里云打造自己的私人云盘

平时我们使用云盘例如有百度云 xff0c 蓝奏云 xff0c 小米云盘 xff0c 虽然给我们带来不少的便利 xff0c 但是也存在私人数据泄露和文件下载速度过慢的风险 xff0c 所以 xff0c 打造一款属于自己的私人云盘是一个很好的选
Redis无法加载配置文件中日志文件的解决方法

Can t open the log file Permission denied logfile usr local redis etc redis6380 log Can t open the log file Permission d
Request method ‘PUT‘ not supported

今天写后端接口出现问题 xff0c 出现Request method PUT not supported 可能是springboot的bug xff0c 在修改无果后 xff0c 关闭程序 xff0c 进行rebuild多次后 xff0c
关于前端传值，springboot后端的参数处理方式汇总

对于前端传值情况 xff0c 后端接收的几种情况 1 对于此类链接 http localhost 7398 order userPage page 61 1 amp pageSize 61 1 http localhost 7398 ord
Could not autowire. No beans of ‘xxxMapper‘ type found.

Could not autowire No beans of xxxMapper type found 的三种解决办法出现Could not autowire No beans of xxxMapper type found 的解决办法
后端对象数据为空的情况

后端对象数据为空的情况后端与前端对接数据形式不一致 xff0c 前端传入数据的方式 xff08 url post请求 xff0c 直接作为对象进行传递 xff09 xff0c 导致后端拿不到数据对接数据一致 xff0c request请
C-动态内存和运算符重载

titledatetagscategoriesdescription C 43 43 动态内存和运算符重载 2019 11 12 13 34 50 0800 动态内存运算符重载 C C 43 43 简单了解一下
高版本Ubuntu(如22.02)修改apt源，快速安装低版本gcc/g++

Ubuntu不同版本默认apt install gcc安装的gcc和g 43 43 版本不同 xff0c 如Ubuntu22 04默认安装gcc g 43 43 为11版本 xff0c 高版本Ubuntu无法直接通过apt install
COLMAP简介及通过2D序列图像进行3D重建操作流程

COLMAP是一种通用的运动结构 Structure from Motion SfM 和多视图立体 Multi View Stereo MVS 管道 pipeline xff0c 具有图形和命令行界面它为重建有序和无序图像集合提供了广泛的
我踩了所有ESP8266的坑，现在来个最终总结

STM32 43 ESP8266 协议接入IOT平台必成功 1 移植到STM32前先检查你的esp8266能不能用1 1 大概率你手里的esp8266是官方固件刷MQTT固件1 2 ESP8266 MQTT固件 AT指令列表 xff1a

随机推荐

进阶HAL开发——第二集-FreeRTOS

大三了 xff0c 在保研考研保研加分政策改变的焦虑中渡过了2021的前5个月好久没有认真学东西了不管了 xff0c 先学点东西把手里的比赛做完 xff0c 加不加分都随缘 FreeRTOS HAL库一简介二理解三使用3 1
百度easydl数据标注

一百度easydl数据标注脚本 1 官方标注工具 xff0c 链接如下 xff0c 由lableme改进而形成 GitHub Baidu AIP Easyyibiao 2 官网数据导入格式三种分别为 xff1a 布局如图所示 2 1js
Python爬虫入门实例一之淘宝商品页面的爬取

文章目录 1 爬取原界面2 代码解析3 完整代码引用源自 1 爬取原界面今天给大家介绍第一个爬虫小例子 xff0c 使用requests库爬取淘宝商品信息 xff0c 首先想要爬取的内容如下图 2 代码解析使用交互环境给大家带来代码解析
项目实战-外卖自提柜 1.项目介绍、协议制定

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
项目实战-外卖自提柜 2. CubeMX + FreeRTOS入门

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
项目实战-外卖自提柜 3. FreeRTOS主要API的应用

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
项目实战-外卖自提柜 4. FreeRTOS 堆栈分配、调试技巧

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
项目实战-外卖自提柜 5. ESP8266 01S配置与掉线处理

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
项目实战-外卖自提柜 6. 硬件工作与测试（原理图、PCB绘制、测试视频）

项目实战外卖自提柜 1 项目介绍协议制定项目实战外卖自提柜 2 CubeMX 43 FreeRTOS入门项目实战外卖自提柜 3 FreeRTOS主要API的应用项目实战外卖自提柜 4 FreeRTOS 堆栈分配调试技巧项
Anaconda中报CondaSSLError错误的解决方法

windows10上 xff0c 在使用Anaconda配置instant ngp环境时 xff0c 依次执行如下命令 xff0c 当执行第4条命令安装ffmpeg时 xff0c 报了如下错误 xff1a CondaSSLError Ope
【学习笔记】STM32固件库内部结构及功能简介

本文为 150集野火F103霸道指南者视频教程入门篇的学习笔记原视频 xff1a P16 初识STM32固件库我们认为固件库应该是什么样子的 1 汇编编写的启动文件 startup stm32f10x hd s 设置堆栈指针设置
香港中文大学计算机系直博面试经验

2021年7月12日 xff0c 我拿到了香港中文大学的offer xff0c 开个帖子记录一下面试题目 xff0c 方便学弟学妹参考一导师面试 2021年5月 xff0c 我通过发邮件联系了导师 xff0c 附上了我的个人简历 xff
基于检测代码库detectron2的蒸馏应用

基于检测代码库detectron2和蒸馏代码库RepDistiller xff0c 完成将蒸馏方法应用在目标检测的代码库 xff0c 完整代码已开源 1 参数添加在config defaults py里面添加蒸馏参数的默认值 xff0c
Transformer论文解读一（Transformer）

最近Transformer在CV领域很火 xff0c Transformer是2017年Google发表的Attention Is All You Need xff0c 主要是针对自然语言处理领域提出的本系列文章介绍Transformer
使用python的turtle库函数画圣诞树详细教程

今天改bug改到自闭 xff0c 花了一晚上时间最后发现是一个小参数导致的 xff0c 唉 xff01 想到最近画圣诞树不是很火嘛 xff0c 就放松一下 xff0c 出个画圣诞树的教程吧首先我们的目标是这样子的 xff1a 那么他有什么
GAN综述及其在图像生成领域的应用（含原理、代码详解）

本文将持续更新目录 1 基本GAN1 1 GAN xff08 2014 xff09 1 2 CGAN xff08 2015 xff09 1 3 DCGAN xff08 2015 xff09 1 4 VAE GAN xff08 2016 x
Out of Distribution(OoD)检测相关方法综述

1 Softmax based 方法这类方法利用预训练模型输出的最大 softmax 概率进行统计分析 xff0c 统计发现 OOD 样本和 ID 样本 softmax 概率的分布情况 xff0c 试图将二者的分布差距加大 xff0c 然
什么是自注意力机制（Self-attention）

文章目录 1 Self attention的基本概念1 1 Self attention的单个输出1 2 Self attention的并行计算1 3 Multi head Self attention1 4 Positional Enco
Kaiming He 论文阅读笔记一——Masked Autoencoders

2022年Kaiming大神又发表了三篇新paper xff0c 今天我们阅读其中的Masked Autoencoders Are Scalable Vision Learners以及Masked Autoencoders As Spati
Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection

Kaiming在2022年发表了一篇Exploring Plain Vision Transformer Backbones for Object Detection 文章的主要目的是追求一种包含较少诱导偏差的主干原因在于 xff1a 允

Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection

Kaiming He论文阅读笔记二——Plain Vision Transformer Backbones for Object Detection 的相关文章

随机推荐

热门标签