当可变形注意力机制引入Vision Transformer

2023-10-27

【GiantPandaCV导语】通过在Transformer基础上引入Deformable CNN中的可变性能力，在降低模型参数量的同时提升获取大感受野的能力，文内附代码解读。

引言

Transformer由于其更大的感受野能够让其拥有更强的模型表征能力，性能上超越了很多CNN的模型。

然而单纯增大感受野也会带来其他问题，比如说ViT中大量使用密集的注意力，会导致需要额外的内存和计算代价，特征很容易被无关的部分所影响。

而PVT或者Swin Transformer中使用的sparse attention是数据不可知的，会影响模型对长距离依赖的建模能力。

由此引入主角：Deformabel Attention Transformer的两个特点：

data-dependent: key和value对的位置上是依赖于数据的。
结合Deformable 方式能够有效降低计算代价，提升计算效率。

下图展示了motivation:

图中比较了几种方法的感受野，其中红色星星和蓝色星星表示的是不同的query。而实线包裹起来的目标则是对应的query参与处理的区域。

(a) ViT对所有的query都一样，由于使用的是全局的注意力，所以感受野覆盖全图。

(b) Swin Transformer中则使用了基于window划分的注意力。不同query处理的位置是在一个window内部完成的。

(d) DAT是本文提出的方法，由于结合ViT和DCN，所有query的响应区域是相同的，但同时这些区域也学习了偏移量。

方法

先回忆一下Deformable Convolution：

简单来讲是使用了额外的一个分支回归offset，然后将其加载到坐标之上得到合适的目标。

在回忆一下ViT中的Multi-head Self-attention:

q = x W q , k = x W k , v = x W v , z ( m ) = σ ( q ( m ) k ( m ) ⊤ / d ) v ( m ) , m = 1 , … , M , z = Concat ( z ( 1 ) , … , z ( M ) ) W o , z l ′ = MHSA ⁡ ( LN ⁡ ( z l − 1 ) ) + z l − 1 , z l = MLP ⁡ ( LN ⁡ ( z l ′ ) ) + z l ′ , \begin{aligned} q&=x W_{q}, k=x W_{k}, v=x W_{v}, \\ z^{(m)}&=\sigma\left(q^{(m)} k^{(m) \top} / \sqrt{d}\right) v^{(m)}, m=1, \ldots, M, \\ z&=\text { Concat }\left(z^{(1)}, \ldots, z^{(M)}\right) W_{o}, \\ z_{l}^{\prime} &=\operatorname{MHSA}\left(\operatorname{LN}\left(z_{l-1}\right)\right)+z_{l-1}, \\ z_{l} &=\operatorname{MLP}\left(\operatorname{LN}\left(z_{l}^{\prime}\right)\right)+z_{l}^{\prime}, \end{aligned} qz(m)zzl′zl=xWq,k=xWk,v=xWv,=σ(q(m)k(m)⊤/d )v(m),m=1,…,M,= Concat (z(1),…,z(M))Wo,=MHSA(LN(zl−1))+zl−1,=MLP(LN(zl′))+zl′,

有了以上铺垫，下图就是本文最核心的模块Deformable Attention。

左边这部分使用一组均匀分布在feature map上的参照点
然后通过offset network学习偏置的值，将offset施加于参照点中。
在得到参照点以后使用bilinear pooling操作将很小一部分特征图抠出来，作为k和v的输入

x_sampled = F.grid_sample(
input=x.reshape(B * self.n_groups, self.n_group_channels, H, W), 
grid=pos[..., (1, 0)], # y, x -> x, y
mode='bilinear', align_corners=True) # B * g, Cg, Hg, Wg

之后将得到的Q,K,V执行普通的self-attention, 并在其基础上增加relative position bias offsets。

其中offset network构建很简单, 代码和图示如下：

  self.conv_offset = nn.Sequential(
      nn.Conv2d(self.n_group_channels, self.n_group_channels, kk, stride, kk//2, groups=self.n_group_channels),
      LayerNormProxy(self.n_group_channels),
      nn.GELU(),
      nn.Conv2d(self.n_group_channels, 2, 1, 1, 0, bias=False)
  )

最终网络结构为：

具体参数如下：

实验

实验配置：300epoch，batch size 1024, lr=1e-3，数据增强大部分follow DEIT

分类结果：

目标检测数据集结果：

语义分割：

消融实验：

可视化结果：COCO

这个可视化结果有点意思，如果是分布在背景上的点大部分变动不是很大，即offset不是很明显，但是目标附近的点会存在一定的集中趋势（ps:这种趋势没有Deformable Conv中的可视化结果明显)

代码

生成Q

  B, C, H, W = x.size()
  dtype, device = x.dtype, x.device
  
  q = self.proj_q(x)

offset network前向传播得到offset

  q_off = einops.rearrange(q, 'b (g c) h w -> (b g) c h w', g=self.n_groups, c=self.n_group_channels)
  offset = self.conv_offset(q_off) # B * g 2 Hg Wg
  Hk, Wk = offset.size(2), offset.size(3)
  n_sample = Hk * Wk

在参照点基础上使用offset

offset = einops.rearrange(offset, 'b p h w -> b h w p')
reference = self._get_ref_points(Hk, Wk, B, dtype, device)
    
if self.no_off:
    offset = offset.fill(0.0)
    
if self.offset_range_factor >= 0:
    pos = offset + reference
else:
    pos = (offset + reference).tanh()

使用bilinear pooling的方式将对应feature map抠出来，等待作为k,v的输入。

x_sampled = F.grid_sample(
    input=x.reshape(B * self.n_groups, self.n_group_channels, H, W), 
    grid=pos[..., (1, 0)], # y, x -> x, y
    mode='bilinear', align_corners=True) # B * g, Cg, Hg, Wg
    
x_sampled = x_sampled.reshape(B, C, 1, n_sample)

q = q.reshape(B * self.n_heads, self.n_head_channels, H * W)
k = self.proj_k(x_sampled).reshape(B * self.n_heads, self.n_head_channels, n_sample)
v = self.proj_v(x_sampled).reshape(B * self.n_heads, self.n_head_channels, n_sample)

在positional encodding部分引入相对位置的偏置：

  rpe_table = self.rpe_table
  rpe_bias = rpe_table[None, ...].expand(B, -1, -1, -1)
  
  q_grid = self._get_ref_points(H, W, B, dtype, device)
  
  displacement = (q_grid.reshape(B * self.n_groups, H * W, 2).unsqueeze(2) - pos.reshape(B * self.n_groups, n_sample, 2).unsqueeze(1)).mul(0.5)
  
  attn_bias = F.grid_sample(
      input=rpe_bias.reshape(B * self.n_groups, self.n_group_heads, 2 * H - 1, 2 * W - 1),
      grid=displacement[..., (1, 0)],
      mode='bilinear', align_corners=True
  ) # B * g, h_g, HW, Ns
  
  attn_bias = attn_bias.reshape(B * self.n_heads, H * W, n_sample)
  
  attn = attn + attn_bias

参考

https://github.com/LeapLabTHU/DAT

https://arxiv.org/pdf/2201.00520.pdf

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

当可变形注意力机制引入Vision Transformer 的相关文章

【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
比尔盖茨与萨姆.奥尔特曼的对话及感想

谈话内容比尔盖茨嘿萨姆萨姆奥尔特曼嘿比尔比尔盖茨你好吗萨姆奥尔特曼哦天哪这真的太疯狂了我还好这是一个非常激动人心的时期比尔盖茨团队情况怎么样萨姆奥尔特曼我想你知道很多人都注意到了这样一个事实
用通俗易懂的方式讲解：内容讲解+代码案例，轻松掌握大模型应用框架 LangChain

本文介绍了 LangChain 框架它能够将大型语言模型与其他计算或知识来源相结合从而实现功能更加强大的应用接着对LangChain的关键概念进行了详细说明并基于该框架进行了一些案例尝试旨在帮助读者更轻松地理解 LangChai
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

2023华为OD机试真题-机房布局(JAVA、Python、C++)

题目描述小明正在规划一个大型数据中心机房为了使得机柜上的机器都能正常满负荷工作需要确保在每个机柜边上至少要有一个电箱为了简化题目假设这个机房是一整排 M表示机柜 I表示间隔请你返回这整排机柜至少需要多少个电箱如果无解请返回
你真的搞懂Class，class了么？

博客主页傻根根呀欢迎点赞收藏留言欢迎讨论本文由傻根根呀原创首发于 CSDN 由于博主是在学小白一枚难免会有错误有任何问题欢迎评论区留言指出感激不尽个人主页精品专栏不定时更新 JavaSE MySQL LeetC
有时间学习下ue4开源项目shootergame和虚幻竞技场

无意中看到有人推荐这个特此留个坑以后学习下另外官方文档上有大例子推荐可以学下 https docs unrealengine com 4 27 zh CN Basics InstallingUnrealEngine Custom
算术基本定理及其应用

算术基本定理又称为正整数的唯一分解定理即每个大于1的自然数均可写为质数的积而且这些素因子按大小排列之后写法仅有一种方式例如 6936 23 3 172 1200 24 3 52 6936 2 3
Reliable Cloud Infrastructure: Design and Process学习笔记

最后更新2022 03 16 忘记更新对应的学习笔记补上这一科有9节加上0章简介简介 google cloud的好多功能有点相似这科内容是介绍应该选什么产品怎么选择怎么规划怎么设计等等首先你要有个软件产品的设计思想包括
西米支付：微信服务商支付的介绍

服务商申请条件 1 微信支付服务商面向企业政府机关事业单位社会组织类型主体开放申请 2 申请资料准备 1 业务联系人信息包含联系人姓名联系手机联系邮箱若联系人非法定代表人还需提交有效证件照片 2 主体身份信息营业执照登记
(纯c)数据结构之------＞链表(详解)

目录一链表的定义 1 链表的结构 2 为啥要存在链表及链表的优势二无头单向链表的常用接口 1 头插尾插 2 头删尾删 3 销毁链表打印链表 4 在pos位置后插入一个值 5 消除pos位置后的值 6 查找链表中的值并且返回它的
【Nginx】解决在Nginx+Vue部署多个前端项目，二级目录不能访问、访问空白的问题

一前言需求设置访问 www ai com 访问时打开前端代码 tmp zhsf 设置访问 www ai com case search 时访问时打开另一个前端代码 tmp template 二实现过程 1 根目录访问部署使用ng
uni-cloud云函数管理公共模块依赖

1 右键函数文件夹选中依赖模块更新依赖 2 完成后
Keras中的fit函数训练集，验证集和测试集

Keras中的fit函数训练集验证集和测试集 1 Keras fit函数history对象包含两个重要属性 epoch 训练的轮数 history 它是一个字典包含val loss val acc loss acc四个key 2 关于训
第十三届蓝桥杯大赛软件赛省赛 Python 大学 C 组

试题 A 排列字母本题总分 5 分问题描述小蓝要把一个字符串中的字母按其在字母表中的顺序排列例如 LANQIAO 排列后为 AAILNOQ 又如 GOODGOODSTUDYDAYDAYUP 排列后为 AADDDDDGGOOOOPST
拥抱ChatGPT，开启结对咨询模式！

ChatGPT刮起了一阵旋风 ChatGPT到底能做什么做到什么程度真的会让咨询顾问失业吗带着这样的疑问我费尽周折注册了ChatGPT账号我先从一个大众化的话题开启了与ChatGPT的对话如何提高软件开发的质量如果是我回答这
网页文字复制的几种方法

1 开启网页阅读模式这种方法适用于Microsoft Edge浏览器中它有网页阅读功能可以使用在网址的最前面加上 read 就会进入网页阅读界面然后选中文字就可以直接进行复制了 2 直接拖拽一种简单直接的方法不用进行任何其他操作
如何在服务器上跑python程序

购买服务器首先你需要一个服务器阿里云云翼计划有一个9 9云服务器ECS服务你怎么买我不管反正你最后给我搞到一个云服务器购买的配置界面由于阿里云现在限量购买所以这里只是截个图说明而已主要说明一点公共镜像选择ubuntu14 0
【软件测试】理论知识基础第一章

前言骗取自己的救赎直到和染尘斑驳的玫瑰一起坠入深渊软件测试理论知识基础第一章一认识软件测试 1 什么是软件测试二常见的测试分类 1 阶段划分 2 代码可见度划分 3 扩展总结三模型 1 质量模型 2 W模型四软件测
Webservice接口的生成及调用

最近项目上要对接一个Webservice形式的接口因为以前一直没有对接过这种类型的所以这次专门查了一些资料学习下一 Webservice的简单介绍 WebService是一种跨编程语言和跨操作系统平台的远程调用技术它通过标准通信协议
AAA协议tacacs认证简单实验

实验名称 AAA的tacacs验证实验目的在AAA认证服务器上认证客户端telnet登陆路由器实验拓扑图主要实验步骤 Router上的配置 Router gt en Router conf t Router config inter
内存超频时序怎么调_超频技术之内存“时序”重要参数设置解说

超频技术之内存时序重要参数设置解说来源华强电子网作者华仔浏览 432 时间 2017 05 10 21 48 标签摘要相信大多数超频帖子里都会提到内存时序调整也就是我们经常看到的5 5 5 15 1T 4 5 4 12
python爬虫requests源码链家_Python 爬虫链家二手房（自行输入城市爬取）

因同事想在沈阳买房对比分析沈阳各区的房价让我帮忙爬取一下链家网相关数据然后打算记下笔记用于总结学到的东西用到的东西一爬虫需要会什么学习东西首先你要知道它是干嘛的爬虫顾名思义就是爬取你所看到的网页内容小说新闻信息
当可变形注意力机制引入Vision Transformer

GiantPandaCV导语通过在Transformer基础上引入Deformable CNN中的可变性能力在降低模型参数量的同时提升获取大感受野的能力文内附代码解读引言 Transformer由于其更大的感受野能够让其拥有更强的模

当可变形注意力机制引入Vision Transformer

引言

方法

实验

代码

参考

当可变形注意力机制引入Vision Transformer 的相关文章

随机推荐

热门标签