CVPR-2022- MixFormer: End-to-End Tracking with Iterative Mixed Attention 阅读笔记

2023-11-17

论文地址:
https://arxiv.org/abs/2203.11082
代码地址:
https://github.com/MCG-NJU/MixFormer

端到端的MixFormer跟踪整体框架

在这里插入图片描述
它只由一个基于MAM的主干和一个定位头组成,MAM为混合注意模块(Mixed Attention Module),用来完成特征提取和目标信息合并的过程。Stage i有Ni个MAM和MLP层定义。
在这里插入图片描述
MixFormer和MixFormer-L的基于MAM的主干架构。输入是形状为128×128×3的目标模板和形状为320×320×3的搜索区域。S和T代表搜索区域和模板。Hi和Di是第i阶段的头数和嵌入特征维数。Ri是MLP层中的特征尺寸扩展比。

Mixed attention module (MAM)

在这里插入图片描述
MAM的输入是目标模板和搜索区域。其目的是同时提取它们各自的long-range特征,并融合它们之间的相互作用信息。与最初的多头注意力
(https://blog.csdn.net/qq_41442511/article/details/124277219?spm=1001.2014.3001.5501)相反,MAM在目标模板和搜索区域的两个独立的标记序列上执行双重注意力操作。它对每个序列中的标记进行自我关注,以捕捉目标或搜索特定信息。同时,在两个序列的标记之间进行交叉注意,以允许目标模板和搜索区域之间的通信。
理解来讲,MAM首先输入一整个Token,该Token首先被Split为模板特征和搜索特征两个部分,此时这两部分的特征是被展平的序列,Reshape后变成2D特征图,特征图先经过归一化后被输入Multi-Head Attention Function部分,该部分负责通过线性投影将特征图展平并产生QKV三个值,随后,目标特征和搜索特征同时计算自注意和交叉注意,得到的目标注意特征和搜索注意特征同时包含自注意和交叉注意,先cat后输出。
上诉是对称的结构,计算公式如下:
在这里插入图片描述
但作者认为从目标查询到搜索区域的交叉注意并不重要,并且可能由于潜在的干扰物而带来负面影响。为了降低MAM的计算成本,从而允许有效地使用多个模板来处理对象变形,作者进一步通过修剪不必要的目标-搜索区域交叉注意来提出定制的非对称混合注意方案。也就是上图中橙色虚线部分不在使用(如果使用该部分的就意味着每个模板都需要与搜索图片计算交叉注意特征,这就大大提升的计算成本,所以去掉后更利用多个模板图片的使用),这种不对称混合注意的定义如下:
在这里插入图片描述

基于角的定位头

受STARK中的角点检测头的启发,采用了一个完全可选的基于角点的定位头来直接估计被跟踪对象的边界框,仅使用几个Conv-BN-ReLU层分别用于左上角和右下角的预测。最后,我们可以通过计算角概率分布的期望来获得包围盒。与STARK的区别在于,我们的是完全卷积头,而STARK高度依赖于编码器和解码器,设计更复杂。(定位这部分没有理解)

基于查询的定位头

受DETR的启发,我们提出使用一个简单的基于查询的定位头。这种稀疏定位头可以验证我们的MAM主干的泛化能力,并产生一个纯基于变压器的跟踪框架。具体来说,我们在最后阶段的序列中添加了一个额外的可学习的回归标记,并使用该标记作为锚来聚集来自整个目标和搜索区域的信息。最后,采用三个完全连接的层的FFN来直接回归包围盒坐标。这个框架也不使用任何后处理技术。(定位这部分没有理解)

分数预测模块(SPM)

在这里插入图片描述
由于目标在线更新就需要一个分数预测模块(SPM),SPM由两个注意块和一个三层感知器组成。首先,一个可学习的score Token作为Q来参加搜索ROI标记。它使score Token能够对挖掘的目标信息进行编码。接下来,score Token关注初始目标Token的所有位置,以隐式地将挖掘的目标与第一个目标进行比较。最后,分数由MLP层和sigmoid激活产生。当在线模板的预测得分低于0.5时,该模板被视为负面的。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR-2022- MixFormer: End-to-End Tracking with Iterative Mixed Attention 阅读笔记 的相关文章

  • ZooKeeper系统模型之集群间消息通信。

    ZooKeeper的消息类型大体上可以分为四类 分别是 数据同步型 服务器初始化型 请求处理型和会话管理型 数据同步型 数据同步型消息是指在Learner和Leader服务器进行数据同步的时候 网络通信所用到的消息 通常有DIFF TRUN
  • java 仓库管理_Java仓库管理系统(一)

    从小到大没有写日记的习惯 但本着互联网开放 共享的原则 并且马士兵老师曾说 当你学会一些技能的时候 看到别人正被你会的东西所困扰 你应该去帮助他 所以把仓库管理系统的详解记录一下 说的可能不那么专业 但基本都能听懂 本人编程起步 有错误请指
  • 常见手机快充协议介绍

    早在几年前 各厂家就在逐步推进手机的充电速度 随着QC PD等一系列的充电协议不断更新 各家手机厂家都有自己的快充解决方案 不仅功率不一样 手机间的充电协议与标准也变得越发复杂 不同品牌的手机快充名称也各有不同 所以我们需要先清楚我们的手机
  • 垃圾箱清空后数据恢复(亲测有效)

    辛辛苦苦写PPT写了两周 误删了还没发现 然后顺便把垃圾箱也清空了 wps还因为云空间已满不能同步上传 连个记录都没有 真的是差点气到心梗 经历了一个小时的百度 恢复了我的PPT 记录一下数据的恢复过程 无图 恢复的时候过于烦躁 忘记截图
  • STM32单片机IAP介绍

    1 什么是IAP 首先区分下两个概念 ISP和IAP ISP In System Programming 在系统中编程 通过芯片专用的串行编程接口对其内部的程序存储器进行擦写 IAP In Application Programming 在
  • Unity中UGUI的Text实现超链接点击的解决方案

    Unity实现超链接点击 功能简介 C 脚本 使用方法 Demo工程内截图 Demo地址 功能简介 1 同一个Text内可以实现多个不同字符区域的点击 2 适配了中文 英文 韩文 日文 阿拉伯语等 更多语种待测试 C 脚本 文件名 UITe
  • uni-app 微信小程序vendor.js 过大的处理方式和分包优化

    小程序工具提示vendor js过大 已经跳过es6向es5转换 这个转换问题本身不用理会 因为vendor js已经是es5的了 关于体积控制 参考如下 使用运行时代码压缩 HBuilderX创建的项目勾选运行 gt 运行到小程序模拟器

随机推荐