CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION 论文阅读笔记

2023-11-20

CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION 论文阅读笔记

这是浙大、腾讯、哥伦比亚大学一起发表在ICCV的一篇文章，文章有三个贡献：

一是 Cross-scale Embedding Layer 能够提供多尺度的embedding
二是 Long Short Distance Attention 将自注意力机制分为了近距离和远距离分别进行处理
三是提出了 dynamic position bias ，能够适应不同大小的输入

现有的方法没有处理多尺度特征图的attention，要么是concatenate到一起从而失去了细粒度的特征，要么是没有利用多尺度特征图，为了解决这一问题，提出了本文的方法。
网络结构如下图：

CROSS-SCALE EMBEDDING LAYER

在这里插入图片描述

如图，其实就是用四个不同kernel size 相同stride的卷积核卷积图片然后concatenate到一起产生所谓“多尺度”的embedding，产生的embedding的由小尺度卷积核产生的通道包含细粒度的信息，由大尺度卷积和产生的通道包含粗粒度大范围的信息。

LONG SHORT DISTANCE ATTENTION

在这里插入图片描述

如上图，分为两部分，short distance attention其实就是window的attention，图中window size未3，也就是说注意力只在 3x3 的window内部做；long distance attention就是把相隔 I I I 个位置的稀疏点作为一个group进行内部的注意力，也就是上图（b）中，红色框的特征属于同一个group，group 内部进行注意力，黄色框的特征属于另一个group，这就是所谓 long distance attention。其实short distance attention适合embedding中的细粒度通道，因为刚好相邻并且不会产生重叠信息，而long distance attention适合embedding中的粗粒度通道，因为粗粒度的感受野足够大才可以使得相隔几个位置的embedding也是相邻的感受野。
SDA和LDA是连续的两个block，如下：
这样做，em，我认为的好处在于，SDA确实减少了大量的运算复杂度，LDA也降低了运算复杂度的常数项，结合起来同时也能兼具细粒度和远距离，与Focal Transformer可以说有异曲同工的地方。
但个人觉得，如果能分别处理就好了，也就是说，SDA只对embedding的细粒度通道部分做，LDA只对embedding的粗粒度通道部分做，是不是会更加合理一点。

DYNAMIC POSITION BIAS

本文用的是relative position bias，公式是这样的：
而B是由相对坐标作为可训练的全连接网络的输入来生成的：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

论文阅读笔记

Transformer

深度学习

Pytorch

CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION 论文阅读笔记的相关文章

用我自己的值初始化pytorch卷积层

我想知道是否有办法用我自己的值初始化 pytorch 卷积过滤器例如我有一个元组 0 8423 0 3778 3 1070 2 6518 我想用这些值初始化 2X2 过滤器我该怎么做我查找了一些答案但他们大多使用火炬正态分布和其他
pytorch - “conv1d”在哪里实现？

我想看看 conv1d 模块是如何实现的https pytorch org docs stable modules torch nn modules conv html Conv1d https pytorch org docs stabl
Cuda和pytorch内存使用情况

我在用Cuda and Pytorch 1 4 0 当我尝试增加batch size 我遇到以下错误 CUDA out of memory Tried to allocate 20 00 MiB GPU 0 4 00 GiB total c
预训练 Transformer 模型的配置更改

我正在尝试为重整变压器实现一个分类头分类头工作正常但是当我尝试更改配置参数之一 config axis pos shape 即模型的序列长度参数时它会抛出错误 Reformer embeddings position embeddin
如何在 google colab 中运行 matlab .m 文件

我目前正在尝试运行这个存储库https github com Fanziapril mvfnet https github com Fanziapril mvfnet这需要一个步骤 Run the Matlab ModelGeneratio
将 CNN Pytorch 中的预训练权重传递到 Tensorflow 中的 CNN

我在 Pytorch 中针对 224x224 大小的图像和 4 个类别训练了这个网络 class CustomConvNet nn Module def init self num classes super CustomConvNet s
如何避免 PyTorch 中的“CUDA 内存不足”

我认为对于 GPU 内存较低的 PyTorch 用户来说这是一个非常常见的消息 RuntimeError CUDA out of memory Tried to allocate X MiB GPU X X GiB total capac
为什么我在这里遇到被零除的错误？

所以我正在关注这个文档中的教程 https pytorch org tutorials beginner data loading tutorial html在自定义数据集上我使用的是 MNIST 数据集而不是教程中的奇特数据集这是D
为什么 PyTorch nn.Module.cuda() 不将模块张量移动到 GPU，而仅将参数和缓冲区移动到 GPU？

nn Module cuda 将所有模型参数和缓冲区移动到 GPU 但为什么不是模型成员张量呢 class ToyModule torch nn Module def init self gt None super ToyModule se
一次热编码期间出现 RunTimeError

我有一个数据集其中类值以 1 步从 2 到 2 i e 2 1 0 1 2 其中 9 标识未标记的数据使用一种热编码 self one hot encode labels 我收到以下错误 RuntimeError index 1 is
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
BatchNorm 动量约定 PyTorch

Is the 批归一化动量约定 http pytorch org docs master modules torch nn modules batchnorm html 默认 0 1 与其他库一样正确例如Tensorflow默认情况下似乎
Pytorch Tensor 如何获取元素索引？ [复制]

这个问题在这里已经有答案了我有 2 个名为x and list它们的定义如下 x torch tensor 3 list torch tensor 1 2 3 4 5 现在我想获取元素的索引x from list 预期输出是一个整数 2
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
在Pytorch中计算欧几里得范数..理解和实现上的麻烦

我见过另一个 StackOverflow 线程讨论计算欧几里德范数的各种实现但我很难理解特定实现的原因如何工作该代码可以在 MMD 指标的实现中找到 https github com josipd torch two sample b
如何计算cifar10数据的平均值和标准差

Pytorch 使用以下值作为 cifar10 数据的平均值和标准差变换 Normalize 0 5 0 5 0 5 0 5 0 5 0 5 我需要理解计算背后的概念因为这些数据是 3 通道图像我不明白什么是相加的什么是除什么的等等
ValueError：使用火炬张量时需要解压的值太多

对于神经网络项目我使用 Pytorch 并使用 EMNIST 数据集已经给出的代码加载到数据集中 train dataset dsets MNIST root data train True transform transforms T
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
Pytorch RuntimeError：“host_softmax”未针对“torch.cuda.LongTensor”实现

我正在使用 pytorch 来训练模型但是在计算交叉熵损失时我遇到了运行时错误 Traceback most recent call last File deparser py line 402 in
对 FastAI 中的数据应用图像增强转换时出错

我正在尝试复制这个 Kaggle 笔记本https www kaggle com tanlikesmath diabetic retinopathy with resnet50 oversampling https www kaggle c

随机推荐

hive-05-Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

hive命令行里执行了一句话 select from person join zhanghao on person zjhm zhanghao zjhm limit 100 就是两个表做连接查询数据量大小一个是3千万一个是3亿结果报错
【Transformer系列】深入浅出理解Transformer网络模型（综合篇）

一参考资料 The Illustrated Transformer 图解Transformer 完整版 Attention Is All You Need The Core Idea of the Transformer transfor
【含源码】两种不同风格的圣诞树代码合集，其中还有可以改名字的圣诞树代码

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言前言一年一度的圣诞节马上就要到了看到好多程序员小伙伴已经开始炫耀自己制作的圣诞树了今天就跟大家分享2种不同风格的圣诞树附上完整代码拿来即用可以按照自
Linux常用命令记录

文章目录 1 软件安装安装软件来自源服务器安装 deb软件来自本地 deb文件修复依赖关系卸载软件 2 文件文件夹操作删除文件夹移动文件文件重命名 3 程序查看处理进程查看查看端口占用情况强制终止程序 4 解压文
肖sir__mysql之单表__004

mysql之单表一建表语句 1 show databases 查看所有的数据库 2 create databaes 数据库名创建数据库 3 use 数据库名指定使用数据库 4 show tables 5 创建表格式 create
linux计算字符串个数,Linux 统计某个字符串个数的方法

在 Linux 系统下有时候我们可能要对一个日志文件进行分析比如分析日志文件中某个单词或者某个特殊字符串出现了多少次对于匹配统计一般用到正则方法下面总结了几个统计字符串个数的方法方法一使用 grep 命令 grep o 字
Python自动化测试软件测试最全教程（附笔记），看完就可就业

最近看到很多粉丝在后台私信我叫我做一期Python自动化测试的教程其实关于这个问题我也早就在着手准备了我录制了一整套完整的Python自动化测试的教程都上传在B站上面大家有兴趣的可以去看一下 Python自动化测试手把手教你做
springboot不香吗?为什么还要使用springcloud

1 为什么要使用springcloud 如果我们的服务需要调用另外的一个服务当然可以通过url 加接口直接调用但是如果url变动后我们也要跟着修改还有可能服务宕机我们也不知道而且现在只有一个url不具备高可用性就算有多个url
Hudi Log 文件格式与读写流程

Hudi Log 文件格式与读写流程背景对 Hudi 有一定了解的读者应该知道 Hudi 有 COW 和 MOR 两种表类型其中的 MOR 表会通过日志文件记录文件写入一个 MOR 表后产生的文件可以观察到一个 MOR 表数据存储
【LeetCode与《代码随想录》】字符串篇：做题笔记与总结-JavaScript版

文章目录代码随想录主要题目 344 反转字符串 541 反转字符串 II 剑指 Offer 05 替换空格 151 反转字符串中的单词剑指 Offer 58 II 左旋转字符串 28 找出字符串中第一个匹配项的下标 KMP 还没写 4
我最喜欢的10个顶级数据科学资源，kaggle、TDS、arXiv......

当我声明数据科学正在成为最受欢迎的工作领域之一时我想你不会与我争辩特别是考虑到哈佛商业评论将数据科学家评为21世纪最性感的工作在这个领域我们已经走过了很长的路从数据科学和机器学习等术语还不为人所知到一切都聚集在统计学的保
systemd[1]: Failed to load SELinux policy. freezing.

今天早上发现centos7无法启动了界面提示systemd 1 Failed to load SELinux policy freezing 查到一篇资料说是selinux设置出问题了他将 etc selinux config文件中的s
MATLAB进行模式识别的实验

一实验一习题我猜测是根据最大似然估计法先求出那两个参数的值然后代入得到的是只关于x的函数然后把文本里的1000个数据导入画图首先我先把txt的数据读取到矩阵里面方便后续处理用到的函数 1 这里有一个比较详细的fopen的
docker部署war包、将容器打包成镜像、镜像导出到本地、镜像推送到dockerhub

前言最近公司使用帆软 finereport 报表工具制作数据报表并且需要将制作好的报表打包成war包通过docker部署并且将部署好的项目制作成docker镜像发给客户下面将部署过程中踩的坑总结一下想要了解帆软可以点击官方链接查
图片上传服务器系统说明

图片服务器测试用例图片上传服务器系统说明数据库设计 drop database if exists drawing bed create database drawing bed character set utf8mb4 use dr
东风小康为什么是dfsk_自吸这么“香”，为什么现在新车都是涡轮增压

知乎视频 www zhihu com 开车不带 T 干啥都没劲车子用了涡轮增压能够显著提升动力能把一台能用的车变成好用的车并且国内的排放法规也越来越严格使用涡轮增压的同时也具备了一些节能减排的效果所以说自然吸气的车越来
Multihead Attention - 多头注意力

文章目录多头注意力模型实现小结多头注意力在实践中当给定相同的查询键和值的集合时我们希望模型可以基于相同的注意力机制学习到不同的行为然后将不同的行为作为知识组合起来捕获序列内各种范围的依赖关系例如短距离依赖和长距
[3dsMax]2018版下拉菜单项的子菜单无法选中

软件自身问题安装更新补丁即可解决不想更新补丁也可以使用键盘的方向键进行选中补丁百度云链接 https pan baidu com s 1LDxRFwQnR0GSONuz7wcEfA 提取码 6gpk
面试高频的CMS回收器

CMS回收器低延迟想了解更多GC垃圾回收器的知识可以看下面这篇文章JVM之垃圾回收篇在JDK1 5时期 Hotspot推出了一款在强交互应用中几乎可认为有划时代意义的垃圾收集器 CMS Concurrent Mark Sweep 收
CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION 论文阅读笔记

CROSSFORMER A VERSATILE VISION TRANSFORMER BASED ON CROSS SCALE ATTENTION 论文阅读笔记这是浙大腾讯哥伦比亚大学一起发表在ICCV的一篇文章文章有三个贡献一是

CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION 论文阅读笔记

CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION 论文阅读笔记

CROSS-SCALE EMBEDDING LAYER

LONG SHORT DISTANCE ATTENTION

DYNAMIC POSITION BIAS

CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION 论文阅读笔记 的相关文章

随机推荐

热门标签

CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION 论文阅读笔记的相关文章