Swin-Transformer

2023-10-26

原视频链接:https://www.bilibili.com/video/BV1pL4y1v7jC/?spm_id_from=333.788&vd_source=f04f16dd6fd058b8328c67a3e064abd5

参考博文:2021-Swin Transformerhttps://blog.csdn.net/wujing1_1/article/details/124871307

与vision transformer对比

  1. Swin-Transformer的feature map具有层次性,而vit直接下采样16倍

  1. Swin-Transformer的feature map被一个一个的窗口分割开,窗口与窗口之间没有重叠,Vit中并没有进行分割,因此Swin-Transformer可以在每一个窗口内部进行multihead-self attention计算,window与window之间不进行信息的传递,大大减少计算量

网络结构

<1>首先将图片输入到Patch Partition模块中进行分块

即每4x4相邻的像素为一个Patch,然后在channel方向展平(flatten)。假设输入的是RGB三通道图片,那么每个patch就有4x4=16个像素,然后每个像素有R、G、B三个值所以展平后是16x3=48,所以通过Patch Partition后图像shape由 [H, W, 3]变成了 [H/4, W/4, 48]。然后在通过Linear Embeding层对每个像素的channel数据做线性变换,由48变成C,即图像shape再由 [H/4, W/4, 48]变成了 [H/4, W/4, C]。其实在源码中Patch Partition和Linear Embeding就是直接通过一个卷积层实现的,和之前Vision Transformer中讲的 Embedding层结构一模一样。

Stage1:

第一个模块是 linear embedding层,patch partition+linear embedding其实效果和patch merging效果差不多

每个窗口在channel方向进行展平,因为是三通道所以channel是3*16 = 48

linear Embedding对输入特征矩阵的channel进行调整,C根据swintranformer的类型不同有所调整

stage234:

后面都是patch merging层

W-MSA

对比计算量

矩阵中flops的计算方法

shifted windows

解决W-MSA窗口之间没有信息通讯的问题,于是W-MSA的下一层一般都是SW-MSA

大概是这样一个过程:

↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

更加高效方法的详解

图片理解:

原始window↓

A和C移到下面去

A和BB移到右面去

  1. 4为4*4window,3和5合并为4*4window,7和1合并为4*4window,8 6 2 0 合并为4*4window

  1. 5和3在原图中不是相邻的区域,如果计算MSA则会出现问题,只能单独进行计算,具体计算方法↓

根据attention计算公式,这里每一个窗口都要计算QKV

因此,区域3attention得到的数据还是区域5的数据,区域3和5分隔开了

最后还原回原始数据的排列

再举个例子:

对于这4个橘色的可以直接进行MSA操作,每个window都能融合上一层四个window的信息

紫色区域进行mask -msa,不让原图上不相邻区域进行信息的交流

相对位置偏置

相对位置偏移

相对位置索引和绝对位置索引

如何把二元坐标转化为一元坐标

*我们真正训练的是bias table里面的参数,

为啥是2M-1呢↓

模型详细配置参数

  • win. sz. 7x7表示使用的窗口(Windows)的大小

  • dim表示feature map的channel深度(或者说token的向量长度)

  • head表示多头注意力模块中head的个数

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Swin-Transformer 的相关文章

随机推荐

  • C#调用带结构体指针的C Dll的方法

    在C 中调用C C 类的DLL的时候 有时候C的接口函数包含很多参数 而且有的时候这些参数有可能是个结构体 而且有可能是结构体指针 那么在C 到底该如何安全的调用这样的DLL接口函数呢 本文将详细介绍如何调用各种参数的方法 一 调用接口仅含
  • Flask电影网站项目

    1 开发环境搭建 1 1 Windows环境 下载Python 下载PyCharm 下载virtualenv 下载MySQL 可以安转一个数据库GUI 1 2 Linux环境 下载VMware Workstation Pro 下载ubunt
  • Redhat/CentOS Linux 进入单用户模式

    以 CentOS 7 9 和 Redhat 8 2 为例进行操作 因为CentOS是Redhat的发行版 所以同版本号界面和操作是一样的 CentOS 7 9 开机在 grub 引导界面时 按下 e 键进入编辑模式 找到 linux16 这
  • Ubuntu安装软件步骤

    Ubuntu安装软件步骤 sudo apt get update sudo apt get install flex bison gperfbuild essential curl zlib1g dev g multilib g 4 4 m
  • Source Insight 4.0 下载 安装 配置

    目录 下载地址 安装 打开 试用 导入工程 代码 1 新建一个项目 project 2 填充项目名及代码路径 3 这个直接点OK 4 导入项目文件 5 重建一下项目 6 打开项目文件 project Files 修改source insig
  • CS162 13-17 虚拟内存

    起源 为啥我们需要虚拟内存 需求是啥 可以给程序提供一个统一的视图 比如多个程序运行同一个代码段的话 同一个kernel 就可以直接共享 cpu眼里的虚拟内存 无限内存的假象 设计迭代过程 为啥这样设计 一个迭代过程 用上下界来做 缺点 还
  • Basic Level 1065 单身狗 (25分)

    题目 单身狗 是中文对于单身人士的一种爱称 本题请你从上万人的大型派对中找出落单的客人 以便给予特殊关爱 输入格式 输入第一行给出一个正整数 N 50 000 是已知夫妻 伴侣的对数 随后 N 行 每行给出一对夫妻 伴侣 为方便起见 每人对
  • cv2.error: OpenCV(4.6.0) :-1: error: (-5:Bad argument) in function ‘seamlessClone‘

    Can t parse p Sequence item with index 0 has a wrong type 1 软件环境 2 问题描述 3 解决方法 4 结果预览 1 软件环境 Windows10 教育版64位 Python 3 6
  • 函数式接口

    接口 package cn dali5 code01 函数式接口 有且仅有一个抽象方法的接口 可以有其他的方法 默认 静态 私有 函数式接口 适用于函数式编程场景的接口 Java中函数式编程的提现就是lambda表达式 所以函数式接口就是可
  • python子类定义报错:TypeError: __init__() missing 1 required positional argument: ‘prilege‘

    在学习 Python编程 从入门到实践 中类这一章节 其中子类的案例代码如下 class Car snip class Battery 一次模拟电动汽车电瓶的简单尝试 def init self battery size 70 初始化电瓶的
  • html5media使用api,html5中media(播放器)的api使用指南.pdf

    代码如下 HTML Audio API HTML5 Audio API HTML5 Audio API demo by target blank gt LearnShare Last update 2013 04 23 20 40 00 a
  • Python多线程、多进程和协程的实例讲解

    线程 进程和协程是什么 线程 进程和协程的详细概念解释和原理剖析不是本文的重点 本文重点讲述在Python中怎样实际使用这三种东西 参考 进程 线程 协程之概念理解 进程 Process 是计算机中的程序关于某数据集合上的一次运行活动 是系
  • WebUploader使用

    WebUploader用于文件的上传 文件上传过程为 网页中点击上传按钮 弹出选择文件窗口 并选择一个文件 在网页中显示选中的内容 给使用者一个反馈 点击上传按钮 文件开始上传 同时服务端开始接收文件 对于服务端而言 框架往往都有自己的接收
  • Jmeter(二十六) - 从入门到精通 - 搭建开源论坛JForum(详解教程)

    1 简介 今天这篇文章主要是给大家讲解一下 如何部署测试环境 这里宏哥部署一个开源测论坛 后边的文章中会用到这个论坛 并且也看到童鞋们在群里讨论如何在开发将测试包发给你以后 你如何快速地部署测试环境 这里就是简单的演示一下 应该具体项目灵活
  • 洛谷 P1085 不高兴的津津

    这个题目需要连续换行输入7组数据 并且对数据的最大值进行比较和提取 题目描述 津津上初中了 妈妈认为津津应该更加用功学习 所以津津除了上学之外 还要参加妈妈为她报名的各科复习班 另外每周妈妈还会送她去学习朗诵 舞蹈和钢琴 但是津津如果一天上
  • IDEA的配置JDK,Tomcat,Maven

    IDEA的配置JDK Tomcat Maven 先下载安装jdk 其中JDK为安装版 tomcat 和maven为非安装版 JDK安装完成后要设置3个坏境变量 tomcat和maven好像不设置也行 就下载下来解压就行了 maven最好还是
  • 小米android11账号补丁,小米10 MIUI11 解账户锁 可登小米账号 永不反锁 完美ROOT 解锁包...

    MIUI全机型有锁机账户锁刷机包 仅针对于有锁机用户使用 帮助已经购买到有锁机的用户 ROM版权归小米 官方所有 本人未持有任何版权 仅以分享形式发布 对ROM稳定性也不能做任何保证 如果你希望更好的系统 体验 我们非常建议购买正规渠道的小
  • 用Construct2开发一个小游戏(进阶)

    策划并用Construct2开发一个小游戏 进阶 游戏策划 楔子 Setting 公元2500年 与地球建交长达200之久的达克星球 Dark Star 单方面撕毁友好合约 对地球发起了进攻 面对源源不断的独眼怪大军 你踏入自己发明的 洋芋
  • MATLAB——读取多文件夹内文件并绘制图形(1)——逐行读取txt文件内字符串

    目录 1 添加路径 2 准备好图片名称和路径名称 3 读取txt文件中的字符串 1 添加路径 如果m文件和要读取的文件不在同一个路径下 需要借助下方代码将当前文件夹下的所有文件都包含进搜索路径中 addpath genpath F SaCo
  • Swin-Transformer

    原视频链接 https www bilibili com video BV1pL4y1v7jC spm id from 333 788 vd source f04f16dd6fd058b8328c67a3e064abd5 参考博文 2021