Swin-Transformer

2023-10-26

原视频链接：https://www.bilibili.com/video/BV1pL4y1v7jC/?spm_id_from=333.788&vd_source=f04f16dd6fd058b8328c67a3e064abd5

参考博文：2021-Swin Transformerhttps://blog.csdn.net/wujing1_1/article/details/124871307

与vision transformer对比

Swin-Transformer的feature map具有层次性,而vit直接下采样16倍

Swin-Transformer的feature map被一个一个的窗口分割开，窗口与窗口之间没有重叠,Vit中并没有进行分割，因此Swin-Transformer可以在每一个窗口内部进行multihead-self attention计算，window与window之间不进行信息的传递，大大减少计算量

网络结构

<1>首先将图片输入到Patch Partition模块中进行分块

即每4x4相邻的像素为一个Patch，然后在channel方向展平（flatten）。假设输入的是RGB三通道图片，那么每个patch就有4x4=16个像素，然后每个像素有R、G、B三个值所以展平后是16x3=48，所以通过Patch Partition后图像shape由 [H, W, 3]变成了 [H/4, W/4, 48]。然后在通过Linear Embeding层对每个像素的channel数据做线性变换，由48变成C，即图像shape再由 [H/4, W/4, 48]变成了 [H/4, W/4, C]。其实在源码中Patch Partition和Linear Embeding就是直接通过一个卷积层实现的，和之前Vision Transformer中讲的 Embedding层结构一模一样。

Stage1:

第一个模块是 linear embedding层，patch partition+linear embedding其实效果和patch merging效果差不多

每个窗口在channel方向进行展平，因为是三通道所以channel是3*16 = 48

linear Embedding对输入特征矩阵的channel进行调整，C根据swintranformer的类型不同有所调整

stage234:

后面都是patch merging层

W-MSA

对比计算量

矩阵中flops的计算方法

shifted windows

解决W-MSA窗口之间没有信息通讯的问题，于是W-MSA的下一层一般都是SW-MSA

大概是这样一个过程：

↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

更加高效方法的详解

图片理解：

原始window↓

A和C移到下面去

A和BB移到右面去

4为4*4window，3和5合并为4*4window，7和1合并为4*4window，8 6 2 0 合并为4*4window

5和3在原图中不是相邻的区域，如果计算MSA则会出现问题，只能单独进行计算，具体计算方法↓

根据attention计算公式，这里每一个窗口都要计算QKV

因此，区域3attention得到的数据还是区域5的数据，区域3和5分隔开了

最后还原回原始数据的排列

再举个例子：

对于这4个橘色的可以直接进行MSA操作，每个window都能融合上一层四个window的信息

紫色区域进行mask -msa，不让原图上不相邻区域进行信息的交流

相对位置偏置

相对位置偏移

相对位置索引和绝对位置索引

如何把二元坐标转化为一元坐标

*我们真正训练的是bias table里面的参数，

为啥是2M-1呢↓

模型详细配置参数

win. sz. 7x7表示使用的窗口（Windows）的大小

dim表示feature map的channel深度（或者说token的向量长度）

head表示多头注意力模块中head的个数

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Swin-Transformer 的相关文章

【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

C#调用带结构体指针的C Dll的方法

在C 中调用C C 类的DLL的时候有时候C的接口函数包含很多参数而且有的时候这些参数有可能是个结构体而且有可能是结构体指针那么在C 到底该如何安全的调用这样的DLL接口函数呢本文将详细介绍如何调用各种参数的方法一调用接口仅含
Flask电影网站项目

1 开发环境搭建 1 1 Windows环境下载Python 下载PyCharm 下载virtualenv 下载MySQL 可以安转一个数据库GUI 1 2 Linux环境下载VMware Workstation Pro 下载ubunt
Redhat/CentOS Linux 进入单用户模式

以 CentOS 7 9 和 Redhat 8 2 为例进行操作因为CentOS是Redhat的发行版所以同版本号界面和操作是一样的 CentOS 7 9 开机在 grub 引导界面时按下 e 键进入编辑模式找到 linux16 这
Ubuntu安装软件步骤

Ubuntu安装软件步骤 sudo apt get update sudo apt get install flex bison gperfbuild essential curl zlib1g dev g multilib g 4 4 m
Source Insight 4.0 下载安装配置

目录下载地址安装打开试用导入工程代码 1 新建一个项目 project 2 填充项目名及代码路径 3 这个直接点OK 4 导入项目文件 5 重建一下项目 6 打开项目文件 project Files 修改source insig
CS162 13-17 虚拟内存

起源为啥我们需要虚拟内存需求是啥可以给程序提供一个统一的视图比如多个程序运行同一个代码段的话同一个kernel 就可以直接共享 cpu眼里的虚拟内存无限内存的假象设计迭代过程为啥这样设计一个迭代过程用上下界来做缺点还
Basic Level 1065 单身狗 (25分)

题目单身狗是中文对于单身人士的一种爱称本题请你从上万人的大型派对中找出落单的客人以便给予特殊关爱输入格式输入第一行给出一个正整数 N 50 000 是已知夫妻伴侣的对数随后 N 行每行给出一对夫妻伴侣为方便起见每人对
cv2.error: OpenCV(4.6.0) :-1: error: (-5:Bad argument) in function ‘seamlessClone‘

Can t parse p Sequence item with index 0 has a wrong type 1 软件环境 2 问题描述 3 解决方法 4 结果预览 1 软件环境 Windows10 教育版64位 Python 3 6
函数式接口

接口 package cn dali5 code01 函数式接口有且仅有一个抽象方法的接口可以有其他的方法默认静态私有函数式接口适用于函数式编程场景的接口 Java中函数式编程的提现就是lambda表达式所以函数式接口就是可
python子类定义报错：TypeError: __init__() missing 1 required positional argument: ‘prilege‘

在学习 Python编程从入门到实践中类这一章节其中子类的案例代码如下 class Car snip class Battery 一次模拟电动汽车电瓶的简单尝试 def init self battery size 70 初始化电瓶的
html5media使用api,html5中media(播放器)的api使用指南.pdf

代码如下 HTML Audio API HTML5 Audio API HTML5 Audio API demo by target blank gt LearnShare Last update 2013 04 23 20 40 00 a
Python多线程、多进程和协程的实例讲解

线程进程和协程是什么线程进程和协程的详细概念解释和原理剖析不是本文的重点本文重点讲述在Python中怎样实际使用这三种东西参考进程线程协程之概念理解进程 Process 是计算机中的程序关于某数据集合上的一次运行活动是系
WebUploader使用

WebUploader用于文件的上传文件上传过程为网页中点击上传按钮弹出选择文件窗口并选择一个文件在网页中显示选中的内容给使用者一个反馈点击上传按钮文件开始上传同时服务端开始接收文件对于服务端而言框架往往都有自己的接收
Jmeter(二十六) - 从入门到精通 - 搭建开源论坛JForum（详解教程）

1 简介今天这篇文章主要是给大家讲解一下如何部署测试环境这里宏哥部署一个开源测论坛后边的文章中会用到这个论坛并且也看到童鞋们在群里讨论如何在开发将测试包发给你以后你如何快速地部署测试环境这里就是简单的演示一下应该具体项目灵活
洛谷 P1085 不高兴的津津

这个题目需要连续换行输入7组数据并且对数据的最大值进行比较和提取题目描述津津上初中了妈妈认为津津应该更加用功学习所以津津除了上学之外还要参加妈妈为她报名的各科复习班另外每周妈妈还会送她去学习朗诵舞蹈和钢琴但是津津如果一天上
IDEA的配置JDK,Tomcat,Maven

IDEA的配置JDK Tomcat Maven 先下载安装jdk 其中JDK为安装版 tomcat 和maven为非安装版 JDK安装完成后要设置3个坏境变量 tomcat和maven好像不设置也行就下载下来解压就行了 maven最好还是
小米android11账号补丁,小米10 MIUI11 解账户锁可登小米账号永不反锁完美ROOT 解锁包...

MIUI全机型有锁机账户锁刷机包仅针对于有锁机用户使用帮助已经购买到有锁机的用户 ROM版权归小米官方所有本人未持有任何版权仅以分享形式发布对ROM稳定性也不能做任何保证如果你希望更好的系统体验我们非常建议购买正规渠道的小
用Construct2开发一个小游戏（进阶）

策划并用Construct2开发一个小游戏进阶游戏策划楔子 Setting 公元2500年与地球建交长达200之久的达克星球 Dark Star 单方面撕毁友好合约对地球发起了进攻面对源源不断的独眼怪大军你踏入自己发明的洋芋
MATLAB——读取多文件夹内文件并绘制图形（1）——逐行读取txt文件内字符串

目录 1 添加路径 2 准备好图片名称和路径名称 3 读取txt文件中的字符串 1 添加路径如果m文件和要读取的文件不在同一个路径下需要借助下方代码将当前文件夹下的所有文件都包含进搜索路径中 addpath genpath F SaCo
Swin-Transformer

原视频链接 https www bilibili com video BV1pL4y1v7jC spm id from 333 788 vd source f04f16dd6fd058b8328c67a3e064abd5 参考博文 2021

Swin-Transformer

Swin-Transformer 的相关文章

随机推荐

热门标签