pytorch 笔记: Swin-Transformer 代码

2023-11-16

理论部分: 论文笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows_UQI-LIUWJ的博客-CSDN博客

源码部分:Swin-Transformer/models at main · microsoft/Swin-Transformer (github.com) 

  • 输入图片尺寸 Batch_size*H*W
  • 送入SwinTransformer
    • PatchEmbedding【Parameter】
      • 每个patch 分别进行Embedding
      • Batch_size*H*W——>Batch_size,Patch_H*Patch_W,emb_dim
    • 每个图片加1,Patch_H*Patch*W,emb_dim大小的绝对位置embedding
    • 送入BasicLayer
      • 多个SwinTranformer
        • 奇数 shift window attention,偶数 window attention
          • 内部实现
            • (如果需要)通过torch.roll进行window shift
            • (如果需要)生成Patch_H*Patch_W的mask(针对滑动窗口情况)
            • window_partition
              • 从patch视角转换成window视角
              • Batch_size,Patch_H*Patch_W,emb_dim —> Batch_size*num_window,window_size,window_size,emb_dim
            • window_attention
              • Batch_size*num_window,window_size,window_size,emb_dim ——> Batch_size*num_window,window_size,window_size,emb_dim
              • 相对位置编码(Parameter)加在QK之上
                • (2*window_size-1,2*window_size-1,head)
              • window内每个点和另一个点的相对位置索引矩阵
                • (head,window_size*window_size,window_size*window_size)
            • window_reversion
              • 从windows视角再回到patch视角
        • Batch_size,Patch_H*Patch_W,emb_dim —> Batch_size,Patch_H*Patch_W,emb_dim
      • (除了末层不需要,其他都需要)Patch_Merging
        • Batch_size,Patch_H*Patch_W,emb_dim —> Batch_size,Patch_H/2*Patch_W/2,emb_dim*2
    • 得到Batch_size,L,dim
    • 每张图片每个dim的L个patch进行平均池化——>Batch_size,dim
    • 全连接进行分类——>Batch_size,num_class.

1 class SwinTransformer

class SwinTransformer(nn.Module):

1.1 init输入部分

1.1.1 主要输入参数

img_size

输入的图片的大小

(int,或者int的tuple)

默认224

patch_size

patch的大小

(int,或者int的tuple)

默认4

in_chans

输入图片的channel数

默认3

num_classes

图片分类的类别数

默认1000

embed_dim

patch embedding的维数

默认96

depths

各swin-transformer层的深度

(int的tuple)

num_heads

各swin-transformer层的attention的头数

(int的tuple)

window_size

窗口大小

(窗口内的点进行attention)

mlp_ratio 

mlp隐藏层维度:embedding层维度

qkv_bias

QKV是否有bias

drop_rate dropout rate
attn_drop_rate attention的drop rate
drop_path_rate

stochastic depth的p值大小

norm_layer

进行何种规范化

ape

是否加绝对位置positional encodding

patch_norm

是否在patch embedding之后进行normalization

 1.1.2 代码部分(init)

    def __init__(self, img_size=224, patch_size=4, in_chans=3, num_classes=1000,
                 embed_dim=96, depths=[2, 2, 6, 2], num_heads=[3, 6, 12, 24],
                 window_size=7, mlp_ratio=4., qkv_bias=True, qk_scale=None,
                 drop_rate=0., attn_drop_rate=0., drop_path_rate=0.1,
                 norm_layer=nn.LayerNorm, ape=False, patch_norm=True,
                 use_checkpoint=False, fused_window_process=False, **kwargs):
        super().__init__()

        self.num_classes = num_classes
        self.num_layers = len(depths)
        self.embed_dim = embed_dim
        self.ape = ape
        self.patch_norm = patch_norm
        self.num_features = int(embed_dim * 2 ** (self.num_layers - 1))
        self.mlp_ratio = mlp_ratio


#####################将像素级图片转成patch级图片的类初始类#######################
        # split image into non-overlapping patches
        self.patch_embed = PatchEmbed(
            img_size=img_size, 
            patch_size=patch_size, 
            in_chans=in_chans, 
            embed_dim=embed_dim,
            norm_layer=norm_layer if self.patch_norm else None)
        #用于将图片转换成一个一个patch
        num_patches = self.patch_embed.num_patches
        #一张图片中有几个patch
        patches_resolution = self.patch_embed.patches_resolution
        #一张图片基于patch的分辨率
        self.patches_resolution = patches_resolution
#############################################################################

########################### 绝对位置编码 #####################################
        # absolute position embedding
        if self.ape:
            self.absolute_pos_embed = nn.Parameter(torch.zeros(1, num_patches, embed_dim))
            trunc_normal_(self.absolute_pos_embed, std=.02)
            #1*num_patches*embed_dim维度,每一个embed_dim都代表了一个patch的绝对位置的向量
#############################################################################


        self.pos_drop = nn.Dropout(p=drop_rate)
        

        # stochastic depth
        dpr = [x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))]  # stochastic depth decay rule
        #层数越深stochastic depth的p(不激活这一层的概率)越大


###############################搭建swin-transformer################################
        # build layers
        self.layers = nn.ModuleList()
        for i_layer in range(self.num_layers):
            layer = BasicLayer(dim=int(embed_dim * 2 ** i_layer),
                               input_resolution=(patches_resolution[0] // (2 ** i_layer),
                                                 patches_resolution[1] // (2 ** i_layer)),
                               #随着层数的推进,维度翻倍,图片分辨率(大小)减半

                               depth=depths[i_layer],
                               #不同层swin-transformer需要不同的block数量

                               num_heads=num_heads[i_layer],
                               #不同层swin-transformer需要不同的注意力头数量

                               window_size=window_size,
                               mlp_ratio=self.mlp_ratio,
                               qkv_bias=qkv_bias, 
                               qk_scale=qk_scale,
                               drop=drop_rate, 
                               attn_drop=attn_drop_rate,
                               drop_path=dpr[sum(depths[:i_layer]):sum(depths[:i_layer + 1])],
                               norm_layer=norm_layer,
                               downsample=PatchMerging if (i_layer < self.num_layers - 1) else None,
                               #除了最后一层,其他的都需要PatchMerge(类似于CNN的池化)

                               use_checkpoint=use_checkpoint,
                               fused_window_process=fused_window_process)
            self.layers.append(layer)
        

        self.norm = norm_layer(self.num_features)
        self.avgpool = nn.AdaptiveAvgPool1d(1)
        self.head = nn.Linear(self.num_features, num_classes) if num_classes > 0 else nn.Identity()
#################################################################################

        self.apply(self._init_weights)
        #对每个子模组进行初始化

1.1.3 _init_weights

对每个子模组分别递归地进行初始化

    def _init_weights(self, m):
        if isinstance(m, nn.Linear):
            trunc_normal_(m.weight, std=.02)
            if isinstance(m, nn.Linear) and m.bias is not None:
                nn.init.constant_(m.bias, 0)
        elif isinstance(m, nn.LayerNorm):
            nn.init.constant_(m.bias, 0)
            nn.init.constant_(m.weight, 1.0)

1.1.4 forward_features

    def forward_features(self, x):
        x = self.patch_embed(x)
        #将图片转成patch级别分辨率,其中每个patch有emb_dim维
        #B,Patch_H*Patch_W,C

        if self.ape:
            x = x + self.absolute_pos_embed
        #绝对位置编码
        #B,Patch_H*Patch_W,C

        x = self.pos_drop(x)
        #Dropout

        for layer in self.layers:
            x = layer(x)
        #依次传入不同的layer层

        x = self.norm(x)  
        #LayerNorm  
        # batch_size, length, dim

        x = self.avgpool(x.transpose(1, 2)) 
        #平均池化  # batch_size,dim,1
        // 每张图片每个dimension取平均池化,就是这个dimension平均的feature

        x = torch.flatten(x, 1)
        #[batch_size,dim]
        #每张图片有dim个特征,每个特征是这张图片各个patch在这一dimension的平均值

        return x

1.1.5 forward

def forward(self, x):
        x = self.forward_features(x)
        #swin transformer 学习特征

        x = self.head(x)
        #全连接层进行分类
        return x

 

2 PatchEmbed

将像素级图片转化成patch级图片

class PatchEmbed(nn.Module):

2.1 init

    def __init__(self, img_size=224, patch_size=4, in_chans=3, embed_dim=96, norm_layer=None):
        super().__init__()
        img_size = to_2tuple(img_size)
        #224——>(224,224)
        patch_size = to_2tuple(patch_size)
        #4——>(4,4)

        patches_resolution = [img_size[0] // patch_size[0], img_size[1] // patch_size[1]]
        #一张图片基于patch的分辨率

        self.img_size = img_size
        self.patch_size = patch_size
        self.patches_resolution = patches_resolution

        self.num_patches = patches_resolution[0] * patches_resolution[1]
        #一张图片有几个patch

        self.in_chans = in_chans
        self.embed_dim = embed_dim

        self.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)
        '''
        卷积核是patch_size*patch_size,stride是patch_size
        ——>每个patch*patch*in_chans的部分,通过proj,变成1*1*embed_dim
        
        '''


        if norm_layer is not None:
            self.norm = norm_layer(embed_dim)
        else:
            self.norm = None

2.2 forward

 def forward(self, x):
        B, C, H, W = x.shape
        //batch_size,channel_num,height,width

        # FIXME look at relaxing size constraints
        assert H == self.img_size[0] and W == self.img_size[1], \
            f"Input image size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})."


        x = self.proj(x).flatten(2).transpose(1, 2)  
        '''
        每个patch里面的内容进行卷积
        将每个patch_size*patch_size的内容变成1*1的内容

        proj——> B,emb_dim,Patch_H,Patch_W
        flatten(2)——>B,emb_dim,Patch_H*Patch_W
        transpose(1,2)——>B,Patch_H*Patch_W,emb_dim
        '''


        if self.norm is not None:
            x = self.norm(x)
        return x

 

3 BasicLayer

 

一个stage的swin transformer层

class BasicLayer(nn.Module):
    """ A basic Swin Transformer layer for one stage.

3.1 主要参数

dim 输入channel的数量
input_resolution 输入的分辨率
depth block的数量
num_heads attention头的数量
window_size window的大小,window_size*window_sizw的内容进行attention
mlp_ratio 

mlp隐藏层维度:embedding层维度

qkv_bias

QKV是否有bias

drop dropout rate
attn_drop attention的drop rate
drop_path stochastic depth的p

3.2 init

def __init__(self, dim, input_resolution, depth, num_heads, window_size,
                 mlp_ratio=4., qkv_bias=True, qk_scale=None, drop=0., attn_drop=0.,
                 drop_path=0., norm_layer=nn.LayerNorm, downsample=None, use_checkpoint=False,
                 fused_window_process=False):

        super().__init__()
        self.dim = dim
        self.input_resolution = input_resolution
        self.depth = depth
        self.use_checkpoint = use_checkpoint

        # build blocks
        self.blocks = nn.ModuleList([
            SwinTransformerBlock(dim=dim, 
                                 input_resolution=input_resolution,
                                 num_heads=num_heads, 
                                 window_size=window_size,
                                 shift_size=0 if (i % 2 == 0) else window_size // 2,
                                 #由于一个window attention加一个shift window attention是一个swin-transformer块
                                 #所以这里需要根据奇偶判断shift_size是windos_size的一半还是0
                                 mlp_ratio=mlp_ratio,
                                 qkv_bias=qkv_bias, 
                                 qk_scale=qk_scale,
                                 drop=drop, 
                                 attn_drop=attn_drop,
                                 drop_path=drop_path[i] if isinstance(drop_path, list) else drop_path,
                                 norm_layer=norm_layer,
                                 fused_window_process=fused_window_process)
            for i in range(depth)])
            

        # patch merging layer
        if downsample is not None:
            self.downsample = downsample(input_resolution, dim=dim, norm_layer=norm_layer)
        else:
            self.downsample = None
        #除了最后一层,其他的都需要PatchMerge(类似于CNN的池化)

3.3 forward

 def forward(self, x):
        ///x:B,Patch_H*Patch_W,C
        for blk in self.blocks:
            if self.use_checkpoint:
                x = checkpoint.checkpoint(blk, x)
            else:
                x = blk(x)
        #依次送入这个basic block 里面的每个swin-transformer block

        if self.downsample is not None:
            x = self.downsample(x)
        #除非最后一层,否则都进行PatchEmerging
        return x

 

4 SwinTransformerBlock

4.1 主要输入参数、

dim 输入channel的数量
input_resolution 输入的分辨率
num_heads attention头的数量
window_size window的大小,window_size*window_sizw的内容进行attention
shitf_size 是否需要滑动窗口,偶数层不用奇数层用
mlp_ratio 

mlp隐藏层维度:embedding层维度

qkv_bias

QKV是否有bias

drop dropout rate
attn_drop attention的drop rate
drop_path stochastic depth的p

4.2 init

def __init__(self, dim, input_resolution, num_heads, window_size=7, shift_size=0,
                 mlp_ratio=4., qkv_bias=True, qk_scale=None, drop=0., attn_drop=0., drop_path=0.,
                 act_layer=nn.GELU, norm_layer=nn.LayerNorm,
                 fused_window_process=False):
        super().__init__()
        self.dim = dim
        self.input_resolution = input_resolution
        self.num_heads = num_heads
        self.window_size = window_size
        self.shift_size = shift_size
        self.mlp_ratio = mlp_ratio

        if min(self.input_resolution) <= self.window_size:
            # if window size is larger than input resolution, we don't partition windows
            self.shift_size = 0
            self.window_size = min(self.input_resolution)
        #如果当前图片的分辨率大小比window size小,那么将window size设置成图片的分辨率大小。同时不进行shift window


        assert 0 <= self.shift_size < self.window_size, "shift_size must in 0-window_size"
        #默认shift window比windows size 小

        self.norm1 = norm_layer(dim)
        self.attn = WindowAttention(
            dim, 
            window_size=to_2tuple(self.window_size), 
            num_heads=num_heads,
            qkv_bias=qkv_bias, 
            qk_scale=qk_scale, 
            attn_drop=attn_drop, 
            proj_drop=drop)

        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
        self.norm2 = norm_layer(dim)
        mlp_hidden_dim = int(dim * mlp_ratio)
        self.mlp = Mlp(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)



##################################滑动窗口WSA###########################
        if self.shift_size > 0:
            # calculate attention mask for SW-MSA
            H, W = self.input_resolution
            img_mask = torch.zeros((1, H, W, 1))  # 1 H W 1
            h_slices = (slice(0, -self.window_size),
                        slice(-self.window_size, -self.shift_size),
                        slice(-self.shift_size, None))
            w_slices = (slice(0, -self.window_size),
                        slice(-self.window_size, -self.shift_size),
                        slice(-self.shift_size, None))
            cnt = 0
            for h in h_slices:
                for w in w_slices:
                    img_mask[:, h, w, :] = cnt
                    cnt += 1

            mask_windows = window_partition(img_mask, self.window_size) 
            #B,H,W,C——>B*num_W, window_size, window_size, C  
            #num_W表示可以划分成几个窗口


            mask_windows = mask_windows.view(-1, self.window_size * self.window_size)
            #B*num_W*C,window_size*window_size

            attn_mask = mask_windows.unsqueeze(1) - mask_windows.unsqueeze(2)
            #B*num_W*C,window_size*window_size,window_size*window_size
            attn_mask = attn_mask.masked_fill(attn_mask != 0, float(-100.0)).masked_fill(attn_mask == 0, float(0.0))
        else:
            attn_mask = None
##############################################################################

        self.register_buffer("attn_mask", attn_mask)
        self.fused_window_process = fused_window_process

不同数字的cnt对应的是下面这九块 

对于滑动窗口这一部分,我们举个例子:H=W=6,window_size=2,shift_size=1

img_mask
'''
tensor([[[[0.],[0.],[0.],[0.],[1.],[2.]],

         [[0.],[0.],[0.],[0.],[1.],[2.]],

         [[0.],[0.],[0.],[0.],[1.],[2.]],

         [[0.],[0.],[0.],[0.],[1.],[2.]],

         [[3.],[3.],[3.],[3.],[4.],[5.]],

         [[6.],[6.],[6.],[6.],[7.],[8.]]]])
'''
mask_windows
'''
tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [1., 2., 1., 2.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [1., 2., 1., 2.],
        [3., 3., 6., 6.],
        [3., 3., 6., 6.],
        [4., 5., 7., 8.]])
'''
 mask_windows.unsqueeze(1) - mask_windows.unsqueeze(2)
'''
我们记:
A=[[ 0.,  0.,  0.,  0.],
   [ 0.,  0.,  0.,  0.],
   [ 0.,  0.,  0.,  0.],
   [ 0.,  0.,  0.,  0.]]
B=[[ 0.,  1.,  0.,  1.],
   [-1.,  0., -1.,  0.],
   [ 0.,  1.,  0.,  1.],
   [-1.,  0., -1.,  0.]]
C=[[ 0.,  0.,  3.,  3.],
   [ 0.,  0.,  3.,  3.],
   [-3., -3.,  0.,  0.],
   [-3., -3.,  0.,  0.]]
D=[[ 0.,  1.,  3.,  4.],
   [-1.,  0.,  2.,  3.],
   [-3., -2.,  0.,  1.],
   [-4., -3., -1.,  0.]]
结果是[A,A,B,A,A,B,C,C,D]
'''


atten_mask
'''
我们记:
A[[   0.,    0.,    0.,    0.],
  [   0.,    0.,    0.,    0.],
  [   0.,    0.,    0.,    0.],
  [   0.,    0.,    0.,    0.]]
B=[[   0., -100.,    0., -100.],
   [-100.,    0., -100.,    0.],
   [   0., -100.,    0., -100.],
   [-100.,    0., -100.,    0.]]
C=[[   0., -100.,    0., -100.],
   [-100.,    0., -100.,    0.],
   [   0., -100.,    0., -100.],
   [-100.,    0., -100.,    0.]]
D=[[   0., -100., -100., -100.],
   [-100.,    0., -100., -100.],
   [-100., -100.,    0., -100.],
   [-100., -100., -100.,    0.]]
结果是[A,A,B,A,A,B,C,C,D]
'''

A,B,C,D分别对应Window 0,1,2,3 

 

 4.3 forward

def forward(self, x):
        #x:B,Patch_H*Patch_W,C
        H, W = self.input_resolution
        B, L, C = x.shape
        assert L == H * W, "input feature has wrong size"

        shortcut = x
        x = self.norm1(x)
        x = x.view(B, H, W, C)
        #x:B,Patch_H,Patch_W,C

#############################(如果需要的话)滑动窗口############################
        # cyclic shift
        if self.shift_size > 0:
            if not self.fused_window_process:
                shifted_x = torch.roll(x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2))
                #向右下方横纵各平移shift_size 
                #(最左边和最上面的翻折下来)   

                # partition windows
                x_windows = window_partition(shifted_x, self.window_size)  
                # num_Window*B, window_size, window_size, C
            else:
                x_windows = WindowProcess.apply(x, B, H, W, C, -self.shift_size, self.window_size)


        else:
            shifted_x = x
            # partition windows
            x_windows = window_partition(shifted_x, self.window_size)  
            # num_Window*B, window_size, window_size, C

        x_windows = x_windows.view(-1, self.window_size * self.window_size, C)  
        # num_Window*B, window_size*window_size, C        
############################################################################


############################(滑动)窗口attention#################
        # W-MSA/SW-MSA
        attn_windows = self.attn(x_windows, mask=self.attn_mask) 
        #根据是否是滑动窗口attention,来进行窗口attention/滑动窗口attention
        # num_Window*B, window_size*window_size, C

        # merge windows
        attn_windows = attn_windows.view(-1, self.window_size, self.window_size, C)
        # num_Window*B, window_size,window_size, C

        # reverse cyclic shift
        if self.shift_size > 0:
            if not self.fused_window_process:
                shifted_x = window_reverse(attn_windows, self.window_size, H, W)  
                # B H W C
                #从window级别视角转换回patch级别视角

                x = torch.roll(shifted_x, shifts=(self.shift_size, self.shift_size), dims=(1, 2))
                #将向右下方平移后的矩阵平移回去
            else:
                x = WindowProcessReverse.apply(attn_windows, B, H, W, C, self.shift_size, self.window_size)
        else:
            shifted_x = window_reverse(attn_windows, self.window_size, H, W)  
            #如果没有滑动窗口,只要从window级别视角转换回patch级别视角即可
            x = shifted_x
######################################################################


        x = x.view(B, H * W, C)
        x = shortcut + self.drop_path(x)
        #每一个SwinTransformerBlock做完后(window att/shift window att),都进行一次stochastic depth

        # FFN
        x = x + self.drop_path(self.mlp(self.norm2(x)))
        #这论文的模型图里没有说明,但应该也是一个stochastic depth的操作

        return x

5 WindowAttention

逐window的attention

5.1 输入参数

dim 输入channel的数量
num_heads attention头的数量
window_size window的大小,window_size*window_sizw的内容进行attention
qkv_bias

QKV是否有bias

attn_drop attention的drop rate
proj_drop 输出层的droprate

5.2 init

 def __init__(self, dim, window_size, num_heads, qkv_bias=True, qk_scale=None, attn_drop=0., proj_drop=0.):

        super().__init__()
        self.dim = dim
        self.window_size = window_size  
        # Wh, Ww
        self.num_heads = num_heads
        head_dim = dim // num_heads
        #由于需要保持维度,所以每个window attention输入输出的维度都是dim
        #由于window attention有num_heads个头,所以每个头的dim就是dim//num_heads

        self.scale = qk_scale or head_dim ** -0.5


#############################相对位置编码#################################
        # define a parameter table of relative position bias
        self.relative_position_bias_table = nn.Parameter(
            torch.zeros((2 * window_size[0] - 1) * (2 * window_size[1] - 1), num_heads))  

        # 2*Wh-1 * 2*Ww-1, n_heads

        # get pair-wise relative position index for each token inside the window
        coords_h = torch.arange(self.window_size[0])
        coords_w = torch.arange(self.window_size[1])
        coords = torch.stack(torch.meshgrid([coords_h, coords_w]))  
        # 2, Wh, Ww
        coords_flatten = torch.flatten(coords, 1)  
        # 2, Wh*Ww
        relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]  
        # 2, Wh*Ww, Wh*Ww
        relative_coords = relative_coords.permute(1, 2, 0).contiguous()  # Wh*Ww, Wh*Ww, 2
        relative_coords[:, :, 0] += self.window_size[0] - 1  # shift to start from 0
        relative_coords[:, :, 1] += self.window_size[1] - 1
        relative_coords[:, :, 0] *= 2 * self.window_size[1] - 1
        relative_position_index = relative_coords.sum(-1)  # Wh*Ww, Wh*Ww
        self.register_buffer("relative_position_index", relative_position_index)
############################################################################


        self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)
        #这里和分别写三个dim——>dim的q,k,v Linear function是异曲同工的
        self.attn_drop = nn.Dropout(attn_drop)
        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop)

        trunc_normal_(self.relative_position_bias_table, std=.02)
        self.softmax = nn.Softmax(dim=-1)

5.2.1 相对位置编码详述

  •   relative_position_bias_table是一个可更新的Parameter

  • 我们现在假定窗口大小是2*2

    • 那么从相对位置来说(0,0)——>(0,1);(1,0)——>(1,1),他们的相对位置是一样的
      (0,0) (0,1)
      (1,0) (1,1)
  •  换言之,需要这样的相对位置索引(值相同的表示相对位置是一样的)
  • 4   (0,0)—>(0,0) 2   (0,0)—>(0,1) 1   (0,0)—>(1,0) 0   (0,0)—>(1,1)
    5   (0,1)——(0,0) 4  (0,1)—>(0,1) 3  (0,1)—>(1,0) 1   (1,0)—>(1,1)
    7   (1,0)——>(0,0) 6 (1,0)—>(0.1) 4 (2,2)—>(2,2) 2 (1,0)—>(1,1)
    8 (1,1)—>(0,0) 7 (1,1)—>(0,1) 5 (1,1)—>(1,0) 4 (3,3)—>(3,3)
    coords_h = torch.arange(window_size[0])
    coords_w = torch.arange(window_size[1])
    coords_h,coords_w
    '''
    (tensor([0, 1]), tensor([0, 1]))
    '''
    
    coords = torch.stack(torch.meshgrid([coords_h, coords_w]))
    coords
    '''
    (tensor([[0, 0],
             [1, 1]]),
     tensor([[0, 1],
             [0, 1]]))
    '''
    
    coords_flatten = torch.flatten(coords, 1)
    coords_flatten
    '''
    tensor([[0, 0, 1, 1],
            [0, 1, 0, 1]])
    '''
    
    relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :] 
    relative_coords
    '''
    每个window和另一个window之间相对位置,一共4*4个,所以这里是4*4的矩阵
    第一个4*4矩阵是相对位置的纵轴;第二个4*4是相对位置的横轴
    tensor([[[ 0,  0, -1, -1],
             [ 0,  0, -1, -1],
             [ 1,  1,  0,  0],
             [ 1,  1,  0,  0]],
    
            [[ 0, -1,  0, -1],
             [ 1,  0,  1,  0],
             [ 0, -1,  0, -1],
             [ 1,  0,  1,  0]]])
    '''
    relative_coords = relative_coords.permute(1, 2, 0).contiguous() 
    relative_coords
    '''
    每一行是一个相对位置索引
    tensor([[[ 0,  0],
             [ 0, -1],
             [-1,  0],
             [-1, -1]],
    
            [[ 0,  1],
             [ 0,  0],
             [-1,  1],
             [-1,  0]],
    
            [[ 1,  0],
             [ 1, -1],
             [ 0,  0],
             [ 0, -1]],
    
            [[ 1,  1],
             [ 1,  0],
             [ 0,  1],
             [ 0,  0]]])
    '''
    
    relative_coords[:, :, 0] += window_size[0] - 1
    relative_coords[:, :, 1] += window_size[1] - 1
    relative_coords[:, :, 0] *= 2 * window_size[1] - 1
    '''
    tensor([[[3, 1],
             [3, 0],
             [0, 1],
             [0, 0]],
    
            [[3, 2],
             [3, 1],
             [0, 2],
             [0, 1]],
    
            [[6, 1],
             [6, 0],
             [3, 1],
             [3, 0]],
    
            [[6, 2],
             [6, 1],
             [3, 2],
             [3, 1]]])
    '''
    
    relative_position_index = relative_coords.sum(-1)
    relative_position_index
    '''
    tensor([[4, 3, 1, 0],
            [5, 4, 2, 1],
            [7, 6, 4, 3],
            [8, 7, 5, 4]])
    '''

 5.3 forward

    def forward(self, x, mask=None):
        """
        Args:
            x: input features with shape of (num_windows*B, N, C)
            mask: (0/-inf) mask with shape of (num_windows, Wh*Ww, Wh*Ww) or None
        """
        B_, N, C = x.shape
        #num_Window*B, window_size*window_size, C

        qkv = self.qkv(x).reshape(B_, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)
        #3,B_,self.num_heads,N,C // self.num_heads
        #3,num_Window*B,self.num_heads,window_size*window_size,C // self.num_heads

        q, k, v = qkv[0], qkv[1], qkv[2]  
        # make torchscript happy (cannot use tensor as tuple)
        #num_Window*B,self.num_heads,window_size*window_size,C // self.num_heads

        q = q * self.scale
        attn = (q @ k.transpose(-2, -1))
        #Q,K内积
        #B_,self.num_heads,N,N
        #num_Window*B,self.num_heads,window_size*window_size,window_size*window_size

        relative_position_bias = self.relative_position_bias_table[self.relative_position_index.view(-1)].view(
            self.window_size[0] * self.window_size[1], 
            self.window_size[0] * self.window_size[1], 
            -1)  
        # window_size*window_size,window_size*window_size,self.num_heads


        relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()  
        # self.num_heads,window_size*window_size,window_size*window_size

        attn = attn + relative_position_bias.unsqueeze(0)
        #Batch张图片中每个window都加上这个relative position

        if mask is not None:
            nW = mask.shape[0]
            attn = attn.view(B_ // nW, nW, self.num_heads, N, N) + mask.unsqueeze(1).unsqueeze(0)
            #B_ // nW,num_Window,self.num_heads,window_size*window_size,window_size*window_size

            #mask:#nW,window_size*window_size,window_size*window_size

            attn = attn.view(-1, self.num_heads, N, N)
            attn = self.softmax(attn)
        else:
            attn = self.softmax(attn)

        attn = self.attn_drop(attn)

        x = (attn @ v).transpose(1, 2).reshape(B_, N, C)
        x = self.proj(x)
        x = self.proj_drop(x)
        return x

6 window partition

将patch级别的图片划分成窗口级别

def window_partition(x, window_size):
    """
    Args:
        x: (B, H, W, C)
        window_size (int): window size
    Returns:
        windows: (num_windows*B, window_size, window_size, C)

        比如原来是(1,56,56,3),窗口大小为7,可分成8*8个窗口
        那么返回维度是(64,7,7,3)
    """
    B, H, W, C = x.shape
    x = x.view(B, H // window_size, window_size, W // window_size, window_size, C)
    windows = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(-1, window_size, window_size, C)
    return windows
       

举例

a=torch.arange(16).reshape(1,4,4,1)
print(a)
'''
tensor([[[[ 0],[ 1],[ 2],[ 3]],
         [[ 4],[ 5],[ 6],[ 7]],
         [[ 8],[ 9],[10],[11]],
         [[12],[13],[14],[15]]]])
'''
w=window_partition(a,2)
w
'''
tensor([[[[ 0],[ 1]],
         [[ 4],[ 5]]],


        [[[ 2], [ 3]],
         [[ 6],[ 7]]],


        [[[ 8],[ 9]],
         [[12],[13]]],


        [[[10],[11]],
         [[14],[15]]]])
'''

7 window reversion

 把窗口级别的还原成patch级别

def window_reverse(windows, window_size, H, W):
    """
    Args:
        windows: (num_windows*B, window_size, window_size, C)
        window_size (int): Window size
        H (int): Height of image
        W (int): Width of image
    Returns:
        x: (B, H, W, C)
    """

    B = int(windows.shape[0] / (H * W / window_size / window_size))
    #(H * W / window_size / window_size)就是num_windows

    x = windows.view(B, H // window_size, W // window_size, window_size, window_size, -1)
    # B, n_patch_H,n_patch_W,window_size,window_size,C
    x = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(B, H, W, -1)
    #(B,H,W,C)
    return x

举例

w
'''
tensor([[[[ 0],[ 1]],
         [[ 4],[ 5]]],


        [[[ 2], [ 3]],
         [[ 6],[ 7]]],


        [[[ 8],[ 9]],
         [[12],[13]]],


        [[[10],[11]],
         [[14],[15]]]])
'''

window_reverse(w,2,4,4)
'''
tensor([[[[ 0],[ 1],[ 2],[ 3]],
         [[ 4],[ 5],[ 6],[ 7]],
         [[ 8],[ 9],[10],[11]],
         [[12],[13],[14],[15]]]])
'''

8 PatchMerging

class PatchMerging(nn.Module):
    r""" Patch Merging Layer.
    Args:
        input_resolution (tuple[int]): Resolution of input feature.
        dim (int): Number of input channels.
        norm_layer (nn.Module, optional): Normalization layer.  Default: nn.LayerNorm
    B,H,W,C——>
    """

    def __init__(self, input_resolution, dim, norm_layer=nn.LayerNorm):
        super().__init__()
        self.input_resolution = input_resolution
        self.dim = dim
        self.reduction = nn.Linear(4 * dim, 2 * dim, bias=False)
        self.norm = norm_layer(4 * dim)

    def forward(self, x):
        """
        x: B, H*W, C
        """
        H, W = self.input_resolution
        B, L, C = x.shape
        assert L == H * W, "input feature has wrong size"
        assert H % 2 == 0 and W % 2 == 0, f"x size ({H}*{W}) are not even."

        x = x.view(B, H, W, C)

        x0 = x[:, 0::2, 0::2, :]  # B H/2 W/2 C
        x1 = x[:, 1::2, 0::2, :]  # B H/2 W/2 C
        x2 = x[:, 0::2, 1::2, :]  # B H/2 W/2 C
        x3 = x[:, 1::2, 1::2, :]  # B H/2 W/2 C
        x = torch.cat([x0, x1, x2, x3], -1)  # B H/2 W/2 4*C
        x = x.view(B, -1, 4 * C)  # B H/2*W/2 4*C

        x = self.norm(x)
        x = self.reduction(x)

        return x

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

pytorch 笔记: Swin-Transformer 代码 的相关文章

  • JDK7下载

    JDK7下载 JDK1 7下载可选择window版和linux版 下载说明文档 判断系统是64位还是32位 Linux下选tar gz好还是rpm 1 windows版JDK1 7 64位下载 点击下载 jdk 7u67 windows x
  • MATLAB/Simulink 使用记录

    1 InitFcn 仿真模块全局变量初始化 启动Run之后可以添加至工作区 右键 Model Perprities Callbacks InitFcn 2 子模块参数输入 右键模块 Mask Edit Mask Parameter Dial
  • java 中各种数据类型的互相转换的常用方法

    java 各种数据类型的互相转换 1 StringBuilder转化为String String str abcdefghijklmnopqrs StringBuilder stb new StringBuilder str 2 整型数组转
  • openCV 3.4.7在Visual Studio 2015中配置

    准备 1 安装openCV3 4 7 https opencv org releases 2 安装visual studio 2015 http c biancheng net view 453 html 开始配置 1 计算机 右键 属性
  • 北邮22级信通院数电:Verilog-FPGA(3)实验“跑通第一个例程”modelsim仿真及遇到的问题汇总(持续更新中)

    北邮22信通一枚 跟随课程进度更新北邮信通院数字系统设计的笔记 代码和文章 持续关注作者 迎接数电实验学习 获取更多文章 请访问专栏 北邮22级信通院数电实验 青山如墨雨如画的博客 CSDN博客 注意 本篇文章所有绝对路径的展示都来自上一篇
  • C语言回调函数学习

    作者 杨硕 华清远见嵌入式学院讲师 对指针的应用是C语言编程的精髓所在 而回调函数就是C语言里面对函数指针的高级应用 简而言之 回调函数是一个通过函数指针调用的函数 如果你把函数指针 函数的入口地址 传递给另一个函数 当这个函数指针被用来调
  • FBX SDK 开发环境配置 visual studio 2022

    FBX Adaptable File Formats for 3D Animation Software Autodesk 下载windows的sdk并安装 创建一个c console 工程 设置include目录 添加预处理宏 FBX S
  • 【前端】html+js+css开发入门超详细介绍

    文章目录 一 HTML 1 1 第一个页面 1 2 所有标签都来一遍 1 3 超链接 1 4 发邮件 1 5 description list描述列表 1 6 blockquote块引用 1 7 linequote 1 8 address
  • dns改成什么网速快_这个DNS服务器不仅更快而且安全

    DNS也就是域名解析服务器 这个东西的存在 使我们上网变得非常方便 再也不需要去记下复杂的IP了 而同样 DNS也影响着我们的网速 那么今天 小编就给大家推荐一个DNS服务器 这个DNS服务器不仅更快 而且更加安全 一起来看看吧 中国互联网
  • gson反序列化成data class时的坑

    前言 在Android开发中 gson是很常用的用来处理json的三方库 它是由Google维护的 一直以来都比较稳定 至少在使用Java开发时是这样的 但是 gson对Kotlin的data class的支持就不是很完善了 会有一些坑 下
  • Java中的多线程(Thread)(一)概念篇

    学习目标 知识点 要求 多线程介绍 了解 线程的创建 掌握 线程的使用 掌握 线程的优先级 掌握 守护线程 掌握 线程同步 掌握 线程并发协作 掌握 一 多线程介绍 多线程的基本概念 程序 Program 是一个静态的概念 一般对应于操作系

随机推荐

  • Hudi 0.12.0 搭建——集成 Hive3.1 与 Spark3.2

    Hudi 搭建 https blog csdn net weixin 46389691 article details 128276527 环境准备 一 安装 Maven 1 解压 2 配置环境变量 3 修改 Maven 下载源 二 安装
  • gunicorn常用参数命令

    Gunicorn 是一个 Python 的 WSGI HTTP 服务器 具有实现简单 轻量级 高性能等特点 更多介绍内容参考官网 这里介绍几个常用参数 安装 pip3 install gunicorn 通过输入gunicorn v查看版本
  • “元宇宙”,究竟离我们有多远?(上)

    目录 引言 1 雀斑公主 U 世界的燃泪青春 元宇宙 的大门 1 1 元宇宙版 美女与野兽 1 2 U 世界中皮囊之下的温柔内心 2 腾讯研究院 Metaverse 互联网的未来是虚拟时空 2 1 从GTA到Metaverse的关键技术分析
  • 我的世界服务器物品箱子,我的世界:使用箱子储存物品居多,难不成他们很“鸡肋”?...

    原标题 我的世界 使用箱子储存物品居多 难不成他们很 鸡肋 箱子 是储存物品的利器 固然多数玩家使用其进行物品的储存 为何与箱子具有类似功能的物品却不受众 难道他们真的很 鸡肋 吗 为何箱子是最为受众的储存工具 箱子储存如此受众 是因为它能
  • Android应用层View绘制流程与源码分析

    转自https blog csdn net yanbober article details 46128379 1 背景 还记得前面 Android应用setContentView与LayoutInflater加载解析机制源码分析 这篇文章
  • MyBatis日常记录之sql片段的抽取

  • python在VScode中中文输出乱码的解决方案

    一 确定python编码 如果不是就点击这个位置会弹出 选择 通过编码重新打开 UTF 8 然后尝试运行 如果问题没有解决进行第二步 二 修改json文件 文件 首选项 设置 搜索 code runner executorMap 点击 在s
  • 16 【跨域】

    16 跨域 1 什么是跨域 跨域 是指浏览器不能执行其他网站的脚本 它是由浏览器的同源策略造成的 是浏览器对JavaScript实施的安全限制 浏览器从一个域名的网页去请求另一个域名的资源时 出现域名 端口 协议任一不同 都属于跨域 同源策
  • 芯片测试(3)——DC测试

    芯片测试 3 DC测试 一 电源电压测试 二 地引脚测试 三 I V测试 四 电阻测试 五 对应测试项 六 简述及测试方法描述 6 1 VIL VIH 加流测压 FIMV 6 2 VOL VOH 加流测压 FIMV 6 3 IIL IIH
  • pip : 无法将“pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后再试一次。

    换了新电脑 在新电脑中安装了pycharm 但是在使用pip install下载相关库时 出现pip 无法将 pip 项识别为 cmdlet 函数 脚本文件或可运行程序的名称 请检查名称的拼写 如果包括路径 请确保路径正确 然后再试一次 的
  • 给锂电池充电,充电器的输出电压

    目录 老旧充电器的一点小问题 指示灯不亮 拆 丢弃 给锂电池充电 指示灯无法显示充电状态 如何判断电池是否充满电了 电池反向充电 总结 老旧充电器的一点小问题 指示灯不亮 今天遇到一个有意思的问题 我买了两个12V的锂电池 DC接口 于是我
  • 2023年高校大数据实验室建设方案

    大数据实验室建设方案具体内容包括 人才培养方案建设 课程资源建设 师资建设 实验室建设 教学服务建设 泰迪打造国内领先的大数据人工智能及课程资源 包括 商务数据分析实训管理平台 云计算资源管理平台 大数据编程实训平台 商务数据分析编程实训平
  • Unity ScrollView拖不动

    今天再用Unity的imgui的ScrollView的时候 发现UI拖不动 找了好半天 终于招到了原因 在此记录下 代码如下 public Vector2 scrollPosition Vector2 zero void OnGUI scr
  • 移动端与服务端交互安全方案

    系统流程图 验签 解决问题 1 身份验证 是否是我规定的那个人 2 防篡改 是否被第三方劫持并篡改参数 3 防重放 是否重复请求 具体算法 1 约定appKey 保证该调用请求是平台授权过的调用方发出的 保证请求方唯一性 2 将appKey
  • 常用巡检命令

    思科设备 show version 查看系统软 硬件版本信息 show running config 查看设备运行的配置信息 show ip interfaces brief 查看所有接口摘要信息 show interfaces 查看全部接
  • Java中弹出对话框中的几种方式

    1 显示一个错误对话框 该对话框显示的 message 为 alert JOptionPane showMessageDialog null alert alert JOptionPane ERROR MESSAGE 2 显示一个内部信息对
  • JavaSE知识体系目录

    文章目录 Java基础语法知识 关键字 运算符 数据类型 流程控制语句 面向对象 异常和常用类 集合 Collection Map IO 字节流 字符流 线程 网络 Java基础语法知识 关键字 运算符 算数运算符 比较运算符 赋值运算符
  • CSS盒模型自适应布局——calc与box-sizing

    CSS盒模型 1 CSS中盒模型分为两种 第一种是W3C的标准模型 即盒子的宽高等于内容的宽高 盒子的padding和border不计算在内 第二种是IE的传统模型 IE6以下 不含IE6 称为怪异模式或者QuirksMode 即盒子的宽高
  • sklearn中的LASSO

    LASSO import numpy as np import matplotlib pyplot as plt np random seed 42 x np random uniform 3 0 3 0 size 100 X x resh
  • pytorch 笔记: Swin-Transformer 代码

    理论部分 论文笔记 Swin Transformer Hierarchical Vision Transformer using Shifted Windows UQI LIUWJ的博客 CSDN博客 源码部分 Swin Transform