S2A-NET

2023-05-16

S2A-NET

文章目录

S2A-NET
- 基础知识
- 引言
- 网络架构
- - FAM
  - - ARN
    - ACL
  - 对齐卷积
  - ODM
- 实现
- - 损失函数
  - 推理
  - 消融实验
- 参考

基础知识

长边 13 5 ∘ 135^{\circ} 135∘定义法， a n g l e ∈ [ − 4 5 ∘ , 13 5 ∘ ) angle \in [ -45^{\circ}, 135^{\circ}) angle∈[−45∘,135∘), t h e t a ∈ [ − π / 4 , 3 ⋅ π / 4 ) theta \in [ -\pi / 4, 3 \cdot \pi / 4) theta∈[−π/4,3⋅π/4)且height> width。
OBB标注方式指任意四边形；顶点按顺时针排序。HBB标注方式指标注示例的外接矩形。

通用的目标检测输出hbbox(horizontal bounding box)形状，通常表示为 { ( x , w , h ) } \{ \left( \textbf{x}, w, h\right)\} {(x,w,h)}，其中 x = ( x 1 , x 2 ) \textbf{x} = \left(x_{1},x_{2}\right) x=(x1,x2)是bbox的中心点坐标。OBB(oriented bounding box)表示为 { ( x , w , h , θ ) } \{ \left( \textbf{x}, w, h, \theta \right)\} {(x,w,h,θ)}，比HBB的表示方式多了一个角度 θ \theta θ，在 S 2 A − N E T S^{2}A-NET S2A−NET论文中， θ ∈ [ − π 4 , 3 π 4 ] \theta \in [ - \frac{\pi}{4}, \frac{3\pi}{4} ] θ∈[−4π,43π]。当 θ = 0 \theta=0 θ=0时，一个OBB就可以看做是一个HBB。在OBB中， w w w和 h h h分别表示一个bbox的长边和短边。 θ \theta θ是从 x 1 x_{1} x1位置方向到 w w w方向的角度。

HBBVSOBB

引言

与基于R-CNN的检测器相比，一阶段的检测器使用规则并且密集的采样anchors回归边界框，并且直接对其进行分类。这种结构具有很高的计算效率，但是往往在精度上不足。

启发式定义的anchors质量较低，无法覆盖物体，导致物体和anchor之间出现错位。这种错位通常会加剧前景背景类的不平衡，并阻碍性能。由于来自backbone网络的卷积特征通常与固定的感受野对齐，然而自然界中的对象以任意方向和不同外观分布。即使一个anchor box以很高的置信度分配给一个实例，但是在anchor box和卷积特征之间仍然存在错位。如下图所示，左边的小图中，红色箭头表示anchor box和卷积特征之间的错位。anchor box是蓝色的框，卷积特征是浅蓝色的框。为了解决这个问题，首先将初始anchor细化为旋转的anchor，如右图中的橙色框框；然后在细化anchor box的引导下，调整特征采样点的位置以提取对齐的深度特征。

在这里插入图片描述

网络架构

此论文提出了 S 2 A − N e t S^{2}A-Net S2A−Net（Single-shot Alignment Network），由一个backbone网络，一个FPN，和另外两个重要组件**FAM（Feature Alignment Module）和ODM（Oriented Detection Module）**组成。FAM和ODM为检测头，应用到特征金字塔的每一层。在FAM中，ARN（Anchor Refinement Network）生成高质量的旋转anchors，然后将这些anchors和输入特征喂入ACL（Alignment Convolution Layer）提取对齐特征。ODM中使用ARF（active rotating filters）生成方向敏感的特征，然后池化特征提取方向不变的特征。最后分类和回归分支生成最后的检测结果。

网络架构
S 2 A − N e t S^{2}A-Net S2A−Net以RetinaNet作为baseline，RetineNet结构简单，一个backbone网络加上FPN加上分类和回归两个分支子网络。RetineNet中使用Focal loss解决训练过程中的前景和背景不匹配的问题。只不过RetinaNet是为通用目标检测设计的，输出的是HBB形式； S 2 A − N e t S^{2}A-Net S2A−Net输出的是OBB形式，采用长边 13 5 ∘ 135^{\circ} 135∘定义法， θ ∈ [ − π 4 , 3 π 4 ] \theta \in [ - \frac{\pi}{4}, \frac{3\pi}{4} ] θ∈[−4π,43π]。

# S2ANet的前向过程
def forward_train(self, img, img_metas, gt_bboxes, gt_labels, gt_bboxes_ignore=None):
    """Forward function of S2ANet."""
    losses = dict()
    x = self.extract_feat(img)  # backbone + FPN
    outs = self.fam_head(x) # FAM 仅包含ARN，并不包括ACL
    # FAM loss
    loss_inputs = outs + (gt_bboxes, gt_labels, img_metas)
    loss_base = self.fam_head.loss(
        *loss_inputs, gt_bboxes_ignore=gt_bboxes_ignore)
    for name, value in loss_base.items():
        losses[f'fam.{name}'] = value
    # 细分anchors
    rois = self.fam_head.refine_bboxes(*outs)
    # rois: list(indexed by images) of list(indexed by levels)
    align_feat = self.align_conv(x, rois)  # 对齐卷积
    outs = self.odm_head(align_feat) # ODM
    # ODM loss
    loss_inputs = outs + (gt_bboxes, gt_labels, img_metas)
    loss_refine = self.odm_head.loss(
        *loss_inputs, gt_bboxes_ignore=gt_bboxes_ignore, rois=rois)
    for name, value in loss_refine.items():
        losses[f'odm.{name}'] = value
    return losses

FAM

FAM模块由一个ARN（Anchor Refinement Network）和一个ACL（Alignment Convolution Layer）组成。ARN生成高质量的anchors，ACL利用对齐卷积让特征与相应的anchor进行对齐。

FAM

# 细分bbox
def refine_bboxes(self, cls_scores, bbox_preds):
    """This function will be used in S2ANet, whose num_anchors=1.

    Args:
        cls_scores (list[Tensor]): Box scores for each scale level
            Has shape (N, num_classes, H, W)
        bbox_preds (list[Tensor]): Box energies / deltas for each scale
            level with shape (N, 5, H, W)

    Returns:
        list[list[Tensor]]: refined rbboxes of each level of each image.
    """
    num_levels = len(cls_scores)  # 5  FPN有5层
    assert num_levels == len(bbox_preds)
    num_imgs = cls_scores[0].size(0)
    for i in range(num_levels):
        assert num_imgs == cls_scores[i].size(0) == bbox_preds[i].size(0)

    device = cls_scores[0].device
    '''
    featmap_sizes list
    [96,128], [48, 64], [24, 32], [12, 16], [6,8]
    '''
    featmap_sizes = [cls_scores[i].shape[-2:] for i in range(num_levels)]
    '''
    mlvl_anchors list
    [12288, 5], [3072, 5], [768, 5], [192, 5], [48, 5]
    '''
    mlvl_anchors = self.anchor_generator.grid_priors(
        featmap_sizes, device=device)

    bboxes_list = [[] for _ in range(num_imgs)]

    for lvl in range(num_levels):
        bbox_pred = bbox_preds[lvl]
        bbox_pred = bbox_pred.permute(0, 2, 3, 1)  # (N, H, W, 5)
        bbox_pred = bbox_pred.reshape(num_imgs, -1, 5)
        anchors = mlvl_anchors[lvl]

        for img_id in range(num_imgs):
            bbox_pred_i = bbox_pred[img_id]
            decode_bbox_i = self.bbox_coder.decode(anchors, bbox_pred_i) # 解码
            bboxes_list[img_id].append(decode_bbox_i.detach())

    return bboxes_list

ARN

ARN是两个并行分支组成的轻网络，一个anchor分类分支和一个anchor回归分支。anchor分类分支将anchor按类别进行划分（架构图中省略了此分支），anchor回归分支将水平anchor优化成高质量的旋转anchors。由于我们在对齐卷积中仅仅需要回归anchor box去调整采样位置，在推理阶段，为了加速模型，分类分支被舍弃。

ACL

ACL网络架构中嵌入了对齐卷积。对 H × W × 5 H \times W \times 5 H×W×5大小的anchor 预测特征图中的每一个位置，首先将它解码成绝对的anchor boxes ( x , w , h , θ ) \left( \textbf{x}, w, h, \theta \right) (x,w,h,θ)，然后通过上述公式4计算出offset field，结合输入特征一起喂入对齐卷积提取对齐特征。

每个anchor有五个维度 ( x , y , w , h , θ ) \left( x,y, w, h, \theta \right) (x,y,w,h,θ)，定期采样九个点获得18维的offset field。每个采样点有两个偏移量（x-offset和y-offset）。

ACL

对齐卷积

标准的2D卷积中，定义大小为 H × W H \times W H×W的特征图 X X X的域为 Ω = { 0 , 1 , ⋯ , H − 1 } × { 0 , 1 , ⋯ , W − 1 } \Omega =\{0, 1, \cdots, H-1\} \times \{0,1,\cdots, W-1 \} Ω={0,1,⋯,H−1}×{0,1,⋯,W−1}，一个大小为 3 × 3 3\times3 3×3的窗口定义为 R = { ( − 1 , − 1 ) , ( − 1 , 0 ) , ⋯ , ( 0 , 1 ) , ( 1 , 1 ) } R = \{ \left(-1, -1\right), \left(-1, 0\right),\cdots, \left(0, 1\right),\left(1, 1\right)\} R={(−1,−1),(−1,0),⋯,(0,1),(1,1)}，滤波器定义为为 W W W，那么输出特征图 Y Y Y上的每一位置 p ∈ Ω p \in \Omega p∈Ω计算公式如下：

Y ( p ) = ∑ r ∈ R W ( r ) ⋅ X ( p + r ) ( 1 ) Y\left( p \right) = \sum_{r \in R } W\left( r \right) \cdot X \left( p + r \right) \qquad (1) Y(p)=r∈R∑W(r)⋅X(p+r)(1)
和标准卷积相比，对齐卷积（AlignConv）增添了一个偏移量域 O O O，对齐卷积公式如下所示：
Y ( p ) = ∑ r ∈ R ; o ∈ O W ( r ) ⋅ X ( p + r + o ) ( 2 ) Y\left( p \right) = \sum_{r \in R ; o \in O } W\left( r \right) \cdot X \left( p + r + o \right) \qquad (2) Y(p)=r∈R;o∈O∑W(r)⋅X(p+r+o)(2)

对于位置 p p p，偏移域 O O O为基于anchor的采样位置和常规采样位置 p + r p+r p+r之间的差异。假设位置 p p p相关的anchor为 ( x , w , h , θ ) \left( \textbf{x}, w, h, \theta \right) (x,w,h,θ)，对窗口中的每一个元素 r ∈ R r \in R r∈R，基于anchor的采样位置定义如下：
L p r = 1 S ( x + 1 k ( w , h ) ⋅ r ⋅ R T ( θ ) ) ( 3 ) L_{p}^{r} = \frac{1}{S} \left( x + \frac{1}{k} \left( w, h\right) \cdot r \cdot R^{T}\left( \theta \right)\right) \qquad (3) Lpr=S1(x+k1(w,h)⋅r⋅RT(θ))(3)
其中 k k k是滤波器大小， S S S表示特征图的步长， R ( θ ) = ( c o s θ , − s i n θ , s i n θ , c o s θ ) T R\left( \theta \right) = \left( cos\theta, -sin\theta, sin\theta, cos\theta \right)^{T} R(θ)=(cosθ,−sinθ,sinθ,cosθ)T是旋转矩阵，那么位置 p p p在偏移域 O O O中为:
O = { L p r − p − r } r ∈ R ( 4 ) O = \{ L_{p}^{r} - p - r \}_{r \in R} \qquad (4) O={Lpr−p−r}r∈R(4)

通过上述方式，根据相应的anchor box，就可以将给定位置 p p p的卷积特征 X ( p ) X\left( p \right) X(p)转换成任意方向的特征卷积特征。与可变性卷积不同的是，对齐卷积的偏移域从anchor中推断出来的。
卷积，DCN和对其卷积

class AlignConv(nn.Module):
    """Implementation of `Align Deep Features for Oriented Object Detection.

    <https://ieeexplore.ieee.org/document/9377550>`_
    """

    def __init__(self,
                 in_channels,
                 out_channels,
                 kernel_size=3,
                 stride=None,
                 deform_groups=1):
        super(AlignConv, self).__init__()
        self.kernel_size = kernel_size
        self.stride = stride
        # 可变形卷积
        self.deform_conv = DeformConv2d(
            in_channels,
            out_channels,
            kernel_size=kernel_size,
            padding=(kernel_size - 1) // 2,
            deform_groups=deform_groups)
        self.relu = nn.ReLU(inplace=True)

    def init_weights(self):
        """Initialize weights of the head."""
        normal_init(self.deform_conv, std=0.01)

    @torch.no_grad()
    def get_offset(self, anchors, featmap_size, stride):
        """Get the offset of AlignConv."""
        dtype, device = anchors.dtype, anchors.device
        feat_h, feat_w = featmap_size  # 128,128
        pad = (self.kernel_size - 1) // 2   # 1
        idx = torch.arange(-pad, pad + 1, dtype=dtype, device=device)
        # torch.meshgrid() 生成网格
        '''
        yy = [[-1, 1, -1], [0, 0, 0], [1, 1, 1]]
        xx = [[-1, 1, -1], [0, 0, 0], [1, 1, 1]]
        '''
        yy, xx = torch.meshgrid(idx, idx)
        xx = xx.reshape(-1)
        yy = yy.reshape(-1)

        # get sampling locations of default conv
        xc = torch.arange(0, feat_w, device=device, dtype=dtype)
        yc = torch.arange(0, feat_h, device=device, dtype=dtype)
        yc, xc = torch.meshgrid(yc, xc)
        xc = xc.reshape(-1)  # 128 * 128 = 16384
        yc = yc.reshape(-1)
        x_conv = xc[:, None] + xx  # [16384, 9]
        y_conv = yc[:, None] + yy

        # get sampling locations of anchors
        # torch.unbind(input, dim)返回一个元祖，包含了沿指定维度切片后的各个切片
        # dim = 0： 行；dim=1 ： 列
        x_ctr, y_ctr, w, h, a = torch.unbind(anchors, dim=1)
        # 公式三
        x_ctr, y_ctr, w, h = \
            x_ctr / stride, y_ctr / stride, \
            w / stride, h / stride
        cos, sin = torch.cos(a), torch.sin(a)  # shape:16384
        dw, dh = w / self.kernel_size, h / self.kernel_size
        x, y = dw[:, None] * xx, dh[:, None] * yy
        xr = cos[:, None] * x - sin[:, None] * y
        yr = sin[:, None] * x + cos[:, None] * y
        x_anchor, y_anchor = xr + x_ctr[:, None], yr + y_ctr[:, None]  # [16384, 9]
        # get offset filed
        offset_x = x_anchor - x_conv  # 公式四
        offset_y = y_anchor - y_conv
        # x, y in anchors is opposite in image coordinates,
        # so we stack them with y, x other than x, y
        offset = torch.stack([offset_y, offset_x], dim=-1) # [16384, 9, 2]
        offset = offset.reshape(anchors.size(0),
                                -1).permute(1, 0).reshape(-1, feat_h, feat_w)
        return offset  #[18, 128, 128]

    def forward(self, x, anchors):
        """Forward function of AlignConv."""
        # x.shape = [4, 256, 128, 128]
        # anchor.shape [65536, 5]
        anchors = anchors.reshape(x.shape[0], x.shape[2], x.shape[3], 5)
        # anchors.shape = [4, 128, 128, 5]
        num_imgs, H, W = anchors.shape[:3]
        offset_list = [
            self.get_offset(anchors[i].reshape(-1, 5), (H, W), self.stride)
            for i in range(num_imgs)
        ]
        # offset_list: list len=4 offset_list[0].shape=[18, 128, 128]
        offset_tensor = torch.stack(offset_list, dim=0)  # offset filed
        # offset_tensor.shape = [4, 18, 128, 128] 
        x = self.relu(self.deform_conv(x, offset_tensor.detach()))  # 对齐卷积
        # x.shape = [4, 256, 128, 128]
        return x

ODM

ODM的提出是为了缓解分类分数和定位精度之间的不一致性，从而进行更准确的目标检测。ODM中采用ARF编码方向信息。一个ARF就是一个 k × k × N k \times k \times N k×k×N滤波器，在卷积过程中主动旋转 N − 1 N-1 N−1次，以生成具有 N N N个方向通道的特征图（默认情况下，N是8）。对于一个特征图 X X X和一个ARF F F F， Y Y Y的第 i i i个方向输出可以表示为
Y ( i ) = ∑ n = 0 N − 1 F θ i ( n ) ⋅ X ( n ) , θ i = i 2 π N , i = 0 , ⋯ , N − 1 Y^{\left( i \right)} = \sum_{n=0}^{N-1} F_{\theta_{i}}^{\left( n \right)} \cdot X^{\left( n \right)}, \theta_{i} = i \frac{2\pi}{N}, i=0, \cdots, N-1 Y(i)=n=0∑N−1Fθi(n)⋅X(n),θi=iN2π,i=0,⋯,N−1

对卷积层应用ARF可以获得带有特定方向信息编码的方向敏感的特征。bbox回归任务能够从方向敏感特征中获益，但是物体分类任务却需要方向不变特征。通过简单地选择反应最强烈的方向通道作为输出特征 X ^ = m a x X ( n ) , 0 < n < N − 1 \hat{X} = max \; X ^{\left( n \right)}, 0 < n < N-1 X^=maxX(n),0<n<N−1。通过这种方式，我们可以对齐不同方向的对象特征，从而实现鲁棒的对象分类。

对于一个带有8个方向通道大小为 H × W × 256 H \times W \times256 H×W×256的特征图，池化之后特征图变成 H × W × 32 H \times W \times32 H×W×32。与方向敏感特征相比，方向不变特征使用更少的参数。最后分别将方向敏感特征和方向不变特征喂入两个子网络回归bbox和分类。

# 池化操作获得方向不变特征
class RotationInvariantPooling(nn.Module):
    """Rotating invariant pooling module."""

    def __init__(self, nInputPlane, nOrientation=8):
        super(RotationInvariantPooling, self).__init__()
        self.nInputPlane = nInputPlane # 256
        self.nOrientation = nOrientation # 8

    def forward(self, x):
        """Forward function."""
        N, c, h, w = x.size()  # [1, 256, 72, 128]
        x = x.view(N, -1, self.nOrientation, h, w)   #[1, 32, 8, 72, 128]
        x, _ = x.max(dim=2, keepdim=False) # [1, 32, 72, 128]
        return x

class ORConv2d(Conv2d):
    """Oriented 2-D convolution."""
    def __init__(self, in_channels, out_channels, kernel_size=3, arf_config=None, stride=1,
                 padding=0, dilation=1, groups=1, bias=True):
        self.nOrientation, self.nRotation = to_2tuple(arf_config)  # 1,8
        super(ORConv2d, self).__init__(in_channels, out_channels, kernel_size,
                                       stride, padding, dilation, groups, bias)
        self.register_buffer('indices', self.get_indices())
        self.weight = Parameter(
            torch.Tensor(out_channels, in_channels, self.nOrientation, *self.kernel_size))  # [32, 256, 1, 3, 3]
        if bias:
            self.bias = Parameter(torch.Tensor(out_channels * self.nRotation))

        self.reset_parameters()

    def reset_parameters(self):
        """Reset the parameters of ORConv2d."""
        n = self.in_channels * self.nOrientation
        for k in self.kernel_size:
            n *= k
        self.weight.data.normal_(0, math.sqrt(2.0 / n))
        if self.bias is not None:
            self.bias.data.zero_()

    def get_indices(self):
        """Get the indices of ORConv2d."""
        kernel_indices = {
            1: {
                0: (1, ),
                45: (1, ),
                90: (1, ),
                135: (1, ),
                180: (1, ),
                225: (1, ),
                270: (1, ),
                315: (1, )
            },
            3: {
                0: (1, 2, 3, 4, 5, 6, 7, 8, 9),
                45: (2, 3, 6, 1, 5, 9, 4, 7, 8),
                90: (3, 6, 9, 2, 5, 8, 1, 4, 7),
                135: (6, 9, 8, 3, 5, 7, 2, 1, 4),
                180: (9, 8, 7, 6, 5, 4, 3, 2, 1),
                225: (8, 7, 4, 9, 5, 1, 6, 3, 2),
                270: (7, 4, 1, 8, 5, 2, 9, 6, 3),
                315: (4, 1, 2, 7, 5, 3, 8, 9, 6)
            }
        }
        delta_orientation = 360 / self.nOrientation  # 360
        delta_rotation = 360 / self.nRotation  # 45
        kH, kW = self.kernel_size # 3,3
        indices = torch.IntTensor(self.nOrientation * kH * kW, self.nRotation) # 9,8
        for i in range(0, self.nOrientation): # 1
            for j in range(0, kH * kW):  # 9
                for k in range(0, self.nRotation): # 8
                    angle = delta_rotation * k
                    layer = (i + math.floor(
                        angle / delta_orientation)) % self.nOrientation
                    kernel = kernel_indices[kW][angle][j]
                    indices[i * kH * kW + j, k] = int(layer * kH * kW + kernel)
        '''
        indices = [
            [1, 2, 3, 6, 9, 8, 7, 4],
            [2, 3, 6, 9, 8, 7, 4, 1],
            [3, 6, 9, 8, 7, 4, 1, 2],
            [4, 1, 2, 3, 6, 9, 8, 7],
            [5, 5, 5, 5, 5, 5, 5, 5],
            [6, 9, 8, 7, 4, 1, 2, 3],
            [7, 4, 1, 2, 3, 6, 9, 8],
            [8, 7, 4, 1, 2, 3, 6, 9],
            [9, 8, 7, 4, 1, 2, 3, 6],
        ]
        '''
        return indices.view(self.nOrientation, kH, kW, self.nRotation)  # [1, 3, 3, 8]

    def rotate_arf(self):
        """Build active rotating filter module."""
        return active_rotated_filter(self.weight, self.indices)  # [256, 256, 3, 3]

    def forward(self, input):
        """Forward function."""
        # input.shape = [1, 256, 36, 64]
        return F.conv2d(input, self.rotate_arf(), self.bias, self.stride,
                        self.padding, self.dilation, self.groups)  # [1, 256, 36, 64]

实现

损失函数

假设 x g , x , \textbf{x}_{g}, \textbf{x}, xg,x,分别为gt box和anchor box，那么参数化回归目标如下所示：
Δ x g = ( x g − x ) R ( θ ) ⋅ ( 1 w , 1 h ) ( Δ w g , Δ h g ) = l o g ( w g , h g ) − l o g ( w , h ) Δ θ g = 1 π ( θ g − θ + k π ) \begin{matrix} \Delta x_{g} = \left( x_{g} - x \right) R\left( \theta \right) \cdot \left( \frac{1}{w}, \frac{1}{h}\right) \\ \left( \Delta w_{g} , \Delta h_{g} \right) = log\left( w_{g}, h_{g} \right) - log\left(w, h \right) \\ \Delta \theta_{g} = \frac{1}{\pi}\left( \theta_{g} - \theta + k\pi \right) \end{matrix} Δxg=(xg−x)R(θ)⋅(w1,h1)(Δwg,Δhg)=log(wg,hg)−log(w,h)Δθg=π1(θg−θ+kπ)

其中是一个整数保证。在FAM中，设置表示一个水平anchor，然后回归目标可以表示为上述公式。在ODM中，首先解码FAM的输出，然后通过上述公式重新计算回归目标。

不同于HBB的IoU计算，论文中计算两个OBB之间的IoU。默认情况下，在FAM和ODM中，设置前景的阈值为0.5和背景的阈值为0.4.

S 2 A − N E T S^{2}A-NET S2A−NET的损失函数是一个包含FAM和ODM这两部分的多任务损失函数。对于每一部分，我们给每一个anchor/细分anchor一个类别标签并且回归它的位置。论文中采用Focal loss和smooth L1 loss分别作为分类损失函数 L c L_{c} Lc和回归损失函数 L r L_{r} Lr，那么总的损失函数定义如下：

L = 1 N F ( ∑ i L c ( c i F , l i ∗ ) + ∑ i 1 [ l i ∗ ≥ 1 ] L r ( x i F , g i ∗ ) ) + λ N O ( ∑ i L c ( c i O , l i ∗ ) + ∑ i 1 [ l i ∗ ≥ 1 ] L r ( x i O , g i ∗ ) ) \begin{matrix} L &= \frac{1}{N_{F}} \left( \sum_{i} L_{c} \left( c_{i}^{F} , l_{i}^{*} \right) + \sum_{i} 1_{[l_{i}^{*} \geq 1]}L_{r} \left( x_{i}^{F}, g_{i}^{*}\right)\right) \\ &+ \frac{\lambda}{N_{O}} \left( \sum_{i} L_{c} \left( c_{i}^{O} , l_{i}^{*} \right) + \sum_{i} 1_{[l_{i}^{*} \geq 1]}L_{r} \left( x_{i}^{O}, g_{i}^{*}\right)\right) \end{matrix} L=NF1(∑iLc(ciF,li∗)+∑i1[li∗≥1]Lr(xiF,gi∗))+NOλ(∑iLc(ciO,li∗)+∑i1[li∗≥1]Lr(xiO,gi∗))
其中 λ \lambda λ是平衡参数， N F N_{F} NF和 N O N_{O} NO分别是FAM和ODM中的正样本数量。 c i F c_{i}^{F} ciF 和 x i F x_{i}^{F} xiF分别是FAM中的预测类别和anchor i i i的精确位置。 c i O c_{i}^{O} ciO 和 x i O x_{i}^{O} xiO分别是ODM中的预测物体类别和bbox的位置。 l i ∗ l_{i}^{*} li∗和 g i ∗ g_{i}^{*} gi∗分别是anchor i i i的gt类别和位置。 1 [ ⋅ ] 1_{[\cdot]} 1[⋅]是标志函数。

推理

S 2 A − N E T S^{2}A-NET S2A−NET是一个全卷积网络。一个输入图像经过bacbone网络提取特征金字塔；紧接着特征金字塔被喂入FAM生成细化的anchor和对齐特征；然后，ODM编码方向信息生成高置信度的预测；最后，选择top-k个预测，并采用NMS生成最后的检测结果。

消融实验

为了验证ARN，ARF和ACL的有效性，论文中做了消融实验。实验结果如下：
在这里插入图片描述

参考

s2anet codes
旋转目标检测
Align Deep Features for Oriented Object Detection

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

S2A

NET

S2A-NET 的相关文章

如何将 Activator.CreateInstance 与字符串一起使用？

在我的反射代码中我的通用代码部分遇到了问题特别是当我使用字符串时 var oVal object Test var oType oVal GetType var sz Activator CreateInstance oType oVa
使用 WaitHandle.WaitAll 时是否可以对 ThreadPool 中的任务进行分组/隔离？

我面临的情况如下因为 ThreadPool 每个进程有 1 个实例所以我的问题是方法 1 会在 3 秒后取消按方法 2 排队的任务 http请求进来 method 1 gets executed first ThreadPool Que
是一对一的关系不好的策略

用户始终拥有一个钱包一个钱包始终属于一位用户由于我想分离与钱夹相关的属性我创建了 Wallet 对象并能够跟踪钱交易我创建了 public Wallet Entity
如何在类文件中使用BackGroundWorker？

我的program cs调用mdi父frmMain frmMain 然后根据用户操作打开不同的子表单所有的处理逻辑都写在BusinessLogic cs中 frmMain 在加载时调用 BusinessLogic cs 的方法来初始填充数
如何使用反应式扩展同时读取交错文件

我是反应式扩展的新手我想使用它在 c 中来读取包含多个交错流的文件基本上文件的格式是ABCDABCDABCD 我更喜欢按顺序读取文件并分离流即AAA BBB 等并并行处理每个流为每个流使用单独的线程必须有某种形式的缓冲来确保
未分配给变量的类实例是否会过早被垃圾回收？

我什至不知道我的问题是否有意义这只是我不明白的事情并且在我的脑海中旋转了一段时间考虑有以下课程 public class MyClass private int myVar public void DoSomething Do som
转义字符串中的反斜杠

我想知道什么是转义字符串中的反斜杠而不添加不必要的斜杠的好方法我的意思是通常如果我想转义字符串中的反斜杠最简单的方法是使用String Replace 像这样 string s someString Replace 可以使用正则表达式
用户模式 .NET 设置存储在哪里？

我想知道 NET 中 settings 文件背后的魔力是什么假设您创建了一个在此示例中称为的程序集SettingsHolder 您创建一个公共的设置类其中在用户模式下有一个字符串然后进行编译现在您在 MyApp 中引用您的程序集
Task.Factory.StartNew 或 Parallel.ForEach 对于许多长时间运行的任务？ [复制]

这个问题在这里已经有答案了可能的重复 Parallel ForEach 与 Task Factory StartNew https stackoverflow com questions 5009181 parallel foreach
在 Windows 中为 Apple 推送通知创建 p12 证书

我正在用 C 为 iPhone 做推送通知服务器端我有 developer Push SSL certi cer 文件如何从 cer 文件创建 p12 证书或者我必须在我的电脑上安装上述 cer 文件在服务器端发送推送通知所需的文
ASP.NET 3.5 更新至 4.0 -> Sys.WebForms.PageRequestManager 未定义

正如标题所示我最近将包含 UpdatePanels 和类似 AJAX 技术的 ASP NET 3 5 应用程序更新为 ASP NET 4 0 不幸的是 UpdatePanel 不再起作用整页回发使一切都变得糟糕 Web config 文
将固定文档/XPS 打印为 PDF，而不显示文件保存对话框

我有一个FixedDocument我允许用户在 WPF GUI 中预览然后打印到纸张上而不显示任何 Windows 打印对话框如下所示 private void Print PrintQueueCollection printQueu
为什么 Java 和 .NET 中的字符串不能是可变的？

为什么他们决定制作String在 Java 和 NET 以及其他一些语言中是不可变的他们为什么不让它可变呢根据有效的Java http www oracle com technetwork java effectivejava 136
从 DataGridViewSelectedRowCollection 复制列详细信息

我有一个 DataGridView 它绑定到一个由设计时未知的 SQL 查询返回的 DataSet 好吧我知道查询是什么我只是不知道用户选择了哪一个我允许用户从表中选择一组行并单击确定按钮然后我想将这些行复制到新的 DataGr
如何在 IIS 中手动配置虚拟目录

我正在尝试让外部 Visual Studio 解决方案在 Visual Studio Professional 2010 的本地副本中工作当我打开该解决方案时我看到一条错误消息指出本地 IIS URL 尚未配置我想创建一个虚拟目录吗
GetEventLogs() 返回没有设置事件日志？

采取以下 C 代码 EventLog eventLogs eventLogs EventLog GetEventLogs computername foreach EventLog evt in eventLogs statusMessag
DBNull 怎么会不等于 DBNull

我有以下代码行 if DBNull Value Equals o o null where o is object o in row ItemArray我不断收到错误 gt Xml type List of xdt untypedAtomi
正则表达式获取模式的最后一次出现

我有一个字符串我需要选择最后一次出现的模式该字符串是 1302638400000 0 0 1302724800000 0 610 64999999999998 1302811200000 0 2266 6500000000001 130
从 Microsoft Chart Control 单击数据标记获取鼠标单击事件

我的应用程序中有一个 net 4 0 点图我想捕获鼠标在数据标记上的点击当用户单击特定点时我想转到绑定表中数据来自的行此功能是否内置于 net 图表控件中编辑我发现我可能实际上想要光标位置值而不是要求用户单击特定的数据点一旦
从共享网络文件夹运行的 .NET 应用程序的性能损失

从共享网络文件夹运行 NET 4 0 应用程序是否有任何性能损失我发现哪个应用程序启动速度较慢但在使用时没有注意到任何变慢但不确定当通过网络运行可执行文件时 Windows 不会在应用程序启动时通过网络传输整个应用程序这样做是为

随机推荐

1.1 Ubuntu18.04 ROS tcp/ip Server通信实现

Ubuntu18 04 ROS tcp ip Server通信实现此小节介绍tcp ip Server收发数据 xff0c 并将截取到底信息通过话题方式发布出去下一节介绍Ubuntu18 04 ROS tcp ip client通信实现
1.2 Ubuntu18.04 ROS tcp/ip Client通信实现

Ubuntu18 04 ROS tcp ip Client通信实现此小节介绍tcp ip Client收发数据 xff0c 测试平台为为Ubuntu18 04 与Windows系统上的网络调试助手进行通信测试 xff0c 调试助手采用的有
使用Gazebo对PX4飞控进行SITL仿真

在仿真之前 xff0c 首先需要搞清楚每个模块所代表的含义 xff0c 在这个操作中扮演什么角色 Gazebo xff1a 可以理解成对我们实际飞行物理环境的一个仿真 QGC xff1a 地面站 xff0c 不用多说 Firmware xf
GitLab统计代码量

gitlab官方文档 xff1a https docs gitlab com ee api index html 1 生成密钥登录gitlab xff0c 编辑个人资料 xff0c 设置访问令牌 2 获取当前用户所有可见的项目接口地址
【树莓派】（2）网络连接、IP设置、屏幕大小设置、VNC安装与配置

目录 1 网络连接 1 1有线网连接 SSH协议 1 2 无线网连接 VNC 方法1 xff1a 不能联网方法2 xff1a 能联网 2 VNC安装与配置 3 IP WiFi配置 4 屏幕大小屏幕黑屏时间设置 1 网络连接分为有屏幕和
Linux服务配置配置VNC远程桌面

一 VNC简介 VNC Virtual Network Console 是虚拟网络控制台的缩写它是一款优秀的远程控制工具软件 xff0c 由著名的 AT amp T 的欧洲研究实验室开发的 VNC 是在基于 UNIX 和 Linux 操
异常检测 and 自编码器（2）

文章目录前言一自编码器用于异常检测的网址推荐1 自编码器AutoEncoder解决异常检测问题2 基于自编码器的时间序列异常检测算法3 深度学习实现自编码器Autoencoder神经网络异常检测心电图ECG时间序列总结前言上篇文章
python树莓派3控制蜂鸣器_树莓派3 modelB型连接HC-SR501人体红外感应模块和蜂鸣器模块...

连接前准备树莓派3 modelB型一个 HC SR501传感器一只低电平蜂鸣器模块有源即接上电就会响 xff0c 低电平触发母对母杜邦线三根实物图如下 xff1a 博主连接的不是特别美观两个传感器的连接图分别如下 HC SR5
git submodule 使用教程

1 submoude 介绍 xff08 1 xff09 项目很大参与开发人员多的时候 xff0c 需要将各个模块文件进行抽离单独管理 xff08 2 xff09 使用git submodule来对项目文件做成模块抽离 xff0c 抽离出来的
为什么笔记本电脑电源适配器基本是19V供电

为什笔记本电源适配器供电一般不是20V xff0c 不是25V xff0c 偏偏是19V呢 xff0c 我们从硬件角度聊聊这个问题首先一个大背景是 xff0c 笔记本电池基本都是锂电池为主 xff0c 在设计上 xff0c 一般会使用多枚
基于国产飞腾、Intel X86等CPU主板设计与调试入门指导

知识就像货币 xff0c 流动才有意义一前言因为我是做硬件的 xff0c 想用这样一篇文章介绍一下我们常见的电脑主板 xff0c 或者说电路板卡 xff0c 是怎么设计出来的仅以技术之所学 xff0c 得此文章 xff0c 若有表达
两台电脑直接使用一根网线传输文件

教程目录 xff1a https blog csdn net dkbnull article details 87933584 有时候我们需要在两台电脑之间传输几十G的大文件 xff0c 或者置换新电脑时复制文件到新电脑 xff0c 而我
keil5(ARM)的下载和安装教程

Keil 5的下载与安装下载和安装教程均在以下百度网盘链接中链接 xff1a 百度网盘请输入提取码 https pan baidu com s 11N8EwQRBT 5AzXmW7y1X6A 提取码 xff1a efv3
git 远程分支与本地分支

前言远程仓库上只有 1 个 master 分支复制远程仓库的地址 3 克隆远程仓库到本地一注意 xff1a 本地的 head 和 master 文件都存在 xff0c 但是 remote 的 master 信息是保存在文件 git
ARM 自己动手安装交叉编译工具链

一 Windows中装软件的特点 Windows中装软件使用安装包 xff0c 安装包解压后有2种情况 xff1a 一种是一个安装文件 xff08 exe msi xff09 xff0c 双击进行安装 xff0c 下一步直到安装完毕安装完
ARM X210开发板的软开关按键问题

一 X210 开发板的软启动电路详解 x210bv3 pdf 1 210 供电需要的电压比较稳定 xff0c 而外部适配器的输出电压不一定那么稳定 xff0c 因此板载了一个文稳压器件 MP1482 这个稳压芯片的作用就是外部适配器电压在一
pyqt5 编写串口通讯上位机_如何使用Python开发串口通讯上位机（二）

黑色的dos窗口对于大部分来说 xff0c 页面极为不友好 xff0c 且操作不方便 xff0c 因此本篇主要讲讲如何结合QtDesigner创建一个UI并初步与串口Api链接 1 QtDesigner进行上位机页面设计 Python下的软
TensorRT介绍

TensorRT 文章目录 TensorRT训练和推理的区别TensorRTTensorRT 优化和性能TensorRT 工作原理Python APIImporting TensorRT Into PythonCreating A Netw
Pytorch 加载图像数据（ImageFolder和Dataloader）

Pytorch加载图像数据集需要两步 xff0c 首先需要使用 torchvision datasets ImageFolder 读取图像 xff0c 然后再使用torch utils data DataLoader 加载数据集 Image
S2A-NET

S2A NET 文章目录 S2A NET基础知识引言网络架构FAMARNACL 对齐卷积ODM 实现损失函数推理消融实验参考基础知识长边 13 5 135 circ

S2A-NET

S2A-NET

文章目录

基础知识

引言

网络架构

FAM

ARN

ACL

对齐卷积

ODM

实现

损失函数

推理

消融实验

参考

S2A-NET 的相关文章

随机推荐

热门标签