FPN网络结构+源码讲解

2023-11-15

YOLOF前传：特征金字塔（FPN）

前言

这几天在读CVPR2021的中稿论文YOLOF（You Only Look One-level Feature），文章回顾了单阶段的特征金字塔网络(FPN)，指出FPN的成功的原因在于它对目标检测中优化问题的分而治之的解决策略，而不是多尺度特征融合。之前虽然经常看到特征金字塔相关结构，却也没有深入研究过，今天借着YOLOF把FPN的网络结构特征简要总结一下。

01

特征金字塔是多尺度（muiti-scale）目标检测领域中的重要组成部分，但是由于此方法对计算和内存的需求，在FPN之前的深度学习任务都刻意回避了这类模型。在这篇文章中，作者利用深度神经网络固有的多尺度、多层级的金字塔结构，使用一种 自上而下的侧边连接 在所有尺度上构建出高级语义特征图，构造了特征金字塔的经典结构。

具体做法其实并不难理解：

把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征自上而下进行融合，使得所有尺度下的特征都有丰富的语义信息。

02

当然，FPN并非只有上图所示的一种结构，下面大体介绍一下特征金字塔网络：

Featurized image pyramid

一种比较笨的多尺度方法，对输入图像设置不同的缩放比例实现多尺度。这样可以解决多尺度，但是相当于训练了多个模型（假设要求输入大小固定），即便允许输入大小不固定，但是也增加了存储不同尺度图像的内存空间。
在这里插入图片描述

Single feature map

其实就是早期的CNN模型，通过卷积层不断学习图像的高级语义特征。

Pyramidal feature hierarchy

SSD较早尝试了使用CNN金字塔形的层级特征，重用了前向过程计算出的多尺度特征图，因此这种形式是不消耗额外的资源的。但是SSD为了避免使用low-level的特征，放弃了浅层的特征图信息，直接从conv4_3开始建立金字塔，并且加入了一些新的层，但是这些低层级、高分辨率的特征图信息对检测小目标是非常重要的。

Feature Pyramid Network

FPN为了能够自然地利用CNN层级特征的金字塔形式，同时生成在所有尺度上都具有强语义信息的特征金字塔，便以此为目的设计了top-down结构和lateral connection。这种金字塔结构以此融合具有高分辨率的浅层feature和具有丰富语义信息的深层feature。这样就实现了从单尺度的单张输入图像，快速构建在所有尺度上都具有强语义信息的特征金字塔，同时不产生明显的代价。

03

那么，如何做到top-down和

lateral connection呢？

top-down

def _upsample_add(self, x, y):
    _,_,H,W = y.size()
    return F.upsample(x, size=(H,W), mode='bilinear') + y

也就是说，这里的实现使用的是最简单的上采样，没有使用线性插值，没有使用反卷积，而是直接复制。

lateral connection

# init Lateral layers，其实就是做通道匹配任务
self.latlayer1 = nn.Conv2d(1024, 256, kernel_size=1, stride=1, padding=0)
self.latlayer2 = nn.Conv2d( 512, 256, kernel_size=1, stride=1, padding=0)
self.latlayer3 = nn.Conv2d( 256, 256, kernel_size=1, stride=1, padding=0)

# forward
p4 = self._upsample_add(p5, self.latlayer1(c4))
p3 = self._upsample_add(p4, self.latlayer2(c3))
p2 = self._upsample_add(p3, self.latlayer3(c2))

在这里插入图片描述

结合上图我们可以理解这篇文章的核心思路：

通过2xup-sample，我们得到了上层传递下来的高层语义特征，其尺寸大小与lateral connection过程中的低层特征图尺寸相同；

通过1x1 conv，将高层特征通道数与低层特征通道数统一，解决了融合（sum）过程中channel数不匹配的问题。

04

FPN自上而下的网络结构代码怎么实现？

'''FPN in PyTorch.

See the paper "Feature Pyramid Networks for Object Detection" for more details.
'''
import torch
import torch.nn as nn
import torch.nn.functional as F

from torch.autograd import Variable


class Bottleneck(nn.Module):
    expansion = 4

    def __init__(self, in_planes, planes, stride=1):
        super(Bottleneck, self).__init__()
        self.conv1 = nn.Conv2d(in_planes, planes, kernel_size=1, bias=False)
        self.bn1 = nn.BatchNorm2d(planes)
        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=stride, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(planes)
        self.conv3 = nn.Conv2d(planes, self.expansion*planes, kernel_size=1, bias=False)
        self.bn3 = nn.BatchNorm2d(self.expansion*planes)

        self.shortcut = nn.Sequential()
        if stride != 1 or in_planes != self.expansion*planes:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_planes, self.expansion*planes, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(self.expansion*planes)
            )

    def forward(self, x):
        out = F.relu(self.bn1(self.conv1(x)))
        out = F.relu(self.bn2(self.conv2(out)))
        out = self.bn3(self.conv3(out))
        out += self.shortcut(x)
        out = F.relu(out)
        return out


class FPN(nn.Module):
    def __init__(self, block, num_blocks):
        super(FPN, self).__init__()
        self.in_planes = 64

        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)

        # Bottom-up layers
        self.layer1 = self._make_layer(block,  64, num_blocks[0], stride=1)
        self.layer2 = self._make_layer(block, 128, num_blocks[1], stride=2)
        self.layer3 = self._make_layer(block, 256, num_blocks[2], stride=2)
        self.layer4 = self._make_layer(block, 512, num_blocks[3], stride=2)

        # Top layer
        self.toplayer = nn.Conv2d(2048, 256, kernel_size=1, stride=1, padding=0)  # Reduce channels

        # Smooth layers
        self.smooth1 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
        self.smooth2 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
        self.smooth3 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)

        # Lateral layers
        self.latlayer1 = nn.Conv2d(1024, 256, kernel_size=1, stride=1, padding=0)
        self.latlayer2 = nn.Conv2d( 512, 256, kernel_size=1, stride=1, padding=0)
        self.latlayer3 = nn.Conv2d( 256, 256, kernel_size=1, stride=1, padding=0)

    def _make_layer(self, block, planes, num_blocks, stride):
        strides = [stride] + [1]*(num_blocks-1)
        layers = []
        for stride in strides:
            layers.append(block(self.in_planes, planes, stride))
            self.in_planes = planes * block.expansion
        return nn.Sequential(*layers)

    def _upsample_add(self, x, y):
        '''Upsample and add two feature maps.

        Args:
          x: (Variable) top feature map to be upsampled.
          y: (Variable) lateral feature map.

        Returns:
          (Variable) added feature map.

        Note in PyTorch, when input size is odd, the upsampled feature map
        with `F.upsample(..., scale_factor=2, mode='nearest')`
        maybe not equal to the lateral feature map size.

        e.g.
        original input size: [N,_,15,15] ->
        conv2d feature map size: [N,_,8,8] ->
        upsampled feature map size: [N,_,16,16]

        So we choose bilinear upsample which supports arbitrary output sizes.
        '''
        _,_,H,W = y.size()
        return F.upsample(x, size=(H,W), mode='bilinear') + y

    def forward(self, x):
        # Bottom-up
        c1 = F.relu(self.bn1(self.conv1(x)))
        c1 = F.max_pool2d(c1, kernel_size=3, stride=2, padding=1)
        c2 = self.layer1(c1)
        c3 = self.layer2(c2)
        c4 = self.layer3(c3)
        c5 = self.layer4(c4)
        # Top-down
        p5 = self.toplayer(c5)
        p4 = self._upsample_add(p5, self.latlayer1(c4))
        p3 = self._upsample_add(p4, self.latlayer2(c3))
        p2 = self._upsample_add(p3, self.latlayer3(c2))
        # Smooth
        p4 = self.smooth1(p4)
        p3 = self.smooth2(p3)
        p2 = self.smooth3(p2)
        return p2, p3, p4, p5

05

总之，FPN最主要的意图就是把高层的特征传下来，补充低层的语义，这样就可以在具有高分辨率的底层网络中获得强语义的高层特征，有利于小目标的检测。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

FPN网络结构+源码讲解的相关文章

PyTorch：tensor.cuda（）和tensor.to（torch.device（“cuda：0”））之间有什么区别？

在 PyTorch 中以下两种将张量或模型发送到 GPU 的方法有什么区别 Setup X np array 1 3 2 3 2 3 5 6 1 2 3 4 X model X torch DoubleTensor X Method
二维数组的按行 numpy.isin [重复]

这个问题在这里已经有答案了我有两个数组 A np array 3 1 4 1 1 4 B np array 0 1 5 2 4 5 2 3 5 是否可以使用numpy isin二维数组按行排列我想检查一下是否A i j is in B
Pytorch：了解 nn.Module 类内部如何工作

一般来说一个nn Module可以由子类继承如下所示 def init weights m if type m nn Linear torch nn init xavier uniform m weight class LinearRe
为什么测试时一定要用DataParallel？

在GPU上训练 num gpus设置为1 device ids list range num gpus model NestedUNet opt num channel 2 to device model nn DataParallel m
在pytorch中使用tensorboard，但得到空白页面？

我在pytorch 1 3 1中使用tensorboard 并且我在张量板的 pytorch 文档 https pytorch org docs stable tensorboard html 运行后tensorboard logdir r
如何避免 PyTorch 中的“CUDA 内存不足”

我认为对于 GPU 内存较低的 PyTorch 用户来说这是一个非常常见的消息 RuntimeError CUDA out of memory Tried to allocate X MiB GPU X X GiB total capac
Model() 获得参数“nr_class”的多个值 - SpaCy 多分类模型（BERT 集成）

您好我正在致力于使用新的 SpaCy 模型实现多分类模型 5 类 en pytt bertbaseuncased lg 新管道的代码在这里 nlp spacy load en pytt bertbaseuncased lg textcat
torch-1.1.0-cp37-cp37m-win_amd64.whl 在此平台上不受支持的滚轮

我在开发 RNN 时需要使用 pyTorch 每当我尝试安装它时我都会收到一条错误消息指出 torch 1 1 0 cp37 cp37m win amd32 whl 在此平台上不受支持 pip3安装https download pyto
torchvision.transforms.Normalize 是如何操作的？

我不明白如何标准化Pytorch works 我想将平均值设置为0和标准差1跨越张量中的所有列x形状的 2 2 3 一个简单的例子 gt gt gt x torch tensor 1 2 3 4 5 6 7 8 9 10 11 12 gt
为什么 RNN 需要两个偏置向量？

In Pytorch RNN 实现 http pytorch org docs master nn html highlight rnn torch nn RNN 有两个偏差 b ih and b hh 为什么是这样它与使用一种偏差有什么
一次热编码期间出现 RunTimeError

我有一个数据集其中类值以 1 步从 2 到 2 i e 2 1 0 1 2 其中 9 标识未标记的数据使用一种热编码 self one hot encode labels 我收到以下错误 RuntimeError index 1 is
下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
如何计算 CNN 第一个线性层的维度

目前我正在使用 CNN 其中附加了一个完全连接的层并且我正在使用尺寸为 32x32 的 3 通道图像我想知道是否有一个一致的公式可以用来计算第一个线性层的输入尺寸和最后一个卷积最大池层的输入我希望能够计算第一个线性层的尺寸仅给出
Pytorch ValueError：优化器得到一个空参数列表

当尝试创建神经网络并使用 Pytorch 对其进行优化时我得到了 ValueError 优化器得到一个空参数列表这是代码 import torch nn as nn import torch nn functional as F fro
如何有效地对一个数组中某个值在另一个数组中的位置出现的次数求和

我正在寻找一种有效的 for 循环避免解决方案来解决我遇到的数组相关问题我想使用一个巨大的一维数组 A gt size 250 000 用于一维索引的 0 到 40 之间的值以及用于第二维索引的具有 0 到 9995 之间的值的相同大
Pytorch 损失为 nan

我正在尝试用 pytorch 编写我的第一个神经网络不幸的是当我想要得到损失时遇到了问题出现以下错误信息 RuntimeError Function LogSoftmaxBackward0 returned nan values in
PyTorch 中的交叉熵

交叉熵公式但为什么下面给出loss 0 7437代替loss 0 since 1 log 1 0 import torch import torch nn as nn from torch autograd import Variable
在 Pytorch 中估计高斯模型的混合

我实际上想估计一个以高斯混合作为基本分布的归一化流所以我有点被火炬困住了但是您可以通过估计 torch 中高斯模型的混合来在代码中重现我的错误我的代码如下 import numpy as np import matplotlib p
将 Pytorch LSTM 的状态参数转换为 Keras LSTM

我试图将现有的经过训练的 PyTorch 模型移植到 Keras 中在移植过程中我陷入了LSTM层 LSTM 网络的 Keras 实现似乎具有三种状态类型的状态矩阵而 Pytorch 实现则具有四种状态矩阵例如对于hidden l
TensorFlow 相当于 PyTorch 的 Transforms.Normalize()

我正在尝试推断最初在 PyTorch 中构建的 TFLite 模型我一直在遵循PyTorch 实现 https github com leoxiaobin deep high resolution net pytorch blob 1ee

随机推荐

Python课程设计题目

文章目录 1 基于Python的XX管理系统 2 基于Python的XX工具开发 1 基于Python的XX管理系统实例要求采用面向对象或是字典保存实例的属性信息功能要求提供增加删除修改单个查询查询所有保存信息到本地文件
制作Win7多合一原版系统光盘镜像

先看看效果提前准备工具 1 UltraISO 链接 https pan baidu com s 1cXff0 PjKPPmRr8 zJNJHA 密码 nnj1 2 GimageX 链接 https pan baidu com s 1fqG
element ui select multiple 多选数据修改回显失灵问题的解决

使用change方法 this forceUpdate 重新渲染
管理“项目”之人际关系篇

项目管理里的人际关系也是令人头疼且最重要的管的好众人拾柴火焰高管的不好眼看他起高楼眼看他楼塌了文章目录前言一项目关系人管理 1 项目创立一定要获得关系人尤其主要关系人或市场的认可 2 识别相关人员识别关系人 3
Cesium：入门教程（一）之 Hello World

简介 Cesium是国外一个基于JavaScript编写的使用WebGL的地图引擎 Cesium支持3D 2D 2 5D形式的地图展示它提供了基于JavaScript语言的开发包方便用户快速搭建一款零插件的虚拟地球Web应用并在性能
Qt源码分析之信号和槽机制

原文在这里 http blog csdn net oowgsoo article details 1529411 Qt的信号和槽机制是Qt的一大特点实际上这是和MFC中的消息映射机制相似的东西要完成的事情也差不多就是发送一个消息然后让
电脑系统更新完后，计算机管理服务中找不到mysql的服务

问题场景电脑系统更新完重启电脑发现在电脑计算机管理服务中找不到mysql的服务问题描述重启后计算机管理如图解决方案使用Windows Powershell 管理员模式进入到mysql安装目录bin 然后执行 mysqld
Unity游戏开发-Assetbundle打包

本篇主要是分享unity Assetbundle的打包处理目录打包接口整体设计打包AssetBundle 压缩资源到StreamingAssets 输出资源清单文件清单文件结构 AssetFile AssetVersion 处理
Codeforces-1454E Number of Simple Paths（基环树-思维）

题目大意给你n个点 n条边求图中简单路径的个数题目思路 n个点n条边那么图中一定有一个环拿这个图来讲我们将两点间的关系分为4种 1 两点都在环上简单路径的个数为2 例如2与5 2 一个点在环上一个点不在环上简单路径个数为2
魔兽世界(WOW)诺莫瑞根卡片任务链ASCII码解码(python)

运行环境 python 3 9 翻译结果 A机器上的编码 Tell your friends to play WoW 白色卡片上的编码 Thrall and Jaina sitting in a tree K I S S I N G A机器
使用openssl中函数MD5_Init、MD5_Update、MD5_Final出现LNK2019 unresolved externalsymbol错误解决方法

添加对应的静态链接库以vs2013为例 PROJECT gt Properties gt Linker gt Additional Dependencies 添加libeay32 lib 先确认库的搜索路径中libeay32 lib
LVGL8.1笔记3--运行demo（2022-0611）

LVGL8 1笔记3 运行demo 2022 0611 文章目录 LVGL8 1笔记3 运行demo 2022 0611 toc 前言一移植前准备二 lv demo简介三开始移植demo 1 首先下载demo 如果用的不是LVGL
sdc基本概念-set_clock_groups

set clock groups 指定clock groups 之间的关系是mutually exclusive or asynchronous 这些clock 间的timing path 是不做分析的 status set clock g
cass等距离等分线段的命令键_cad等分快捷键(cad等分线段快捷键命令)

CAD中等分线段分为两种定数等分和定距等分 1 定数等分命令是DIVIDE 快捷键是DIV 2 定距等分命令是MEASURE 快捷键是ME 以线段定数等分为例 1 命令为DIV 以CAD2010操作为例 1 打开CAD的软件如图所示
LeetCode 99. 恢复二叉搜索树

题目链接 https leetcode cn com problems recover binary search tree 思路如下如下图所示正常情况下中序遍历的结果是升序的 11 17 18 22 28 37 42 44 62 如下
Hive设置本地模式

set hive exec mode local auto true
使用EasyPOI导出Excel表格（含多sheet导出以及一对多导出）

一前言官方Api文档地址 http doc wupaas com docs easypoi easypoi 1c0u4mo8p4ro8 常用注解介绍注解介绍 easypoi起因就是Excel的导入导出最初的模板是实体和Excel的对
SqlServer 关于 datetime 的更新引发的思考

今天在测试更新 SqlServer 表的 datetime 字段时突然发现并没有更新成功同时也没有报错感觉十分诧异因此仔细排查了一下终于发现是和字段本身的精度有关现象假设我们现在有一张 SqlServer 表 basic in
LC-3 机器语言指令集

目录碎碎念念 LC 3指令运算类指令 ADD addition AND Bit wise logical AND NOT Bit wise complement 数据搬移类指令 LD load ST store LDI load ind
FPN网络结构+源码讲解

YOLOF前传特征金字塔 FPN 前言这几天在读CVPR2021的中稿论文YOLOF You Only Look One level Feature 文章回顾了单阶段的特征金字塔网络 FPN 指出FPN的成功的原因在于它对目标检测中优化

FPN网络结构+源码讲解

前言

01

02

03

04

05

FPN网络结构+源码讲解 的相关文章

随机推荐

热门标签

FPN网络结构+源码讲解的相关文章