【MMDet Note】MMDetection中Neck之FPN代码理解与解读

2023-11-15

文章目录

前言
一、总概
二、代码解读
- 1.FPN类
- 2.def forward
总结

前言

mmdetection/mmdet/models/necks/fpn.py中FPN类的个人理解与解读。

一、总概

本文以mmdetection/configs/base/models/retinanet_r50_fpn.py中的RetinaNet配置参数为例进行分析。
以下是RetinaNet模型的Neck参数配置：

neck=dict(
	type='FPN',
    # in_channal对应ResNet输出的4个尺度特征图channel数
	in_channels=[256, 512, 1024, 2048],
    # FPN 输出的每个尺度输出特征图通道
	out_channels=256,
    # in_channels对应的特征图从index=1开始用，即FPN用了后三个特征图
	start_level=1,
    # 额外输出层的特征图来源
	add_extra_convs='on_input',
    # FPN 输出特征图个数为5， stride = 8,16,32,64,128
	num_outs=5),

RetinaNet整体模型的大概构造如下图所示：
在这里插入图片描述

二、代码解读

1.FPN类

在这里插入图片描述
代码的标注#都是以RetinaNet的config为例的哦~~代码解读与图片中的内容是互相对应的！！！

@NECKS.register_module()
class FPN(BaseModule):
    def __init__(self,
                 in_channels,             # RetinaNet为例 [256, 512, 1024, 2048]
                 out_channels,            # 256
                 num_outs,                # 5
                 start_level=0,           # 1
                 end_level=-1,
                 add_extra_convs=False,   # 'on_input'
                 relu_before_extra_convs=False,
                 no_norm_on_lateral=False,
                 conv_cfg=None,
                 norm_cfg=None,
                 act_cfg=None,
                 upsample_cfg=dict(mode='nearest'),
                 init_cfg=dict(
                     type='Xavier', layer='Conv2d', distribution='uniform')):
        super(FPN, self).__init__(init_cfg)
        assert isinstance(in_channels, list)
        self.in_channels = in_channels                              # self.in_channels = [256, 512, 1024, 2048]
        self.out_channels = out_channels                            # self.out_channels = 256    对应图中M3-M5的channel数为256
        self.num_ins = len(in_channels)                             # self.num_ins = 4
        self.num_outs = num_outs                                    # self.num_outs = 5     对应图中P3-P7
        # 下面4个参数对于结构理解关系不大
        self.relu_before_extra_convs = relu_before_extra_convs
        self.no_norm_on_lateral = no_norm_on_lateral
        self.fp16_enabled = False
        self.upsample_cfg = upsample_cfg.copy() # 上采样参数

        if end_level == -1 or end_level == self.num_ins - 1:
            self.backbone_end_level = self.num_ins                  # self.backbone_end_level = 4
            assert num_outs >= self.num_ins - start_level
        else:
            # if end_level is not the last level, no extra level is allowed
            self.backbone_end_level = end_level + 1
            assert end_level < self.num_ins
            assert num_outs == end_level - start_level + 1
        self.start_level = start_level                              # self.start_level = 1
        self.end_level = end_level                                  # self.end_level = -1
        self.add_extra_convs = add_extra_convs                      # self.add_extra_convs = 'on_input'
        assert isinstance(add_extra_convs, (str, bool))
        if isinstance(add_extra_convs, str):
            # Extra_convs_source choices: 'on_input', 'on_lateral', 'on_output'
            assert add_extra_convs in ('on_input', 'on_lateral', 'on_output')
        elif add_extra_convs:  # True
            self.add_extra_convs = 'on_input'

        
        self.lateral_convs = nn.ModuleList()        # 对应图中橙色虚线框
        self.fpn_convs = nn.ModuleList()            # 对应图中绿色虚线框

        for i in range(self.start_level, self.backbone_end_level):    # start_level = 1, backbone_end_level = 4，整体数量为3
            # 构造conv 1x1，对应图中3个橙色矩阵
            l_conv = ConvModule(
                in_channels[i],
                out_channels,
                1,      # kernel_size = 1
                conv_cfg=conv_cfg,
                norm_cfg=norm_cfg if not self.no_norm_on_lateral else None,
                act_cfg=act_cfg,
                inplace=False)
            # 构造conv 3x3，对应图中3个绿色矩阵
            fpn_conv = ConvModule(
                out_channels,
                out_channels,
                3,
                padding=1,
                conv_cfg=conv_cfg,
                norm_cfg=norm_cfg,
                act_cfg=act_cfg,
                inplace=False)

            self.lateral_convs.append(l_conv)
            self.fpn_convs.append(fpn_conv)

        # 添加额外的conv level (e.g., RetinaNet)
        extra_levels = num_outs - self.backbone_end_level + self.start_level    # extra_levels = 5 - 4 + 1 = 2  
        # 其实不论怎么样这个extra_levels都会>=1（当前理解的也就是，在默认情况下图中的Output中的绿色矩形始终存在）
        if self.add_extra_convs and extra_levels >= 1:
            for i in range(extra_levels):    # 2
                if i == 0 and self.add_extra_convs == 'on_input':                # 当i == 0时，满足条件
                    in_channels = self.in_channels[self.backbone_end_level - 1]  # 当i == 0时，in_channels = in_channels[3] 也即2048，此时构造的对应图中紫色的矩阵
                else:                                                            # 当i == 0时，in_channels = 256
                    in_channels = out_channels
                # 构造conv 3x3, stride=2
                extra_fpn_conv = ConvModule(
                    in_channels,
                    out_channels,
                    3,
                    stride=2,
                    padding=1,
                    conv_cfg=conv_cfg,
                    norm_cfg=norm_cfg,
                    act_cfg=act_cfg,
                    inplace=False)
                self.fpn_convs.append(extra_fpn_conv)
        # 因此RetinaNet最终fpn_convs中有5块Conv块，即对应图中绿色虚线框关联的内容有5块

2.def forward

这里重新贴一下上面的图，代码解读与图片中的内容是互相对应的！！！
在这里插入图片描述

    @auto_fp16()
    def forward(self, inputs):
        """Forward function."""
        assert len(inputs) == len(self.in_channels)

        # laterals 用来记录每一次计算后的输出值，可以理解成是一个临时变量temp
        laterals = [
            lateral_conv(inputs[i + self.start_level])              # self.start_level = 1，inputs[i + 1]为C3-C5的输入
            for i, lateral_conv in enumerate(self.lateral_convs)
        ]
        # 此时，laterals 已经记录了C3-C5经过conv 1x1之后得到的M3-M5值(还未upsample)
        
        # build top-down path
        used_backbone_levels = len(laterals)                # 3
        for i in range(used_backbone_levels - 1, 0, -1):    # i in [2,1]
            # In some cases, fixing `scale factor` (e.g. 2) is preferred, but
            #  it cannot co-exist with `size` in `F.interpolate`.
            if 'scale_factor' in self.upsample_cfg:
                # fix runtime error of "+=" inplace operation in PyTorch 1.10
                laterals[i - 1] = laterals[i - 1] + F.interpolate(
                    laterals[i], **self.upsample_cfg)
            else:
                # 这里也就是upsample与相加的操作，可以理解成经过“upsample”与“+”的操作后，才得到真正的M3-M5的值
                prev_shape = laterals[i - 1].shape[2:]
                laterals[i - 1] = laterals[i - 1] + F.interpolate(
                    laterals[i], size=prev_shape, **self.upsample_cfg)
        # 此时，laterals 记录了经过upsample之后得到的新M3-M5值


        # 建立 outputs
        # part 1: from original levels 此处out对应P3-P5
        outs = [
            self.fpn_convs[i](laterals[i]) for i in range(used_backbone_levels)   # used_backbone_levels = 3
        ]
        # part 2: add extra levels
        if self.num_outs > len(outs):       # self.num_outs = 5
            # use max pool to get more levels on top of outputs
            # (e.g., Faster R-CNN, Mask R-CNN)
            if not self.add_extra_convs:     # self.add_extra_convs = 'on_input'
                for i in range(self.num_outs - used_backbone_levels):
                    outs.append(F.max_pool2d(outs[-1], 1, stride=2))
            # add conv layers on top of original feature maps (RetinaNet)
            else:
                if self.add_extra_convs == 'on_input':             # 满足条件
                    extra_source = inputs[self.backbone_end_level - 1]  # self.backbone_end_level - 1 = 3 , extra_source 对应图中的C5
                elif self.add_extra_convs == 'on_lateral':
                    extra_source = laterals[-1]
                elif self.add_extra_convs == 'on_output':
                    extra_source = outs[-1]
                else:
                    raise NotImplementedError
                # 此处outs增加P6
                outs.append(self.fpn_convs[used_backbone_levels](extra_source))   # self.fpn_convs[used_backbone_levels]对应图中紫色的矩阵
                for i in range(used_backbone_levels + 1, self.num_outs): # i in [4]
                    if self.relu_before_extra_convs:
                        outs.append(self.fpn_convs[i](F.relu(outs[-1])))
                    else:
                        # 此处out增加P7
                        outs.append(self.fpn_convs[i](outs[-1]))  # self.fpn_convs[i]对应con3x3,stride=2     outs[-1]对应P6     这里也对应了之前提到的“在默认情况下图中的Output中的绿色矩形始终存在”
        return tuple(outs)

总结

本文仅代表个人理解，若有不足，欢迎批评指正。

参考：
【夜深人静读MM】MMdetection框架之Neck中的FPN解读
 轻松掌握 MMDetection 中常用算法(一)：RetinaNet 及配置详解

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MMDet Note

python

人工智能

【MMDet Note】MMDetection中Neck之FPN代码理解与解读的相关文章

为什么 matplotlib 底图没有绘制地图中某些区域的颜色？

下面的代码应该为越南的所有州着色 import pandas as pd import matplotlib pyplot as plt from mpl toolkits basemap import Basemap fig ax plt
在Python中不断寻找用户输入

我将如何编写一个始终寻找用户输入的 Python 程序我想我希望有一个等于输入的变量然后根据该变量的等于值会发生不同的情况因此如果变量是 w 那么它将执行某个命令并继续执行直到收到另一个输入例如 d 然后会发生不同的情况但直到
如何生成大型网站的图形站点地图[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想为我的网站生成图形站点地图据我所知有两个阶段抓取网站并分析链接关系提取树形结构生成视觉上
如何在python中确定过去的时区特定日期是否是夏令时？

有没有办法检查特定时区在我指定的日期是否处于夏令时 test dt datetime year 2015 month 2 day 1 pst pytz timezone America Los Angeles test dt pst loc
Pandas 在列级别连接数据帧时添加键

根据 Pandas 0 19 2 文档我可以提供keys参数来创建结果多索引 DataFrame 一个例子来自 pandas 文档是 result pd concat frames keys x y z 我将如何连接数据框以便我可以在
无法使用 Python 循环分页 API 响应

所以我对这个感到摸不着头脑使用 HubSpot 的 API 我需要获取我客户的门户帐户中所有公司的列表遗憾的是标准 API 调用一次只能返回 100 家公司当它返回响应时它包含两个参数使分页响应成为可能其中之一是 ha
Scrapy Splash，如何处理onclick？

我正在尝试抓取以下内容我能够收到响应但我不知道如何访问以下项目的内部数据以抓取它我注意到访问这些项目实际上是由 JavaScript 和分页处理的这种情况我该怎么办下面是我的代码 import scrapy from scrapy
Django 说“id 可能不为 NULL”，但为什么会这样呢？

我今天要疯了我只是尝试插入一条新记录但它返回了 post blogpost id 可能不为 NULL 错误这是我的模型 class BlogPost models Model title models CharField max le
将相同的 Patch 实例添加到 matplotlib 中的多个子图中

我正在尝试将补丁的相同实例添加到 matplotlib 中的多个轴这是最小的例子 import matplotlib pyplot as mpl plt import matplotlib patches as mpl patches f
Python 在 64 位 vista 上获取 os.environ["ProgramFiles"] 的错误值

Vista64 计算机上的 Python 2 4 3 环境中有以下2个变量 ProgramFiles C Program Files ProgramFiles x86 C Program Files x86 但是当我运行以下命令时 impo
将带有 md5 消息摘要和 DESede/CBC/PKCS5Padding 的 3DES 加密的 java 代码转换为 python

我有这个工作java代码它使用3DES加密对密码进行加密 import java security MessageDigest import java util Arrays import java util Base64 import
如何删除 pip 安装的所有软件包？

如何从当前激活的虚拟环境中卸载 pip 安装的所有软件包我发现这个片段作为替代解决方案与重新创建 virtualenv 相比删除库更加优雅 pip freeze xargs pip uninstall y 如果您通过 VCS 安装了软
如何使用 Python 实现并行 gzip 压缩？

使用python压缩大文件 https stackoverflow com questions 9518705 big file compression with python给出了一个很好的例子来说明如何使用例如bz2 纯粹用 Pytho
在 matplotlib 中将 3D 背景更改为黑色

我在将 3D 图表的背景更改为黑色时遇到问题这是我当前的代码当我将facecolor设置为黑色时它会将图表内部更改为灰色这不是我想要的 fig plt figure fig set size inches 10 10 ax plt
给定一个字符串，如何删除所有重复的连续字母？

如何从字符串中删除两个连续的字母例如 a str hii thherre 应该成为 hi there 我尝试这样做 a str join sorted set a str key a str index 但是我得到 hi ter 是的
python：xml.etree.ElementTree，删除“命名空间”

我喜欢 ElementTree 解析 xml 的方式特别是 Xpath 功能我有一个带有嵌套标签的应用程序的 xml 输出我想按名称访问此标签而不指定名称空间这可能吗例如 root findall molpro job 代替 ro
访问影子 DOM 中的元素

是否有可能查找 Shadow DOM 中的元素与蟒蛇硒示例用例我有这个input with type date
AES 在 cryptojs 中加密并在 python Crypto.Cipher 中解密

使用 js CryptoJS 加密并使用 python crypto Cipher 解密时出现问题这是我在js中的实现附加 iv 与加密消息并使用 base64 进行编码
具有重复值的 Sqlite 列

就说专栏吧aSQLite 数据库的非常重复始终有相同的 4 个值其他值可能稍后出现但不同值的数量将少于 1000 个 VALUES hello world it s a shame to store this str many tim
如何从Python枚举类中获取所有值？

我正在使用 Enum4 库创建一个枚举类如下所示 class Color Enum RED 1 BLUE 2 我要打印 1 2 作为某处的列表我怎样才能实现这个目标您可以执行以下操作 e value for e in Color

随机推荐

了解预训练以及在自编码器中的应用

预训练是一种机器学习技术在这种技术中模型被训练以在标注数据少或不存在的情况下自动从未标记的数据中学习预训练可以为模型提供先验知识使其能够在特定任务上更好地泛化预训练过程通常分为两个阶段无监督预训练和有监督微调无监督预训练模型
unity屏幕后处理Bloom优化(光晕）

前言前几天看米哈游的技术总监说崩坏3 的bloom效果的实现是 1 高亮像素过滤 2 向下采样降采样 3 向上采样 4 将模糊后的图像和原图像混合经过上面的步骤能高效的实现bloom效果常规的bloom是使用提取高亮卷积滤波
[专利与论文-20]：江苏省南京市2022年电子信息申报操作指南

1 学时认定每年公需课不能低于30学时 2 流程
elastic search中易并行聚合算法，三角选择原则，近似聚合算法浅析

1 有些聚合分析的算法是很容易就可以并行的比如说max 有些聚合分析的算法是不好并行的比如说 count distinct 并不是说在每个node上直接就出一些distinct value 就可以的因为数据可能会很多 es会采
DMX512协议是什么 DMX512数字灯光控制系统介绍

基于DMX512控制协议进行调光控制的灯光系统叫做数字灯光系统目前包括电脑灯在内的各种舞台效果灯调光控制器控制台换色器电动吊杆等各种舞台灯光设备以其对DMX512协议的全面支持已全面实现调光控制的数字化并在此基础上逐渐趋
74HC595 使用记录国产UTC品牌

芯片型号 U74HC595A 数据手册时序图实际测试时序图通道1 595的14脚通道2 595 的11脚通道3 595 的9脚结论 U74HC595A 国产 UTC品牌数据手册与实测数据不一致
CentOS 7.9 64位 SCC版安装FastDfs和配置Nginx

最近练习的项目中需要用到FastDfs 和Nginx 这里记录一下安装和配置过程个人使用部署过程遇到了很多的坑准备把过程记下来不然忘了首先购买试用阿里云 CentOS 7 9 64位Scc版系统进入远程桌面由于项目较老所以我
尚硅谷电影推荐系统搭建遇到的问题及知识

尚硅谷电影推荐系统搭建遇到的问题及知识 Hadoop ES问题 Zookeeper Flume ng Kafka Azkaban 其他腾讯云Superset问题需更新数据库用户登录master节点 cd usr local servi
java去掉字符串的逗号_java – 从字符串数组中删除逗号

我想执行像这样的查询从 xyz DB 中选择ID test 其中用户在 a b 所以相应的代码就像 String s for String user selUsers s user s 从test中选择ID 其中userId在s中以下代
idea中关于thymeleaf 变量在html中报红以及控制器返回页面无法追踪的问题

html页面thymeleaf 的变量报红无法追踪 controller 无法直接追踪页面默认配置前缀 templates 后缀 html 可以正常运行页面跳转以及变量的传递就是看着有点不舒服咋办呢我无意之间发现的加入s
JVM学习笔记

目录垃圾回收器垃圾回收器分类按线程数分按工作模式分按碎片处理方式分按工作的内存区间分 GC分类与性能指标性能指标吞吐量性能指标暂停时间吞吐量vs暂停时间垃圾回收器垃圾回收器发展史 7种经典的垃圾收集器垃圾回收器的
[人工智能-综述-3]：人工智能与硅基生命，人类终将成为造物主

作者主页文火冰糖的硅基工坊 https blog csdn net HiWangWenBing 本文网址 https blog csdn net HiWangWenBing article details 119061112 目录引言
145 - Table ' is marked as crashed and should be repai

145 Table schoolhelp xyb user is marked as crashed and should be repai 145 表 schoolhelp xyb user 被标记为崩溃应重新修修复方式 repair
Html CSS学习（六）background-position背景图像的定位

2019独角兽企业重金招聘Python工程师标准 gt gt gt Html CSS学习六 background position背景图像的定位在网页中会有很多的背景图像与一些小的图标等内容在初学的时候为了达到页面的效果都是将原
Spring Boot中如何编写优雅的单元测试

单元测试是指对软件中的最小可测试单元进行检查和验证在Java中单元测试的最小单元是类通过编写针对类或方法的小段代码来检验被测代码是否符合预期结果或行为执行单元测试可以帮助开发者验证代码是否正确实现了功能需求以及是否能够适应应用环
Log4j2之JNDI注入（CVE-2021-44228）

前言首先要了解什么是Log4j2 Log4j2是一个Java日志组件主要用于对日志的记录这次漏洞出现在Log4j2的Lookup功能使用Lookup可以在日志中添加动态的值这些变量可以是外部环境变量也可以是MDC中的变量还可以
海量数据库（详解缓存处理方法）

缓存处理大数据缓存就是将从数据库中获取的结果暂时保存起来在下次使用的时候无需重新到数据库中获取从而降低数据库的压力缓存的使用方式可以分为通过程序直接将数据库数据保存到内存中和使用缓存框架两种方式它主要用于数据变化不是很频繁的情况而
OR36 链表的回文结构

OR36 链表的回文结构较难通过率 29 47 时间限制 3秒空间限制 32M 知识点链表栈描述对于一个链表请设计一个时间复杂度为O n 额外空间复杂度为O 1 的算法判断其是否为回文结构给定一个链表的头指针A 请返回一个
python中抽象类和抽象方法_在Python中定义和使用抽象类及抽象方法抽象属性

原文链接 http www jb51 net article 87710 htm 本文根据自己的理解和思考对原文略有改动 Python中我们可以使用abc模块来构建抽象类在讲抽象类之前先说下抽象方法的实现抽象方法是基类中定义的方法
【MMDet Note】MMDetection中Neck之FPN代码理解与解读

文章目录前言一总概二代码解读 1 FPN类 2 def forward 总结前言 mmdetection mmdet models necks fpn py中FPN类的个人理解与解读一总概本文以mmdetection co