【语义分割】【SOTA】【NeuralPS 2022】SegNeXt Note

2023-10-28

Topic

我愿称之为国货之光，来自清华和南开的NeuralPS 2022 Paper
在这里插入图片描述

Abstract

我们提出了一种简单的用于语义分割的卷积网络结构SegNeXt。由于自我注意在编码空间信息时的效率，最近的基于transform的模型已经主导了语义分割领域。
在这篇文章中，我们证明了卷积注意是一种比自我注意机制efficient and effective编码背景信息的方式。通过重新检查成功的分割模型所具有的特征，我们发现了导致分割模型性能提高的几个关键因素。这促使我们设计一种使用廉价卷积运算的新型卷积注意网络。在没有花哨的情况下，我们的SegNeXt显著提高了以前最先进的方法在流行基准上的性能，包括ADE20K、CITYSPEES、Coco-Stuff、Pascal VOC、Pascal Context和ISAID。
值得注意的是，SegNeXt的性能超过了使用NAS-FPN的EfficientNet-L2，并且仅使用其中1/10的参数就在Pascal VOC 2012测试排行榜上获得了90.6%的MIU.平均而言，在相同或更少的计算量下，SegNeXt在ADE20K数据集上比最先进的方法获得了约2.0%的Miou改进。

Introduction

通过回顾以往成功的语义分割工作，我们总结了不同模型所具有的几个关键属性，如Tab所示。1.基于以上观察，我们认为一个成功的语义分割模型应该具备以下特征：(1)强大的骨干网络作为编码者。与以往基于CNN的模型相比，基于变压器的模型的性能提升大多来自于更强大的主干网络。(二)多尺度信息互动。与主要识别单个对象的图像分类任务不同，语义分割是一项密集的预测任务，因此需要处理单个图像中不同大小的对象。(三)空间注意力。空间注意力允许模型通过对语义区域内的区域进行优先排序来执行分割。(4)计算复杂度低。这在处理来自遥感和城市场景的高分辨率图像时尤其关键。
在考虑到上述分析的基础上，本文对卷积注意的设计进行了重新思考，并提出了一种高效的语义分割编解码器结构。不同于以前的基于变压器的模型使用解码器中的卷积作为特征提炼，我们的方法颠倒了变压器-卷积编解码器的体系结构。具体地说，对于编码器中的每个块，我们更新了传统卷积块的设计，并利用多尺度卷积特征通过遵循VAN的简单的逐元素乘法来引起空间注意。我们发现，这种建立空间注意的简单方法在空间信息编码中比标准卷积和自我注意都更有效。对于解码器，我们收集了不同阶段的多层特征，并使用Hamburger[Is Attention Better Than Matrix Decomposition]进一步提取全局上下文。在这种情况下，我们的方法可以从局部到全局获得多尺度上下文，在空间和通道维度上实现自适应，从低层次到高层次聚合信息。
我们的网络，称为SegNeXt，除了译码部分外，主要由卷积运算组成，译码部分包含用于全局信息提取的基于分解的Hamburger模块21。这使得我们的SegNeXt比以前严重依赖转换器的分割方法效率高得多。如图1所示，SegNeXt的性能明显优于目前基于变压器的方法。特别是，在处理城市景观数据集中的高分辨率城市场景时，我们的SegNeXt-S的性能优于SegFormer-B2(81.3%比81.0%)，只需要大约1/6(124.6G比717.1G)的计算成本和1/2的参数(13.9M比27.6M)。
贡献可以概括如下：

我们确定了一个好的语义分割模型应该具备的特征，并提出了一种新的定制网络体系结构，称为SegNeXt，它通过多尺度卷积特征引起空间注意。
我们证明了具有简单和廉价卷积的编码器仍然可以比视觉转换器执行得更好，特别是在处理对象细节时，而它需要的计算代价要小得多。
我们的方法在包括ADE20K、CITYSCAPES、COCO-STUSH、PASCAL VOC、PASCAL CONTEXT和ISAID在内的各种切分基准上大幅提高了最新的语义切分方法的性能。

Related Work

【Semantic Segmentation】
【Multi-Scale Networks】
【Attention Mechanisms】

Method

我们的编码器采用金字塔结构，遵循了大多数前人的工作[80，5，19]。对于编码器的构建块，我们采用了类似于VIT[17，80]的结构，但不同的是，我们没有使用自我注意机制，而是设计了一种新颖的多尺度卷积注意(MSCA)模块。如图2(A)所示，MSCA包含三个部分：用于聚集本地信息的深度卷积，用于捕获多尺度上下文的多分支深度条带卷积，以及用于对不同通道之间的关系进行建模的1×1卷积。将1×1卷积的输出直接作为注意力权重，对MSCA的输入进行加权。
在分割模型[80，96，5]中，编码器大多是在ImageNet数据集上进行预训练的。为了捕获高级语义，解码器通常是必需的，它被应用于编码器。在这项工作中，我们研究了三种简单的解码器结构，如图3所示。第一种结构，在SegFormer[80]中采用，是一种纯粹基于MLP的结构。第二种模式大多采用基于CNN的模式。在这种结构中，编码器的输出直接用作重型解码器头的输入，如ASPP[5]、PSP[94]和DANet[19]。最后一个是我们的SegNeXt中采用的结构。我们聚合了最后三个阶段的特征，并使用轻量级汉堡[21]来进一步模拟全球环境。结合我们强大的卷积编码器，我们发现使用轻量级解码器可以提高性能计算效率。与SegFormer不同的是，我们的解码器只接收来自最后三个阶段的特征，而SegFormer的解码器将阶段1到阶段4的特征聚合在一起。这是因为我们的SegNeXt是基于卷积的。阶段1中的功能包含太多低级信息，会影响性能。此外，第一阶段的运算会带来很大的计算开销。在我们的实验部分，我们将展示我们的卷积SegNeXt比最近最先进的基于变压器的SegFormer[80]和HRFormer[88]的性能要好得多。

Experiments

数据集。我们在包括ImageNet-1K[15]、ADE20K[98]、CITYSCAPES[13]、PASCAL VOC[18]、PASCAL CONTEXT[58]、Coco-Stuff[3]和iSAID[76]在内的七个流行数据集上对我们的方法进行了评估。ImageNet[15]是最知名的影像分类数据集
Encoder Performance on ImageNet
Ablation Study
解码结构
Comparison with state-of-the-art methods

Conclusion and Discussion

在本文中，我们分析了以往成功的分割模型，找出了它们所具有的良好特性。基于这些发现，我们提出了一个定制的卷积注意模块MSCA和一个CNN风格的网络SegNeXt。实验结果表明，SegNeXt在很大程度上超过了目前最先进的基于变压器的方法。最近，基于变压器的模型主导了各种细分市场排行榜。相反，本文表明，当使用适当的设计时，基于CNN的方法仍然可以比基于变压器的方法执行得更好。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。
在这里插入图片描述

Self-Evaluation

时代在进步，华人的成就也在进步，希望未来能有更多的华人作者出现

但这篇paper的代码是融合了MMSegmentation，使用源码还需大家仔细学习

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)