语义分割模型

2023-11-14

1.FCN

（1）通道数 21 的特征层，21 = 数据集类数20 + 背景1，每一个像素有21个通道，对21个通道进行softmax回归，之后就可以获得每一个像素的每一个类别的预测概率，因为可以确认像素概率最大的那一类。

在这里插入图片描述

（2）CNN中的最后通过全连接层，输出为一个一维向量，在每一个通道中显示这张图片对应每种类别的概率。然而在在FCN中，最后输出是一个二维数据，可以去看到每一个像素的信息。那么是如何将全连接层转换成卷积层？

因为参数数量一致（下图计算），所以将全连接层的每一个节点对应的权重进行reshape，就可以给卷积层来使用了。

（3）上采样有三种方式：双插值，反卷积，反池化三种

2.Unet

（1）采用了与FCN不同的特征融合机制，concat（类似于yolov3的特征融合）

（2）引用了overlap-tile策略

https://blog.csdn.net/soaring_casia/article/details/110677745?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167204606516800213020617%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167204606516800213020617&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-110677745-null-null.142^v68^pc_rank_34_queryrelevant25,201^v4^add_ask,213^v2^t3_esquery_v3&utm_term=overlap-tile%E7%AD%96%E7%95%A5%E5%AE%9E%E7%8E%B0&spm=1018.2226.3001.4187

（3）overlap-tile策略讲解引用于这篇帖子

（4）随机弹性变形进行数据增强

（5）采用了加权交叉熵

3.Segnet

（1）将最大池化指数转移至解码器中，也就是保留了池化层提取参数的位置信息，在反池化层时复原到对应位置上（其他位置补0）

4.Multi-Scale Context Aggregation by Dilated Convolutions

（1）使用了空洞卷积，这是一种可用于密集预测的卷积层;

（2）提出在多尺度聚集条件下使用空洞卷积的“背景模块”。

（3）在vgg网络的基础上，用空洞卷积来替换vgg中的下采样层，来做到维持图片的尺寸。空洞卷积层在不降低空间维度的前提下增大了相应的感受野指数。

（4）当连续使用空洞卷积时，应该怎么设计每一层空洞卷积的膨胀系数（r）

参考论文：Hybrid Dilated Convolution（HDC）

5.DeepLab（V1&V2）

（1）引入了条件随机场（CRF），利用像素间的关系来增加分类准确率

（2）ASPP是由空洞卷积（Atrous/Dilated Convolution）组成。如果想要对图片提取的特征具有较大的感受野，并且又想让特征图的分辨率不下降太多（分辨率损失太多会丢失许多关于图像边界的细节信息），这两个是矛盾的，想要获取较大感受野需要用较大的卷积核或池化时采用较大的strid，对于前者计算量太大，后者会损失分辨率。而空洞卷积就是用来解决这个矛盾的。即可让其获得较大感受野，又可让分辨率不损失太多。

6.Refinenet

（1）精心设计过的编码器-解码器

编码器：下采样使用了Resnet残差网络来进行特征提取

解码器：使用方向相反的残差网络进行解码来进行特征的恢复以及图片尺寸的放大

（2）Refinenet总的说就是一种新的特征融合结构

7.Pspnet

（1）PPM模块，先对resnet提取的特征图池化下采样成几种不同尺寸，之后通过卷积或者双插值上采样，再进行特征融合

（2）在resnet中加入了辅助损失（auxiliary loss），为了解决反向传播不能传递到浅层

8.GCN

（1）文章提出的GCN,兼顾分类和定位

（2）大维卷积核的使用来保留原图中的位置信息

9.DeepLab（V3）

（1）改进了ASPP模块

（2）实验验证了每一个新增block的膨胀率的最佳取值范围

10.Encnet

（1）加入了背景先验知识，本文提出了上下文编码模块(Context Encoding Module)引入全局上下文信息(global contextual information)，用于捕获场景的上下文语义并选择性的突出与类别相关的特征图。

（2）类似与Se-net（即插即用的注意力机制）：很多成果通过在空间维度上对网络的性能进行了提升。但是，SENet反其道而行之，通过对通道关系进行建模来提升网络的性能。

11.DenseASPP

（1）densenet + ASPP

12.Understand Convolution for Semantic Segmentation

（1）DUC

（2）HDC

13.Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation（Deeplab v3+）

（1）融合了ASPP和Encoder-decoder

（2）将Xception模型用于分割任务，并将深度可分离卷积应用于ASPP模块和解码器模块，从而产生更快更强的编码器 - 解码器网络。

Xception就是极致的Inception v3，相当于分层吃汉堡

每一个Separable Conv都是一次Xception结构

14.DFANet

（1）提出的深度特征聚合网络

（2）作者将Xception网络修改为backbone结构。为了追求更高的准确性，在backbone末端添加了一个基于注意力机制的全连接模块，以保留最大的感受野

15.DANet

（1）双注意力机制网络，融合空间与通道特征，以增强场景分割的特征表示的判别能力。

（2）分别对空间维度和通道维度上的语义依赖关系进行建模

16.Auto Deeplab

（1）将NAS（神经架构搜索）扩展到图像分类到密集图像预测之间，通过强化学习来由机器学习确定部分网络架构。

17.Apcnet（暂）

（1）上下文信息+全局信息

（2）自适应大概意思就是为每一个通道或者像素给以不同的权重，来影响它们的分类结果

18.CANet（暂）

（1）小样本的图像分割网络

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

深度学习