语义分割模型

2023-11-14

1.FCN

(1)通道数 21 的特征层,21 = 数据集类数20 + 背景1,每一个像素有21个通道,对21个通道进行softmax回归,之后就可以获得每一个像素的每一个类别的预测概率,因为可以确认像素概率最大的那一类。

在这里插入图片描述

在这里插入图片描述

(2)CNN中的最后通过全连接层,输出为一个一维向量,在每一个通道中显示这张图片对应每种类别的概率。然而在在FCN中,最后输出是一个二维数据,可以去看到每一个像素的信息。那么是如何将全连接层转换成卷积层?

         因为参数数量一致(下图计算),所以将全连接层的每一个节点对应的权重进行reshape,就可以给卷积层来使用了。

(3)上采样有三种方式:双插值,反卷积,反池化三种

2.Unet

(1)采用了与FCN不同的特征融合机制,concat(类似于yolov3的特征融合)

(2)引用了overlap-tile策略

https://blog.csdn.net/soaring_casia/article/details/110677745?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522167204606516800213020617%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=167204606516800213020617&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-110677745-null-null.142^v68^pc_rank_34_queryrelevant25,201^v4^add_ask,213^v2^t3_esquery_v3&utm_term=overlap-tile%E7%AD%96%E7%95%A5%E5%AE%9E%E7%8E%B0&spm=1018.2226.3001.4187

(3)overlap-tile策略讲解引用于这篇帖子

(4)随机弹性变形进行数据增强

(5)采用了加权交叉熵

3.Segnet

(1)将最大池化指数转移至解码器中,也就是保留了池化层提取参数的位置信息,在反池化层时复原到对应位置上(其他位置补0)

 4.Multi-Scale Context Aggregation by Dilated Convolutions

(1)使用了空洞卷积,这是一种可用于密集预测的卷积层;

(2)提出在多尺度聚集条件下使用空洞卷积的“背景模块”。

(3)在vgg网络的基础上,用空洞卷积来替换vgg中的下采样层,来做到维持图片的尺寸。空洞卷积层在不降低空间维度的前提下增大了相应的感受野指数。

(4)当连续使用空洞卷积时,应该怎么设计每一层空洞卷积的膨胀系数(r)

         参考论文:Hybrid Dilated Convolution(HDC)

5.DeepLab(V1&V2)

(1)引入了条件随机场(CRF),利用像素间的关系来增加分类准确率

(2)ASPP是由空洞卷积(Atrous/Dilated Convolution)组成。如果想要对图片提取的特征具有较大的感受野,并且又想让特征图的分辨率不下降太多(分辨率损失太多会丢失许多关于图像边界的细节信息),这两个是矛盾的,想要获取较大感受野需要用较大的卷积核或池化时采用较大的strid,对于前者计算量太大,后者会损失分辨率。而空洞卷积就是用来解决这个矛盾的。即可让其获得较大感受野,又可让分辨率不损失太多。

6.Refinenet

(1)精心设计过的编码器-解码器

         编码器:下采样使用了Resnet残差网络来进行特征提取

         解码器:使用方向相反的残差网络进行解码来进行特征的恢复以及图片尺寸的放大

(2)Refinenet总的说就是一种新的特征融合结构

7.Pspnet

(1)PPM模块,先对resnet提取的特征图池化下采样成几种不同尺寸,之后通过卷积或者双插值上采样,再进行特征融合

(2)在resnet中加入了辅助损失(auxiliary loss),为了解决反向传播不能传递到浅层

8.GCN

(1)文章提出的GCN,兼顾分类和定位

(2)大维卷积核的使用来保留原图中的位置信息

9.DeepLab(V3)

(1)改进了ASPP模块

(2)实验验证了每一个新增block的膨胀率的最佳取值范围

10.Encnet

(1)加入了背景先验知识,本文提出了上下文编码模块(Context Encoding Module)引入全局上下文信息(global contextual information),用于捕获场景的上下文语义并选择性的突出与类别相关的特征图。

(2)类似与Se-net(即插即用的注意力机制):很多成果通过在空间维度上对网络的性能进行了提升。但是,SENet反其道而行之,通过对通道关系进行建模来提升网络的性能。

11.DenseASPP

(1)densenet  + ASPP

12.Understand Convolution for Semantic Segmentation

(1)DUC

 

(2)HDC

13.Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation(Deeplab v3+)

(1)融合了ASPP和Encoder-decoder

(2)将Xception模型用于分割任务,并将深度可分离卷积应用于ASPP模块和解码器模块,从而产生更快更强的编码器 - 解码器网络。

         Xception就是极致的Inception v3,相当于分层吃汉堡

      每一个Separable Conv都是一次Xception结构

14.DFANet

(1)提出的深度特征聚合网络

(2)作者将Xception网络修改为backbone结构。为了追求更高的准确性,在backbone末端添加了一个基于注意力机制的全连接模块,以保留最大的感受野

15.DANet

(1)双注意力机制网络,融合空间与通道特征,以增强场景分割的特征表示的判别能力。

(2)分别对空间维度和通道维度上的语义依赖关系进行建模

16.Auto Deeplab

(1)将NAS(神经架构搜索)扩展到图像分类到密集图像预测之间,通过强化学习来由机器学习确定部分网络架构。

17.Apcnet(暂)

(1)上下文信息+全局信息

(2)自适应大概意思就是为每一个通道或者像素给以不同的权重,来影响它们的分类结果

18.CANet(暂)

(1)小样本的图像分割网络

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

语义分割模型 的相关文章

随机推荐

  • JavaScript 判断空对象空数组

    JavaScript 判断空对象空数组 一 为什么判断空数组空对象会比较麻烦 二 判断空数组的方法 三 判定空对象的方法 四 一个判断参数为空的函数封装 来源 https www jianshu com p cadcbab793d7 我们判
  • ADAS的八大系统

    简述 ADAS Advanced Driving Assistant System 即高级驾驶辅助系统 ADAS 是利用安装于车上的各式各样的传感器 在第一时间收集车内外的环境数据 进行静 动态物体的辨识 侦测与追踪等技术上的处理 从而能够
  • Windows编程基础--第2节 win32程序资源管理

    操作系统 win10 64位 IDE vc 6 0 windows程序都有自己的资源 例如按钮 图标 对话框等等 这节介绍如何使用win32程序资源管理 1 继续使用上节的win32程序demo 执行File gt new添加资源 选择Fi
  • python爬虫返回403错误?加了请求头+代理也解决不了 >>看这

    一 问题分析 疑惑 使用python的requests库发起get或post请求返回403代码错误 使用postman发起请求发现状态码 lt 200 gt 竟然成功了 这是什么原因 首先排除ip问题 ip有问题的话postman也访问不了
  • 阿里技术副总裁贾扬清、微软 CTO 韦青重磅出席 AI 开发者大会!

    整理 夕颜 硬核 AI 技术大会 一年参加一次就够了 9 月 6日 7 日 2019 AI 开发者大会 AI ProCon 将在北京富力万丽酒店举行 人工智能领域技术领袖将再次齐聚一堂 共同探讨过去一年最新的 AI 技术趋势与变化 带你跟上
  • 【PytorchLearning】基于 UNet 的肺部影像语义分割案例保姆教程

    基于 UNet 的肺部影像分割 一般而言 计算机视觉领域包含三大主流任务 分类 检测 分割 其中 分类任务对模型的要求较为简单 在之前的Pytorch入门教程中已进行了较为详尽的介绍 有兴趣的小伙伴可以查看之前的博客 而检测和分割任务是比较
  • 一名全栈工程师的技术实践之路

    一 前言 1 1 什么是全栈 全栈开发是指开发人员掌握了前端 后端以及数据库等多个领域的知识和技能 能够独立完成整个项目的开发工作 在需求交付过程中 可以负责从项目的前期分析 设计到后期开发 测试 发布等整个过程 能够快速定位和解决问题 提
  • Graph 在项目中的实践

    前言 graph 图这种结构在项目中其实经常能够遇见 java 其实提供 jgrapht core 包来进行核心功能的实现 这里就使用jgrapht core 来对常见应用场景进行扩展 实现 1 引入依赖xml
  • Python爬虫 网页请求的异常处理

    网页请求的异常处理主要有两大类 urllib error URLError 用于捕获由urllib request产生的异常 使用reason属性返回错误原因 urllib error HTTPError 用于处理HTTP与HTTPS请求的
  • sql语句百万级千万级数据量分页

    在开发系统时难免会遇见分页的列表查询 针对小数据量我们可以查询的时间可以忽略不记 但针对百万级别千万级别的数据量时改怎么优化查询语句呢 该如果使用分页呢 下面总结几点 适量增加索引 在经常查询的字段上 尽量避免like in is null
  • Pycharm配置解释器(interpreter)

    关于pycharm编译器的解释器 网友朋友的分享 Pycharm配置 1 解释器 interpreter 详细了解PyCharm支持的4种Python Interpreter和配置方法 对大多数人而言就只需要 分清虚拟解释器和系统解释器 使
  • 二叉树采用二叉链表存储,求树的结点个数

    typedef struct BiTNode ElemType data struct BiTNode lchild rchild BiTNode BiTree void PrePrder BiTree T int num if T NUL
  • [leetcode 周赛 148] 1146 快照数组

    目录 1146 Snapshot Array 快照数组 描述 思路 代码实现 1146 Snapshot Array 快照数组 描述 实现支持下列接口的 快照数组 SnapshotArray SnapshotArray int length
  • nginx关于add_header的坑

    一 add header指令不会去重 nginx做反向代理时 如果后端返回的response中已经有该header头 则通过add header后会返回给客户端两个同样的header头 场景1 nginxA作为反向代理 nginxB作为we
  • 如何利用运营商大数据准确获取客户?

    在今天运营商的大数据准确捕捉客户的时代 我们似乎看到客户在我们面前若隐若现 但当我们伸手去抓他们时 我们发现他们很少 原因是什么 我们的客户之所以成为美丽的海市蜃楼 主要原因 还在于对客户的把握不够精准 什么是大数据准确性 大数据精准获客是
  • 【论文阅读】基于深度学习的时序异常检测——TimesNet

    系列文章链接 参考数据集讲解 数据基础 多维时序数据集简介 论文一 2022 Anomaly Transformer 异常分数预测 论文二 2022 TransAD 异常分数预测 论文三 2023 TimesNet 基于卷积的多任务模型 论
  • 线性相关与线性无关的定义与性质

    定义1 线性相关 K n K n K nK n Kn Kn 中向量组
  • Caffe训练过程:test_iter test_interval等概念

    转自 http blog csdn net iamzhangzhuping article details 49993899 先上一张图 大家很熟悉的一张图 首先说明一个概念 在caffe中的一次迭代iteration指的是一个batch
  • Webrtc从理论到实践六: Webrtc官方demo运行

    系列文章目录 Webrtc从理论到实践一 初识 Webrtc从理论到实践二 架构 Webrtc从理论到实践三 角色 Webrtc从理论到实践四 通信 Webrtc从理论到实践五 编译webrtc源码 文章目录 系列文章目录 操作步骤 总结
  • 语义分割模型

    1 FCN 1 通道数 21 的特征层 21 数据集类数20 背景1 每一个像素有21个通道 对21个通道进行softmax回归 之后就可以获得每一个像素的每一个类别的预测概率 因为可以确认像素概率最大的那一类 2 CNN中的最后通过全连接