【语义分割】【SOTA】【NeuralPS 2022】SegNeXt Note

2023-10-28

Topic

我愿称之为国货之光,来自清华和南开的NeuralPS 2022 Paper
在这里插入图片描述

Abstract

  • 我们提出了一种简单的用于语义分割的卷积网络结构SegNeXt。由于自我注意在编码空间信息时的效率,最近的基于transform的模型已经主导了语义分割领域。
  • 在这篇文章中,我们证明了卷积注意是一种比自我注意机制efficient and effective编码背景信息的方式。通过重新检查成功的分割模型所具有的特征,我们发现了导致分割模型性能提高的几个关键因素。这促使我们设计一种使用廉价卷积运算的新型卷积注意网络。在没有花哨的情况下,我们的SegNeXt显著提高了以前最先进的方法在流行基准上的性能,包括ADE20K、CITYSPEES、Coco-Stuff、Pascal VOC、Pascal Context和ISAID。
  • 值得注意的是,SegNeXt的性能超过了使用NAS-FPN的EfficientNet-L2,并且仅使用其中1/10的参数就在Pascal VOC 2012测试排行榜上获得了90.6%的MIU.平均而言,在相同或更少的计算量下,SegNeXt在ADE20K数据集上比最先进的方法获得了约2.0%的Miou改进。
    在这里插入图片描述

Introduction

通过回顾以往成功的语义分割工作,我们总结了不同模型所具有的几个关键属性,如Tab所示。1.基于以上观察,我们认为一个成功的语义分割模型应该具备以下特征:(1)强大的骨干网络作为编码者。与以往基于CNN的模型相比,基于变压器的模型的性能提升大多来自于更强大的主干网络。(二)多尺度信息互动。与主要识别单个对象的图像分类任务不同,语义分割是一项密集的预测任务,因此需要处理单个图像中不同大小的对象。(三)空间注意力。空间注意力允许模型通过对语义区域内的区域进行优先排序来执行分割。(4)计算复杂度低。这在处理来自遥感和城市场景的高分辨率图像时尤其关键。
在考虑到上述分析的基础上,本文对卷积注意的设计进行了重新思考,并提出了一种高效的语义分割编解码器结构。不同于以前的基于变压器的模型使用解码器中的卷积作为特征提炼,我们的方法颠倒了变压器-卷积编解码器的体系结构。具体地说,对于编码器中的每个块,我们更新了传统卷积块的设计,并利用多尺度卷积特征通过遵循VAN的简单的逐元素乘法来引起空间注意。我们发现,这种建立空间注意的简单方法在空间信息编码中比标准卷积和自我注意都更有效。对于解码器,我们收集了不同阶段的多层特征,并使用Hamburger[Is Attention Better Than Matrix Decomposition]进一步提取全局上下文。在这种情况下,我们的方法可以从局部到全局获得多尺度上下文,在空间和通道维度上实现自适应,从低层次到高层次聚合信息。
我们的网络,称为SegNeXt,除了译码部分外,主要由卷积运算组成,译码部分包含用于全局信息提取的基于分解的Hamburger模块21。这使得我们的SegNeXt比以前严重依赖转换器的分割方法效率高得多。如图1所示,SegNeXt的性能明显优于目前基于变压器的方法。特别是,在处理城市景观数据集中的高分辨率城市场景时,我们的SegNeXt-S的性能优于SegFormer-B2(81.3%比81.0%),只需要大约1/6(124.6G比717.1G)的计算成本和1/2的参数(13.9M比27.6M)。
贡献可以概括如下:

  • 我们确定了一个好的语义分割模型应该具备的特征,并提出了一种新的定制网络体系结构,称为SegNeXt,它通过多尺度卷积特征引起空间注意。
  • 我们证明了具有简单和廉价卷积的编码器仍然可以比视觉转换器执行得更好,特别是在处理对象细节时,而它需要的计算代价要小得多。
  • 我们的方法在包括ADE20K、CITYSCAPES、COCO-STUSH、PASCAL VOC、PASCAL CONTEXT和ISAID在内的各种切分基准上大幅提高了最新的语义切分方法的性能。
    在这里插入图片描述

Related Work

【Semantic Segmentation】
【Multi-Scale Networks】
【Attention Mechanisms】

Method

  • 我们的编码器采用金字塔结构,遵循了大多数前人的工作[80,5,19]。对于编码器的构建块,我们采用了类似于VIT[17,80]的结构,但不同的是,我们没有使用自我注意机制,而是设计了一种新颖的多尺度卷积注意(MSCA)模块。如图2(A)所示,MSCA包含三个部分:用于聚集本地信息的深度卷积,用于捕获多尺度上下文的多分支深度条带卷积,以及用于对不同通道之间的关系进行建模的1×1卷积。将1×1卷积的输出直接作为注意力权重,对MSCA的输入进行加权。
    在这里插入图片描述
    在这里插入图片描述
  • 在分割模型[80,96,5]中,编码器大多是在ImageNet数据集上进行预训练的。为了捕获高级语义,解码器通常是必需的,它被应用于编码器。在这项工作中,我们研究了三种简单的解码器结构,如图3所示。第一种结构,在SegFormer[80]中采用,是一种纯粹基于MLP的结构。第二种模式大多采用基于CNN的模式。在这种结构中,编码器的输出直接用作重型解码器头的输入,如ASPP[5]、PSP[94]和DANet[19]。最后一个是我们的SegNeXt中采用的结构。我们聚合了最后三个阶段的特征,并使用轻量级汉堡[21]来进一步模拟全球环境。结合我们强大的卷积编码器,我们发现使用轻量级解码器可以提高性能计算效率。与SegFormer不同的是,我们的解码器只接收来自最后三个阶段的特征,而SegFormer的解码器将阶段1到阶段4的特征聚合在一起。这是因为我们的SegNeXt是基于卷积的。阶段1中的功能包含太多低级信息,会影响性能。此外,第一阶段的运算会带来很大的计算开销。在我们的实验部分,我们将展示我们的卷积SegNeXt比最近最先进的基于变压器的SegFormer[80]和HRFormer[88]的性能要好得多。
    在这里插入图片描述

Experiments

  • 数据集。我们在包括ImageNet-1K[15]、ADE20K[98]、CITYSCAPES[13]、PASCAL VOC[18]、PASCAL CONTEXT[58]、Coco-Stuff[3]和iSAID[76]在内的七个流行数据集上对我们的方法进行了评估。ImageNet[15]是最知名的影像分类数据集
    在这里插入图片描述
  • Encoder Performance on ImageNet在这里插入图片描述
  • Ablation Study
    在这里插入图片描述
  • 解码结构
    在这里插入图片描述
    在这里插入图片描述
  • Comparison with state-of-the-art methods
    在这里插入图片描述

Conclusion and Discussion

在本文中,我们分析了以往成功的分割模型,找出了它们所具有的良好特性。基于这些发现,我们提出了一个定制的卷积注意模块MSCA和一个CNN风格的网络SegNeXt。实验结果表明,SegNeXt在很大程度上超过了目前最先进的基于变压器的方法。最近,基于变压器的模型主导了各种细分市场排行榜。相反,本文表明,当使用适当的设计时,基于CNN的方法仍然可以比基于变压器的方法执行得更好。我们希望这篇论文能够鼓励研究人员进一步研究CNN的潜力。
在这里插入图片描述

Self-Evaluation

时代在进步,华人的成就也在进步,希望未来能有更多的华人作者出现

但这篇paper的代码是融合了MMSegmentation,使用源码还需大家仔细学习

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【语义分割】【SOTA】【NeuralPS 2022】SegNeXt Note 的相关文章

  • S281 LoRa网关在智能电力监测系统中的应用

    随着能源消耗的增加和环境保护的要求 智能电力监测系统在电力行业得到了广泛的应用 作为一家领先的科技公司 钡铼技术有限公司推出的S281 LoRa网关为智能电力监测系统提供了强大的支持和解决方案 本文将重点介绍S281 LoRa网关在智能电力
  • 请求各位大佬帮助,请问qt项目能调用卷积神经网络进行训练模型嘛?

    qt项目想调MobileNetV3网络进行训练模型 得到权重文件 能实现嘛
  • 通过一个寒假能学会黑客技术吗?看完你就知道了

    一个寒假能成为黑客吗 资深白帽子来告诉你 如果你想的是学完去美国五角大楼内网随意溜达几圈 想顺走一点机密文件的话 劝你还是趁早放弃 但是成为一名初级黑客还是绰绰有余的 你只需要掌握好渗透测试 Web安全 数据库 搞懂web安全防护 SQL注
  • 广告竞价策略:激发广告变现潜能的关键

    在数字化时代 广告已经成为企业推广品牌 产品和服务的关键手段之一 为了最大程度地发挥广告的效果 广告竞价策略成为广告主和数字营销专业人士关注的焦点 通过巧妙运用竞价策略 广告主可以在激烈的市场竞争中脱颖而出 实现广告变现的潜能 admaoy
  • 网络空间安全女生就业,怎么学?

    我实验室的学长们基本都是以红队和复现为主 如果学校好点可能还有更多的选择 如果想在这个方向深入下去 推荐流程是先打两年CTF 把大概的技术方向摸一摸 大一的话 如果学校还不错 那就优先建议打好基础 包括C语言 Python一类 建议把CTF
  • 概述:利用大模型 (LLMs) 解决信息抽取任务

    论文标题 Large Language Models for Generative Information Extraction A Survey 论文链接 https arxiv org pdf 2312 17617 pdf 论文主要探讨
  • 白帽子如何快速挖到人生的第一个漏洞 | 购物站点挖掘商城漏洞

    本文针对人群 很多朋友们接触安全都是通过书籍 网上流传的PDF 亦或是通过论坛里的文章 但可能经过了这样一段时间的学习 了解了一些常见漏洞的原理之后 对于漏洞挖掘还不是很清楚 甚至不明白如何下手 可能你通过 sql labs 初步掌握了sq
  • 2024年金三银四网络安全考试试题

    2023年金三银四网络安全考试试题 1 关于数据使用说法错误的是 A 在知识分享 案例中如涉及客户网络数据 应取敏感化 不得直接使用 B 在公开场合 公共媒体等谈论 传播或发布客户网络中的数据 需获得客户书面授权或取敏感化 公开渠道获得的除
  • Python爬虫实战:IP代理池助你突破限制,高效采集数据

    当今互联网环境中 为了应对反爬虫 匿名访问或绕过某些地域限制等需求 IP代理池成为了一种常用的解决方案 IP代理池是一个包含多个可用代理IP地址的集合 可以通过该代理池随机选择可用IP地址来进行网络请求 IP代理池是一组可用的代理IP地址
  • 「网络安全渗透」如果你还不懂CSRF?这一篇让你彻底掌握

    1 什么是 CSRF 面试的时候的著名问题 谈一谈你对 CSRF 与 SSRF 区别的看法 这个问题 如果我们用非常通俗的语言讲的话 CSRF 更像是钓鱼的举动 是用户攻击用户的 而对于 SSRF 来说 是由服务器发出请求 用户 日 服务器
  • 用通俗易懂的方式讲解:内容讲解+代码案例,轻松掌握大模型应用框架 LangChain

    本文介绍了 LangChain 框架 它能够将大型语言模型与其他计算或知识来源相结合 从而实现功能更加强大的应用 接着 对LangChain的关键概念进行了详细说明 并基于该框架进行了一些案例尝试 旨在帮助读者更轻松地理解 LangChai
  • 【网安神器篇】——WPScan漏洞扫描工具

    目录 一 Wordpress简介 二 WPScan介绍 三 安装 四 获取token 1 注册账号 2 拿到token 五 使用教程 1 常用选项 2 组合命令 1 模糊扫描 2 指定扫描用户 3 插件漏洞扫描 4 主题漏洞扫描 5 Tim
  • 基于java的物业管理系统设计与实现

    基于java的物业管理系统设计与实现 I 引言 A 研究背景和动机 物业管理系统是指对物业进行管理和服务的系统 该系统需要具备对物业信息 人员信息 财务信息等进行管理的能力 基于Java的物业管理系统设计与实现的研究背景和动机主要体现在以下
  • 揭秘网络世界的幕后密码——Wireshark网络协议分析软件

    在我们日常生活中 计算机和互联网已经成为不可或缺的一部分 然而 很少有人真正了解网络背后复杂的工作原理和通信协议 幸运的是 有一款强大而实用的软件 Wireshark 可以帮助我们深入了解网络世界的幕后密码 Wireshark是一款免费的网
  • 网络安全基础知识面试题库

    1 基于路由器的攻击手段 1 1 源IP地址欺骗式攻击 入侵者从外部传输一个伪装成来自内部主机的数据包 数据包的IP是 内网的合法IP 对策 丢弃所有来自路由器外端口 却使用内部源地址的数据包 1 2 源路由攻击 入侵者让数据包循着一个不可
  • tcpdump抓包

    tcpdump抓包 基本概念 1 类型的关键字 host 指明一台主机 如 host 10 1 110 110 net 指明一个网络地址 如 net 10 1 0 0 port 指明端口号 如 port 8090 2 确定方向的关键字 sr
  • 短信系统搭建主要因素|网页短信平台开发源码

    短信系统搭建主要因素 网页短信平台开发源码 随着移动互联网的快速发展 短信系统已成为企业和个人进行信息传递的重要工具 建立一个高效可靠的短信系统对于企业来说非常重要 下面我们将介绍一些影响短信系统搭建的主要因素 1 平台选择 在搭建短信系统
  • 3D点云检测神技 | UFO来了!让PointPillars、PV-RCNN统统涨点!

    作者 AI驾驶员 编辑 智驾实验室 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 3D目标检测 技术交流群 本文只做学术分享 如有侵权 联系删文 在这篇论文中提出了一个关于在3D点云中检测未
  • 静态综合实验

    1 IP地址划分 192 168 1 0 27 用于主干拆分 192 168 1 32 27 用于用户拆分 192 168 1 64 27 用于用户拆分 192 168 1 96 27 用于用户拆分 192 168 1 128 27 用于用
  • 深度学习(5)--Keras实战

    一 Keras基础概念 Keras是深度学习中的一个神经网络框架 是一个高级神经网络API 用Python编写 可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计 用户友好性 模块化和可扩

随机推荐

  • 搭建zerotier planet服务

    安装 CentOS 7 确保已经安装了 CentOS 7 更新系统 sudo yum update 安装 ZeroTier curl s https install zerotier com sudo bash 启动和启用 ZeroTier
  • 【会议分享】2022年第四届自动化 机械与设计工程国际研讨会(SAMDE 2022)

    2022年第四届自动化 机械与设计工程国际研讨会 SAMDE 2022 会议网站 http www samde org 会议日期 2022年12月16 18日 召开地点 北京 截稿时间 2022年11月10日 录用通知 投稿后2周 收录检索
  • typora使用CSDN图床更新版(2022/8/8)

    文章目录 2022 11 24更新 前言 代码 运行截图 更新说明 使用方法 注意事项 授人以鱼不如授人以渔 2022 11 24更新 由于csdn部分接口的变化 导致程序中用于判断用户登录的函数报错 现进行代码更新 经测试目前可以正常运行
  • Through-ui自动化 uiautomator2

    下载Termux Termux 是一个 Android 下一个高级的终端模拟器 开源且不需要 root 支持 apt 管理软件包 十分方便安装软件包 完美支持 Python PHP Ruby Nodejs MySQL等 随着智能设备的普及和
  • Django-使用pycharm或命令行创建一个demo

    使用pycharm 进行Django的开发 默认已经配置好了python解释器等一系列相关的python开发环境 可使用cmd 进行检查 python pip 新建一个Django项目 这里没使用虚拟环境 create生成项目 默认的目录结
  • Windows10蓝牙突然消失不见(设置中蓝牙开关键消失)

    问题 Windows10蓝牙突然消失不见 设置中蓝牙开关键消失 电脑使用途中突然发现蓝牙突然消失不见 设置中蓝牙开关键消失 点击添加蓝牙设备显示蓝牙已关闭 提示更新驱动程序 在windows更新中更新后 重启电脑 出现 1 蓝牙图标恢复正常
  • vue前端-时间戳转换成日期格式/日期转换成时间戳

    一 日期转换成时间戳 new Date getTime 当前时间 变成时间戳 new Date res data beginTime getTime 获取到的时间转化成时间格式 再变成时间戳 二 时间戳转换成日期格式 1 安装 npm in
  • unity 拖拽UI

    我们经常会使用拖拽UI的效果 untiy 为拖拽事件也提供了现成的API 我们只要简单的实现几个接口即可 我们用两种方式来实现拖拽代码 一种是使用MonoBehaviour里的方法 一种是实现UI事件接口 但不论是那种方法 拖拽的逻辑都是没
  • java gc的几种方式_GC 的三种基本实现方式

    参考资料 代码的未来 作者 日 松本行弘 由于并非本人原著 我只是个 搬运工 SO 未经本人允许请尽情转载 另外个人像说明一下这里所说的GC指泛指垃圾回收机制 而单指Java或其他某种特定语言中的GC 可能具体语言中实现的垃圾回收实现机制会
  • Android手机指纹驱动工作原理

    1 TrustZone 1 1 基本概念 支持TrustZone的ARM每个外设控制线多了一根NS Non Secure NS位1时表示是非安全世界访问 譬如Android TrustZone就是将一个物理处理器分时复用为两个逻辑处理器 一
  • ESP8266 NodeMCU 使用 OLED 显示屏显示 IP 地址

    文章目录 前言 所用器件型号 开发环境搭建 安装 ESP8266 NodeMCU开发板驱动 安装 Arduino ESP8266包 安装 Arduino U8g2 库 U8g2 库介绍 安装 U8g2 连线 NodeMCU引脚说明 接线 测
  • Qt

    Qt QDialogButtonBox使用示例 1 简介 QDialogButtonBox类 该类包含很多按钮控件 在窗体 widget 或者对话框 dialog 有多个按钮的时候 为方便管理就可以使用该类成组进行管理 当然也可以自行将按钮
  • Rocketmq发送顺序消息

    要想保证消息的顺序性 要保证将需要保证顺序的消息按照顺序投递进一个队列中 下面演示rocketTemplate发送顺序消息 RestController RequestMapping demo public class SendContro
  • 矩阵的行列式的计算-余子式

    在n阶行列式中 把元素aij所在的第i行和第j列划去 留下来的n 1阶行列式叫做元素aij的余子式 记作Mij 令Aij 1 i jMij 并称之为aij的代数余子式 例如 四阶行列式 a11 a12 a13 a14 a21 a22 a23
  • 408知识点-计算机网络

    计算机网络 408系列参考王道2021系列书籍 文章目录 计算机网络 前言 绪论 物理层 数据链路层 网络层 传输层 应用层 总结 前言 今天正式放假 虽然已经咸鱼了三周了 考研初试结束 把我记在我的笔记本上的东西搬上来分享一下 里面有一些
  • Java21天打卡Day7-循环

    public class Day7 循环语句 while do while for 题目1 求1 100之和 题目2 嵌套循环 在控制台输出九九乘法表 public static void main String args int sum
  • STM32-学习入门

    软件环境 MDK ARM http www myir tech com download asp Jlink驱动 https download csdn net download lblmlms 12332349 串口助手 https do
  • JavaWeb项目创建和Tomcat配置

    1 Javaweb项目创建 2 Tomcat配置 点击File gt New gt Project 点击Java Enterprise gt 勾选Web Application 输入项目名称 创建后的项目目录 在src目录下创建包 serv
  • 分页存储管理

    连续分配方式会形成许多 碎片 如果允许一个进程直接分散地装入到许多不相邻接的分区中 便可充分地利用内存空间 所以产生了离散的分配方式 根据离散时分配地址空间的基本单位不同 可分为三种 这里我们只讲解分页存储管理 1 页面和物理块 1 页面
  • 【语义分割】【SOTA】【NeuralPS 2022】SegNeXt Note

    Topic 我愿称之为国货之光 来自清华和南开的NeuralPS 2022 Paper Abstract 我们提出了一种简单的用于语义分割的卷积网络结构SegNeXt 由于自我注意在编码空间信息时的效率 最近的基于transform的模型已