(CVPR2019)图像语义分割(18) DANet-集成双路注意力机制的场景分割网络

2023-11-02

论文地址: Dual Attention Network for Scene Segmentation
工程地址:github链接

1. 介绍

  该论文提出新型的场景分割网络DANet,利用自注意力机制进行丰富语义信息的捕获,在带有空洞卷积的FCN架构的尾部添加两个并行的注意力模块:位置注意力模块和通道注意力模块,论文在Cityscapes,PASCAL Context和COCO数据集上都取得了SOTA效果。
  具体地在位置注意力模块中,任一位置的特征的更新是通过图像所有位置上特征的带权聚合进行更新,权重是由两个位置上特征的相似性决定的,也就是说无论两个位置的距离只要他们的特征相似那么就能得到更高的权重。
  通道注意力模块中也应用了相似的自注意力机制来学习任意两个通道映射之间的关系,同样通过所有通道的带权加和来更新某一个通道。

2. 双路注意力网络

  DANet的整体框架如下图所示,对ResNet进行变形,移除最后两个模块的下采样后应用空洞卷积,得到一个输出特征图,尺寸为输入图像的1/8,然后这个输出特征图分别输入给两个注意力模块中以捕获全局(long-range)语义信息[像素点之间建立的某种联系]。在位置注意力模块中,首先生成一个位置注意力矩阵用于对任意两个点之间的关系建模,接着注意力矩阵与特征矩阵进行矩阵乘法,然后对相乘结果和原始特征矩阵进行逐元素的加法得到最终对全局语义具有一定表征能力的结果。通道注意力模块的操作相似,只不过乘法实在通道维度进行计算。最终将两个模块的结果进行聚合得到一个更好的表征结果已进行接下来的逐像素预测。
在这里插入图片描述

2.1 位置注意力模块

  对于场景理解具有判别力的特征表示是关键的,位置注意力模块通过编码更广范围的语义信息到局部感受野中以增强特征图表示能力,论文这一节就详细描述了该模块是怎样逐步聚合位置语义的过程。

  如上图所示,给定一个特征 A ∈ R C × H × W A \in R^{C \times H \times W} ARC×H×W,然后经过一个带有BN层和ReLU层的卷积操作得到两个新的特征B,C,其中{ B , C B,C B,C} ∈ R C × H × W \in R^{C \times H \times W} RC×H×W,然后将这两个特征reshape到 R C × N R^{C \times N} RC×N,其中 N = H × W N=H \times W N=H×W,然后在B和C的转置上应用一次矩阵乘法,之后应用softmax层计算位置注意力映射图 S ∈ R N × N S \in R^{N \times N} SRN×N,具体地,

s i j = e x p ( B i ⋅ C j ) ∑ i = 1 N e x p ( B i ⋅ C j ) s_{ij}=\frac{exp(B_i \cdot C_j)}{\sum^N_{i=1}exp(B_i \cdot C_j)} sij=i=1Nexp(BiCj)exp(BiCj)

  其中 s i j s_{ij} sij表示第 i i i个位置对第 j j j个位置的影响,两个位置的特征越相似对这个值的影响越大。
  同时将特征 A A A输入到一个带有BN层和ReLU层的卷积层产生另外一个特征图 D ∈ R C × H × W D \in R^{C \times H \times W} DRC×H×W,同样reshape到 R C × N R^{C \times N} RC×N,然后对D和S的转置应用一次矩阵乘法,reshape为 R C × H × W R^{C \times H \times W} RC×H×W,然后乘上一个因子 α \alpha α,与特征A进行一个逐元素的相加操作得到最终额的输出 E ∈ R C × H × W E \in R^{C \times H \times W} ERC×H×W,即:

E j = α ∑ i = 1 N ( s j i D i ) + A j E_j=\alpha \sum^{N}_{i=1}(s_{ji}D_i)+A_j Ej=αi=1N(sjiDi)+Aj

  其中 α \alpha α初始化为0然后逐渐学习,通过上面这个公式可以看出最终的特征E的每一个位置都是所有位置的特征和原始特征的带权加和得到,因此能够聚合全局语义信息。

2.2 通道注意力模块

  高层特征的每一个通道映射可以看做一个类别明确的响应并且不同的语义响应之间互相联系。通过获取不同通道映射之间的相互依赖性可以有效增强特征图对于特定语义的表征能力,因此设计该通道注意力模块。

  通道注意力模块如上图所示,与位置注意力模块不同的是,论文直接从原始特征 A ∈ R C × H × W A \in R^{C \times H \times W} ARC×H×W直接计算 X ∈ R C × C X \in R^{C \times C} XRC×C。首先对特征图A进行reshape操作至 R C × N R^{C \times N} RC×N,然后在A与A的转置上应用一次矩阵乘法,最终应用一个softmax层以获得通道注意力图 X ∈ R C × C X \in R^{C \times C} XRC×C,其中
x j i = e x p ( A i ⋅ A j ) ∑ i = 1 C e x p ( A i ⋅ A j ) x_{ji}=\frac{exp(A_i \cdot A_j)}{\sum ^C_{i=1}exp(A_i \cdot A_j)} xji=i=1Cexp(AiAj)exp(AiAj)

  其中 x j i x_{ji} xji表示了第i个通道对第j个通道的影响。之后论文对X的转置和A进行一次矩阵乘法然后reshape到 R C × H × W R^{C \times H \times W} RC×H×W,然后乘上一个因子 β \beta β,然后与原始特征A进行一个逐元素的加和操作得到最终的特征图 E ∈ R C × H × W E \in R^{C \times H \times W} ERC×H×W,具体地,

E j = β ∑ i = 1 C ( x j i A i ) + A j E_j=\beta \sum^{C}_{i=1}(x_{ji}A_i)+A_j Ej=βi=1C(xjiAi)+Aj

  同理, β \beta β初始化为0并且逐渐学习,上个公式表明最终输出的每个通道的特征都是所有通道的特征和原始特征图的带权加和,从而增强了通道特征图之间的全局语义依赖,最终增强了特征图的判别能力。

2.3 将注意力模块集成到网络中

  为了更好地利用两个注意模块的全局语义信息,论文将模块的输出经过一个卷积层后进行一个逐元素的加和实现特征融合,然后接一个卷积层得到最终的预测结果。

3. 实验结果

Cityscapes验证集上结果的可视化,从左到右,原始图像,两个不同位置点的子特征图,通道11和4的特征图,预测结果和groud truth

Cityscapes测试集上的mIoU和每个类别的结果

Pascal VOC 测试集结果

Pascal Context 测试集结果

COCO测试集结果


欢迎扫描二维码关注微信公众号 深度学习与数学   [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

(CVPR2019)图像语义分割(18) DANet-集成双路注意力机制的场景分割网络 的相关文章

  • Linux开发工具之项目自动化构建工具-make/Makefile

    make是一条命令 makefile是一个文件 两个搭配使用 完成项目自动化构建 makefile带来的好处就是自动化编译 一旦写好 只需要一个make命令 整个工程完全自动编 译 极大的提高了软件开发的效率 下面来看一个实例 在Makef
  • mysql 优化之索引视图和索引为何未调用

    如何判断语句运行速度的快慢呢 执行计划 在mysql中我们可以通过explain显示了mysql如何使用索引来处理select语句以及连接表 可以帮助选择更好的索引和写出更优化的查询语句 我们在查询mysql语句时经常会出现查询速度极其缓慢
  • 如何实现响应式(自适应)网页

    响应式网页 什么是响应式布局 为什么会造成布局混乱 META标签 相对度量 FLEX布局 宽高设置 媒体查询 替换元素 响应式框架 什么是响应式布局 响应式网页 Responsive Web RW 又称自适应网页 是一种网页设计布局 可以根
  • IP地址相关知识点

    IP地址 IP地址 网络部分 主机部分 32位 网络部分用来确定终端是不是在同一个网段 主机部分用来确定终端的容量大小 这个网段可容纳多少台 同一个部门主机应该确保其在一个网段 主机数量应该在你的主机容量的范围内 IP地址分为5类 A B
  • ceph-cursh规则实战及PGS unknown 问题处理

    问题描述 root ceph mon01 ceph s cluster id 92d4f66b 94a6 4c40 8941 734f3c44eb4f health HEALTH ERR 1 filesystem is offline 1

随机推荐

  • FFT(快速傅里叶变换)中频率和实际频率的关系

    一 四个名词 实际物理频率 角频率 圆周频率 归一化频率 数字频率 模拟频率 1 实际物理频率表示AD采集物理信号的频率 fs为采样频率 由奈奎斯特采样定理可以知道 fs必须 信号最高频率的2倍才不会发生信号混叠 因此fs能采样到的信号最高
  • Windows系统使用Docker安装Mysql配置详情步骤

    1 开始到结束的全部命令 1 拉去镜像 docker pull mysql 8 0 2 查看镜像 docker images 3 安装容器 lower case table names 1防止大小写错误 命令 docker run itd
  • 超详细的js知识树状图~数组、函数、对象

    前言 学习任何新知识 最重要的永远都是搭建属于自己的知识框架 随后学习的细碎知识点往框架里面填入 最后形成一棵属于自己的知识大树 本系列的博客专注更新总结好的思维导图 希望可以帮助大家快速理清知识结构 注意 本系列文章是拿来建立知识体系 知
  • redis与mysql的区别

    1 在类型上 mysql是关系型数据库 而redis是缓存数据库 2 在作用上 mysql用于持久化的存储数据到硬盘 而redis用于存储使用较为频繁的数据到缓存中 内存 redis用于存储使用较为频繁的数据到缓存中 读取速度快 3 mys
  • 不要错过项目汇报的合理时间

    http blog vsharing com itdays A908850 html 原创 不要错过项目汇报的合理时间 今天想谈谈项目管理中经常要写的项目汇报的问题 项目汇报可以是给老板看的 也可以是给用户看的 不管给谁看的 报告的及时性是
  • 上海万得信息技术 2014笔试题 性格测试 武汉

    看清前面的A B C D哦 后面19题开始都是D C B A 把选好的写下 看哪个选的多 最终就偏向什么性格 比如A选的最多就是A性格 1 关于人生观 我的内心其实是 A 希望能够有尽量多的人生体验 所以会有非常多样化的想法 B在小心合理的
  • 使用DBeaver加载自定义连接驱动jar

    使用DBeaver加载自定义驱动jar 点击数据库 驱动管理器 新建
  • C++ Vector用法(带例程)

    介绍 vector是可变大小数组的序列容器 vector是连续存储的 与数组存储相同 区别是大小是动态改变的 可随机访问 因此vector访问速度快 vector在末尾删除添加元素时相对高效 若在其他任意位置添加删除元素则效率更低 使用 1
  • Window系统下如何生成ssh key以及如何在码云中添加公钥

    前言 本篇文章是以window系统和码云为例讲解如何在window系统下生成ssh key 然后在码云中添加公钥 然后可以远程仓库的ssh地址克隆远程git仓库代码 一 首先在window下生成ssh key 1 首先要在我们的电脑下安装g
  • 码字必备:18 款优秀的 Markdown 写作工具

    现在是 2015 年底 自 2004 年 John Gruber1创造 Markdown 语言以来 已经过去了 11 年 在这 11 年里 Markdown 语言从程序员圈子中逐渐扩散开来 成为了越来越多的电脑写作者第一选择 随着使用人群的
  • go-zero&go web集成redis实战

    前言 上一篇 go zero go web集成JWT和cobra命令行工具实战 从零开始基于go zero搭建go web项目实战 03集成redis实战 源码仓库地址 源码 https gitee com li zheng treasur
  • 请确保在bios菜单中启用了磁盘的控制器

    进入 BIOSS 然后看看 启动里面是不是把硬盘启动关了 是的话 打开就好了
  • 目标检测入门:帧差法,光流法和背景减法

    概述 运动目标检测是指当监控场景中有活动目标时 采用图像分割的方法从背景图像中提取出目标的运动区域 运动目标检测技术是智能视频分析的基础 因为目标跟踪 行为理解等视频分析算法都是针对目标区域的像素点进行的 目标检测的结果直接决定着智能视觉监
  • C语言-位段详解

    1 位段的定义 位段是定义结构体 或联合体 中的成员变量所占的空间 单位是bit 含有位段的结构体 联合体 称为位段结构 2 位段的意义 能够节省空间 比如性别 2个bit位可以表示2 2 4种可能性 不需要一个整形32个bit位 3 位段
  • idea中快捷键Ctrl+Shift+F冲突

    Ctrl Shift F在idea中的作用是全文或全项目搜索某个词的使用 windows系统自带的微软输入法中简繁体切换的快捷键也是Ctrl Shift F 会导致冲突 如果对简繁体切换需求没那么大 建议将输入法的快捷键关闭 具体操作为 在
  • 三阶矩阵求特征值的快速算法

    一般的三阶矩阵求特征值其实是解析不了的 因为特征方程对应的是三次方程 对于一般的三次方程 是很难求解的 要想方程有三个整数根 并且能够不用完全暴力展开三阶行列式这样的矩阵实际是很特殊的 1 某一行有两个0的情况是最好算的情况 分块上 下三角
  • 2023.7.13

    代码讲解01 PTA 7 38 等边三角形面积 数学基础对于程序设计能力而言很重要 对于等边三角形面积 请选择合适的方法计算之 输入格式 测试数据有多组 处理到文件尾 每组测试输入1个实数表示等边三角形的边长 输出格式 对于每组测试 在一行
  • 开源考试系统

    项目介绍 学之思开源考试系统是一款 java vue 的前后端分离的考试系统 主要优点是开发 部署简单快捷 界面设计友好 代码结构清晰 支持web端和微信小程序 能覆盖到pc机和手机等设备 支持多种部署方式 集成部署 前后端分离部署 doc
  • 为什么推荐编程初学者学习C(C++)/Python?

    人类走进信息化时代 掌握计算机编程是一项不错的技能 培养逻辑思维 解决现实中实际问题的能力 学会将计算机作为人类思想和能力的延展性工具 计算机行业寒冬 但AI和互联网仍然是未来发展的大趋势 学习C语言和Python的区别在哪 为什么选这俩
  • (CVPR2019)图像语义分割(18) DANet-集成双路注意力机制的场景分割网络

    论文地址 Dual Attention Network for Scene Segmentation 工程地址 github链接 1 介绍 该论文提出新型的场景分割网络DANet 利用自注意力机制进行丰富语义信息的捕获 在带有空洞卷积的FC