[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

2023-11-06

论文:Attention-Guided Hierarchical Structure Aggregation for Image Matting
代码:wukaoliu/CVPR2020-HAttMatting

介绍

图像抠图是指从输入图像中精确估计前景的不透明度。图像抠图的逆过程是图像合成,合成方程如下:
在这里插入图片描述
其中:

  • z z z 指的是输入RGB图像 I I I 的像素位置
  • α z , F z , B z \alpha _z, F_z, B_z αz,Fz,Bz 分别是 z z z 处的 α \alpha α 估计,前景和背景

传统方法利用颜色分布来预测 α \alpha α,但当前景和背景颜色相近时,传统方法便不太适用。

Deep Image Matting(DIM)引入深度学习的方法,通过设计复杂的网络提取高级语义特征,并融合来自输入图像或低级CNN特征的外观线索,但这也依赖于trimaps作为辅助以及昂贵的输入。

本文对高级语义和外观线索进行了综合研究,提出了一种端到端的层次注意抠图网络(HAttMatting),实现了这种层次结构的聚合。高级语义可以提供FG类别和轮廓,而外观提示提供纹理和边界细节。为了更深入地整合这种层次结构,我们在高级语义上进行通道级关注,以选择适合于抠图的特征,并在外观线索上使用空间注意来过滤图像纹理细节,最后将其聚合以预测 α \alpha α 蒙版。此外,利用均方误差(MSE)、结构相似性(SSIM)和对抗性损失组成的混合损失来优化整个网络的训练。大量的实验表明,我们的注意力引导的层次结构聚合可以感知高质量的 a l p h a alpha alpha 蒙版,只需要RGB图像作为输入。
在这里插入图片描述

方法

概述

由式(1)可知,完整的目标FG应包括两部分:1)表示FG类别和轮廓的主体 ( α z = 1 ) (\alpha _z=1) αz=1;2)位于过渡区的内部纹理和边界细节 ( α z ∈ ( 0 , 1 ) ) (\alpha _z \in(0,1)) αz01。前者可以通过高级语义来表示,后者通常来自输入图像或CNN的低级特征,称为外观线索,它们的组合可以实现 α \alpha α 蒙版。在本文中,我们认为高级语义和外观线索在组合之前需要进行适当的处理。首先,自然图像抠图需要处理不同类型的FG对象,这就要求我们提取高级语义来处理FG信息,并对其进行适当的抑制以降低其对对象类的敏感性。第二,如图3所示,外观线索涉及不必要的背景细节,这些细节需要在 α \alpha α 蒙版中删除。
在这里插入图片描述
在以上分析的基础上,本研究的核心思想是选择适合于背景信息的语义信息,消除外观线索中冗余的BG纹理,然后对其进行聚合以预测 α \alpha α 蒙版。为此,我们采用通道注意提取从Atrous空间金字塔池(ASPP)中提取的高级语义,并对外观线索进行空间注意,同时消除FG之外的图像纹理细节。我们精心设计的层次注意机制可以从自适应语义和精细边界中感知FG结构,并且它们的聚合可以获得更好的 α \alpha α 蒙版。此外,我们结合均方误差(MSE)、结构相似性(SSIM)和对抗性损失,设计了一种混合损失来指导网络训练,分别负责像素级精度、结构一致性和视觉质量。

网络结构

在这里插入图片描述

整体网络设计

HAttMatting结构如图2所示,其使用ResNeXt作为主干网络,将block4中的高级特征图输入到ASSP中获得多尺度语义信息,使用block1中的低级特征图作为外观线索。HAttMatting使用通道注意提取金字塔特征,并对外观线索使用空间注意以抑制多余的背景细节,另外,使用PatchGAN的鉴别器网络提高 α \alpha α 蒙版的视觉质量。

金字塔特征提取

如图2所示,对金字塔特征使用因子为4的上采样,然后使用全局池化概括特征图,之后采用共享权重的多层感知机提取语义属性,然后用一个sigmoid层来计算通道向的注意力图,并将其乘以上采样的金字塔特征来实现语义提取。通道向的注意可以选择适合图像抠图的金字塔特征,并保留FG轮廓和类别属性。金字塔特征是从深层 ResNeXt 块中学习的,这是一种高度抽象的语义信息,因此我们需要外观线索来生成 α \alpha α 蒙版中的细节。

外观线索过滤

图像抠图需要精确的FG边界,而高级金字塔特征无法提供这样的纹理细节。因此,我们在 ResNeXt block1 和上采样操作之间架起了一个跳跃连接,它可以传输 α \alpha α 蒙版生成的外观线索。block1可以从输入图像捕获图像纹理和细节,与第一次上采样拥有相同的空间分辨率。我们将从block1中提取的低级特征作为我们的外观线索。这些外观线索可以描绘复杂的图像纹理,与 α \alpha α 蒙版感知所需的边界精度兼容。
尽管外观线索显示了足够的图像纹理信息,但只有FG内部或周围的区域能对 α \alpha α 蒙版的生成有所贡献,因此,我们引入空间注意来过滤BG中的外观线索,同时强调FG中的线索。具体来说,我们使用内核大小 1 × 7 1\times7 1×7 7 × 1 7\times1 7×1 分别执行水平方向和垂直方向的注意。金字塔语义通过两个并行卷积与上述两个过滤核进一步处理,然后,它们的连接作为注意机制来处理初始外观线索,去除属于BG的纹理和细节。在此之后,我们结合过滤的外观线索和提取的金字塔特征,以生成 α \alpha α 蒙版。

损失函数

在这里插入图片描述
L a d v , L M S E L_{adv}, L_{MSE} Ladv,LMSE L S S I M L_{SSIM} LSSIM 可以分别从视觉质量、像素精度和FG结构相似性方面提升 α \alpha α 蒙版。 λ 1 \lambda _1 λ1 λ 2 \lambda _2 λ2 λ 3 \lambda _3 λ3 表示损失函数的平衡系数。
在这里插入图片描述
I I I 表示输入图像, A A A 表示预测的 α \alpha α 蒙版
在这里插入图片描述
Ω \Omega Ω 表示像素集, ∣ Ω ∣ |\Omega| Ω表示像素点的数量(输入图像的大小), α p i \alpha _p^i αpi α g i \alpha _g^i αgi 分别表示像素 i i i 处的 α \alpha α 预测值和真实值
在这里插入图片描述
μ p , μ g \mu _p,\mu _g μpμg σ p , σ g \sigma _p,\sigma_g σpσg 分别是 α p i \alpha _p^i αpi α g i \alpha _g^i αgi 的平均值和标准差

实验

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

参考

1.【抠图中的注意力机制】HAttMatting—让抠图变得如此简单!
2. Alpha通道的概念与功能

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting 的相关文章

  • tar.gz文件怎么解压缩_如何解压缩tar.gz文件

    tar gz文件怎么解压缩 如果您使用开源软件 则有时可能会遇到 tar文件 开源tar存档实用程序自1979年以来一直存在 因此它在POSIX世界中确实无处不在 它的目的很简单 它将一个或多个文件并 包装 到一个自包含的文件中 称为磁带存
  • QT中connect高级链接——指针、lambda、宏、第五参数

    1 connect使用指针 cpp view plain copy connect b2 QPushButton released this MainWidget mySlot 抬起 按钮b2时 修改按钮b2的标题 2 使用lambda表达
  • 数据治理之数据质量

    一 前言 之前我们介绍了数据资产治理类工具 数据资产管理产品架构规划设计思路 本期 我们来聊聊数据质量检测和监控的核心工具 DQC和SLA 二 基本概念 DQC 即Data Quality Control 数据质量检测 数据质量控制 一般我
  • 找了这么多毕业设计题目,反而不知道选哪个了

    1 学生宿舍管理系统 2 仓库管理系统 3 超市销售管理系统 4 工资管理系统 5 供应商管理系统 6 会员卡管理系统 7 计量管理系统 8 进销存财务管理系统 9 进销存管理系统 10 人才管理系统 11 图书管理系统 12 图书销售系统
  • java代码开发完成后,代码走查规范

    代码走查注意事项 1 不变的值 尽量写个常量类 2 尽量使用if else 不要一直if去判断 3 减少循环调用方法查询数据库 4 dao层尽量不要用逻辑 尽量在service里写业务逻辑 5 金额使用Bigdecimal类型的 0 00这
  • 对象的上转型对象

    1 定义 如果B类是A类的子类或间接子类 当用B类创建对象b并将这个对象b的引用赋给A类对象a时 如 A a a new B OR A a B b new B a b 则称A类对象a是子类B对象b的上转型对象 2 性质 对象b的上转型a的实

随机推荐

  • 怎么使用计算机开机关机,笔记本电脑怎么开关机_笔记本电脑正确的开关机步骤-win7之家...

    我们在使用笔记本电脑之后 都会进行开关机 看似简单的开关机 如果方法不正确的话 就会对电脑使用寿命有影响 所以正确的开关机可以帮助我们延长电脑使用寿命 那么笔记本电脑怎么开关机呢 针对这个问题 本文给大家讲述一下笔记本电脑正确的开关机步骤吧
  • 银行家舍入法(四舍六入)

    文章目录 银行家舍入法 银行家舍入法 生活中常见的计算方法就是四舍五入 但是银行家舍入法是四舍六入 五后面有非0的数字将直接向前进位 没有数字的情况下还要看前一位是偶数还是奇数 偶数舍去 奇数进位 总结为一句话就是 四舍六入五考虑 五后非零
  • 无需做任何配置!持安零信任可自动防御Web应用勒索攻击

    01 Attention 中毒终端已超2000个 近日 一则大型企业的勒索病毒事件在网络上传播 引起了广泛关注 某互联网企业财务管理软件 T 被爆出存在任意文件上传 远程代码执行的未授权访问漏洞 未授权访问漏洞 在企业内部一直以来都是非常常
  • 领域驱动模型(DDD)在美团外卖活动管理业务的应用

    什么是领域驱动模型 2004年Eric Evans 发表 领域驱动设计 软件核心复杂性应对之道 Domain Driven Design Tackling Complexity in the Heart of Software 简称Evan
  • 模仿mnist数据集制作自己的数据集

    模仿mnist数据集制作自己的数据集 最近看深度学习 用TensorFlow跑教程里的模型 发现教程里大多都是用mnist和cifar这两个数据集来演示的 想测试自己的数据集看看初步效果 于是就想套用现有的模型 将自己的数据集做成和mnis
  • 解决nginx负载均衡的session共享问题

    查了一些资料 看了一些别人写的文档 总结如下 实现nginx session的共享 PHP服务器有多台 用nginx做负载均衡 这样同一个IP访问同一个页面会被分配到不同的服务器上 如果session不同步的话 就会出现很多问题 比如说最常
  • fireFox post请求插件,火狐浏览器插件

    在开发过程中 为了测试数据 提交表单等 经常会用到post请求 在这里向大家介绍一款比较好用的浏览器插件 它可以很好的模拟post get put等常用的请求 大大便利了我们的开发 它就是fire fox中的RESTClient 安装方法如
  • Linux服务器内存消耗过高

    Linux服务器内存消耗过高 问题描述 Linux服务器的内存持续消耗过高 重启后可以恢复正常 但业务运行后问题依旧存在 而且没有明显高消耗内存进程存在 问题原因 slab消耗内存过多 解决方案 登录问题Linux服务器 执行free和to
  • 部署Oracle 19C RAC

    https www toutiao com i6879691817663595019 tt from weixin utm campaign client share wxshare count 1 timestamp 1602718612
  • 集成springSecurity遇到的跨域问题

    引言 该项目主要使用技术 sprinboot springSecurity vue 其它的技术就不介绍了 其中springSecurity是我参考网上的案例去进行的集成 虽然集成成功了 但是还不是太懂 下面就开始介绍一下我遇到的问题 问题重
  • Android开源框架之Fresco

    简介 Fresco是Facebook最新推出的一款用于Android应用中展示图片的强大图片库 可以从网络 本地存储和本地资源中加载图片 相对于ImageLoader 拥有更快的图片下载速度以及可以加载和显示gif图等诸多优势 是个很好的图
  • 医学生可以跨专业考计算机的专业,可以跨考医学研究生:2016跨专业考研需谨慎的专业解读:临床医学...

    每年的跨专业考研人群有很大一批 或是因为本专业就业不景气 或是因为不感兴趣等等 诸多原因导致跨专业考研的人很多 跨专业考研的难度比一般要大 主要因为起点不同 往往此类考生专业课的基础都很低 从头开始 压力很大 因此在选专业的时候一定要谨慎
  • python怎么输出图片_Python怎么输出图片且不保存

    Python怎么输出图片且不保存 一 输出本地图片 使用open 函数来打开图片 使用show 函数来显示图片 from PIL import Image img Image open d dog png img show 这种图片显示方式
  • 基于BP神经网络的2014世界杯比分预测

    写在前头 科学的方法 娱乐的心态 研究背景 众所周知 今年的世界杯比赛各种坑爹 看了那么多砖家点评就没人说准过 当然足球比赛中有太多的未知变量 如何选择这些变量就成为了预测比赛比分的关键 本文作者另辟蹊径 选用足彩比分赔率作为影响比赛走势的
  • Java DAO代码重构(连接池方式)

    DAO设计简化思路 首先初始化数据库连接池 使用Alibaba的Druid连接池 需先下载druid 1 x x jar包 public class JDBCUtil private static DataSource ds null 初始
  • SQLServer数据库漏洞

    一 SQLServer数据库提权前提条件 1 以管理员身份运行数据库服务 2 已经获得SQL数据库的sysadmin权限 3 可以连接数据库 二 通过存储过程进行提权 hydra工具介绍 L 指定用户名字典 P 指定密码字典 vV 输出破解
  • 与孩子一起学编程python_与的解释

    子集上 一 与 康熙筆画 4 部外筆画 3 廣韻 集韻 正韻 同與 說文 賜予也 一勺爲与 六書正譌 寡則均 故从一勺 與 古文 廣韻 弋諸切 正韻 弋渚切 集韻 韻會 演女切 音予 說文 黨與也 戰國策 是君以合齊與强楚 註 與 黨與也
  • 《算法导论》笔记(18) 最大流 含部分习题

    流网络 容量值 源结点 汇点 容量限制 流量守恒 反平行 超级源结点 超级汇点 Ford Fulkerson方法 残存网络 增广路径 最小切割定理 f是最大流 残存网络不包含增广路径 f 等于最小切割容量三者等价 基本的Ford Fulke
  • Vijava 学习笔记之(获取用户自定义规范相关信息)

    源代码 package com vmware customzation import com vmware util Session import com vmware vim25 CustomizationSpecInfo import
  • [CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

    论文 Attention Guided Hierarchical Structure Aggregation for Image Matting 代码 wukaoliu CVPR2020 HAttMatting 基于注意力引导的层次结构聚集