BGNet

2023-10-28

为此,在本文中,我们提出了一种新的边界引导网络(BGNet),它显式地使用边缘语义来增强伪装对象检测的性能。首先,我们设计了一个简单而有效的边缘感知模块(EAM),它集成了低级别的局部边缘信息和高级别的全局位置信息,以在显式边界监督下探索与对象边界相关的边缘语义。然后,引入边缘引导特征模块(EFM),将边缘特征与伪装的目标特征在不同层次上结合起来,以指导COD的表示学习。EFM模块可以强制网络更加关注对象结构和细节。然后,从上到下逐渐聚合多级融合特征,以预测伪装对象。为了增强特征表示,我们构建了上下文聚合模块(CAM),该模块通过一系列萎缩卷积来挖掘和聚合多尺度上下文语义,以产生具有更强和更有效表示的特征。得益于精心设计的模块,所提出的BGNet预测具有精细对象结构和边界的伪装对象。注意,与MGL相比,我们设计了一个更简单但更有效的边缘提取模块来挖掘准确的对象边界语义,然后通过所提出的EFM和CAM来指导伪装对象的特征表示学习。此外,我们的方法实现了更精确的对象定位和更强的对象结构保存。综上所述,我们的主要贡献如下:
•对于COD任务,我们提出了一种新的边界引导网络,即BGNet,它挖掘并集成了边界相关的边缘语义,以提高伪装对象检测的性能。
。我们精心设计了边缘引导特征模块(EFM)和上下文聚合模块(CAM),以增强边界语义,并为COD探索有价值和强大的特征表示。
数据集。
为了促进基于深度学习的伪装对象检测,提出了一些注释数据集。[Le等人,2019年]构建了第一个伪装对象数据集,即CAMO,包括涵盖八个类别的1250幅伪装图像。[Fan等人,2020a]收集了一个大规模的具有挑战性的数据集,称为COD10K,其中包含10000张图像,涵盖78个伪装的对象类别,具有高质量和分层注释。最近,为了支持伪装对象的定位和排名,[Lv等人,2021]提出了一个基于排名的测试数据集,命名为NC4K,其中包含4121个带有额外定位注释和排名注释的图像。

**伪装物体检测。**近年来,伪装物体检测在计算机视觉界引起了越来越多的关注[Pang等人,2022;Cheng等人,2022]。自大规模数据集(如CAMO和COD10K)发布以来,已经提出了许多基于深度学习的伪装对象检测模型,并取得了巨大进展。这些方法大致可分为三种。第一类方法是设计先进的网络模块/架构,以探索COD的辨别伪装特征。[Sun等人,2021]设计了一个注意力诱导的跨层融合模块和一个双分支全局上下文模块来增强特征表示。[Y ang等人,2021]将贝叶斯学习纳入基于变压器的推理中,该推理可以利用COD的确定性和概率信息。第二类方法是将一些辅助任务组合到联合学习框架中,以提高COD的性能。[Le等人,2019]提出了一种合成分支网络,该网络执行辅助分类网络,以帮助伪装对象分割。[Zhai等人,2021]将边缘提取作为辅助任务,并将其纳入COD的互图学习中。[Li等人,2021]提出了一种联合显著目标检测和伪装目标检测网络,以增强这两项任务的检测能力。为了对伪装对象进行分割和排序,[Lv等人,2021]在联合学习框架中设计了一个基于等级的COD模型,该模型可以相互提高性能。最后一种是生物启发方法,其灵感来自自然界中捕食者的行为过程或人类视觉心理模式。[Fan等人,2020a]提出了一个搜索识别网络,以逐步定位和搜索伪装对象,灵感来自野生捕食者发现猎物的过程。[Mei等人,2021]通过模拟捕食的检测和识别阶段,提出了定位和聚焦网络。
总体架构
所提出的BGNet的总体架构如图2所示。具体而言,我们采用Res2Net-50[Gao等人,作为我们的骨干网络,从输入图像中提取多级特征,即fi(i=1,2,…,5)。然后,应用边缘感知模块(EAM)从包含局部边缘细节(f2)的低级特征和包含全局位置信息(f5)的高级特征中挖掘与对象相关的边缘语义在对象边界监督下。利用多个边缘引导特征模块(EFM)将EAM的边缘线索与每个级别的多层次主干特征(f2-f5)集成,以指导特征学习,从而增强边界表示。最后,使用多个上下文聚合模块(CAM)以自顶向下的方式逐步聚合多层次融合特征并发现伪装对象。在测试中,我们选择最后一个CAM的预测作为最终结果。注意到,我们不采用f1主干特征,因为它太接近具有大量冗余信息和小接收野的输入。
图2:拟议BGNet的总体架构,包括三个关键组件,即边缘感知模块(EAM)、边缘引导特征模块(EFM)和上下文聚合模块(CAM)。详见第3节。
3.2边缘感知模块
良好的边缘先验可以使分割和定位中的对象检测受益 [Zhang等,2017; Zhao等,2019]。尽管低级特征包含丰富的边缘细节,但它们也引入了许多非对象边缘。因此,需要高级语义或位置信息来促进对伪装的对象相关边缘特征的探索。在该模块中,我们结合了低级特征 (f2) 和高级特征 (f5) 来对与对象相关的边缘信息进行建模,如图8所示。具体而言,首先使用两个1 × 1卷积层将f2和f5的通道分别改变为64 (f  2) 和256 (f  5)。然后,我们通过串联操作将特征f  2和上采样的f  5积分。最后,我们通过两个3 × 3卷积层和一个1 × 1卷积层,然后是Sigmoid函数,获得了边缘特征fe。EAM是一个简单而有效的模块,用于提取特定的边缘特征。如图7所示,EAM完美地学习了对象边界相关的边缘语义。
3.3边缘引导特征模块 (EFM)
旨在将与边界相关的边缘提示注入表示学习中,以增强具有对象结构语义的特征表示。众所周知,不同的特征通道通常包含差异化的语义。因此,为了实现良好的集成并获得强大的表示形式,我们引入了本地渠道注意机制来探索跨渠道互动并挖掘渠道之间的关键线索。如图4所示,给定输入特征fi (i ∈ {2,3,…,5}) 和边缘特征fe,我们首先用一个额外的跳跃连接和一个3 × 3卷积在它们之间进行逐元素乘法,以获得初始融合特征fe i,它可以表示为: fe i = Fconv((fi ﹐ d (fe),(1) 其中,D表示下采样,Fconv是3 × 3卷积。“” 是逐元素乘法,“” 是逐元素加法。为了增强特征表现,受 [Wang等人,2020] 的启发,我们引入了本地注意力来探索关键特征渠道。具体来说,我们使用通道式全局平均池 (GAP) 聚合卷积特征 (fe i)。然后,我们通过一维卷积后跟Sigmoid函数获得相应的通道注意力 (权重)。与完全连接的操作不同,完全连接的操作捕获了所有通道的依赖关系,但显示出很高的复杂性,我们探索本地跨通道的交互并以本地方式学习每个注意力,例如,仅考虑每个通道的k个邻居。之后,我们将通道注意与输入特征fe i相乘,并将通道减小1 × 1卷积层,得到最终输出fa i,即fa i = Fconv1(σ(Fk 1D(GAP(fe i) 的ffe i),(2) 其中Fconv1是1 × 1卷积,Fk 1D是核大小为k的1D卷积,σ 表示Sigmoid函数。内核大小k可以自适应地设置为k = |(1 log2©)/2 | 奇数,其中 | ∗ | 奇数表示最接近的奇数,C是fe i的通道。内核大小与通道尺寸成正比。显然,所提出的注意策略可以突出关键通道并抑制冗余通道或噪声,从而增强语义表示。
3.4上下文聚合模块
为了集成用于伪装对象预测的多级融合特征,我们设计了一个上下文聚合模块 (CAM) 来挖掘上下文语义以增强对象检测,如图5所示。与BBSNet [Fan等人,2020c] 中的全局上下文模块不同,它仅利用几个独立的平行分支来分别提取不同尺度的特征,而不考虑各个分支之间的语义相关性 [Wu等人,2020],CAM考虑了跨尺度交互以增强特征表示。以fa 4和fa 5为例,我们首先对fa 5进行上采样,并将它们串联,然后进行1 × 1卷积层,以获得初始聚合特征fm。接下来,我们沿着通道维度将fm均匀地划分为四个特征图 (f1 m,f2 m,f3 m,f4 m),然后进行跨尺度交互学习,即通过一系列的atrous卷积来整合相邻分支的特征以提取多尺度上下文特征。可以表示为: fj  m = Fnj conv(fj − 1  m什么fj 1 m),j ∈ {1,2,3,4},(3) 其中Fnj conv表示3 × 3 atrous卷积,其膨胀速率为nj。在我们的实验中,我们设置nj = {1,2,3,4}。此外,对于i = 1,只有f1 m和f2 m; 对于i = 4,只有f4 m和f3  m。然后,我们将这四个多尺度特征fj  m串联起来,然后是1 × 1卷积,剩余连接和3 × 3卷积,可以表示为: fc i = Fconv(Fconv1([fj  m]) fm),(4) 其中 [∗] 是级联运算,fc i是CAM的输出。请注意,对于i = {2,3},将前一个凸轮的输出 (fc i 1) 与fa i一起用作下一个凸轮的输入,以获得fc i。通过另一个1 × 1卷积来改变特征fc i的通道数,我们可以获得伪装对象的预测Pi (i ∈ {2,3,4}。
3.5损失函数
我们的模型有两种监督: 伪装对象掩码 (Go) 和伪装对象边缘 (Ge)。对于掩模监督,我们采用加权二进制交叉熵损失 (Lw BCE) 和加权IOU损失 (Lw IOU) [Wei等人,2020],它们更关注硬像素,而不是分配所有像素相等的权重。对于边缘监督,我们采用dice损失 (Ldice) [Xie等,2020] 来处理正负样本之间的强不平衡。请注意,对来自CAM的三个伪装对象预测 (Pi,i ∈ {2,3,4}) 进行掩模监督。因此,总损失定义为: Ltotal =  4 i = 2(Lw BCE(Pi,Go) Lw IOU(Pi,Go)) λ ldice (Pe,Ge),其中 λ 是权衡参数,在我们的实验中设置 λ = 3,pe是伪装物体边缘的预测。

4实验

4.1实现细节
我们用PyTorch实现我们的模型,并采用在ImageNet上预先训练的Res2Net50 [Gao等人,2019] 作为我们的骨干。我们将所有输入图像的大小调整为416x416,并通过随机水平翻转来增强它们。在训练阶段,批量大小设置为16,并采用Adam优化器 [Kingma和Ba,2014]。将学习率初始化为1e-4,并通过具有0.9的幂的poly策略进行调整。在NVIDIA Tesla P40 GPU的加速下,整个培训大约需要2个小时,25个时期。4.2数据集,我们在三个公共基准数据集上评估我们的方法: CAMO [Le等人,2019],COD10K [Fan等人,2020a] 和NC4K [Lv等人,2021]。我们遵循先前的作品 [Fan等人,2020a],它们使用CAMO和COD10K的训练集作为我们的训练集,并使用它们的测试集和NC4K作为我们的测试集。
4.3评估指标,我们利用四个广泛使用的指标来评估我们的方法,即平均绝对误差 (MAE,M) [Perazzi等人,2012],加权F度量 (Fw β) [Margolin等人,2014],结构度量 (s α) [Fan等人,2017] 和平均E-测度 (E φ) [Fan等人,2021b]。
4.4与最新技术的比较定量评估
表1报告了我们的方法在三个数据集上针对18个竞争对手的定量结果。很明显,在四个评估指标下,我们的方法在三个数据集上优于所有其他模型。具体来说,与第二好的JCSOD相比,我们的方法平均将s α 增加1.80%,将e φ 增加1.40%,将Fw β 增加3.55%。与第三好的C2FNet相比,我们的方法平均将s α 增加1.93%,将e φ 增加1.41%,将Fw β 增加4.28%。定性评估。图6显示了COD10K数据集的几个典型样品上不同COD方法的定性比较,涵盖了四个超类,即水生,陆生,飞行和两栖。这些结果直观地显示了该方法的优越性能。请注意,我们的方法提供了准确的伪装对象预测,并具有更精细,更完整的对象结构和边界细节。边界勘探。图7显示了我们的模型与MGL在边界相关边缘提取方面的视觉比较。可以看出,尽管MGL提出了基于复杂图模型的辅助边缘检测网络,但它仍然丢失了许多结构细节,导致预测中的边界局部化较差。事实证明,我们的方法在与对象相关的边缘信息挖掘和伪装对象预测方面具有优越的性能。
4.5消融研究
为了验证每个关键组件的有效性,我们设计了几个消融实验并在Tab中报告了结果。2.对于基线模型 (B),我们删除了所有额外的模块 (即EAM、EFM和CAM),并且仅在四个EFMs中保留1 × 1卷积以减少主干特征的通道 (fi,i = {2,3,4,5}),并使用CAM中的初始聚合操作以自上而下的方式融合多级特征。CAM的有效性。从选项卡上。2、与B模型相比,B + CAM模型提供了更好的性能。特别是,我们的模块在度量f ω β 上具有更多优势,该度量显示1.50% 的性能平均提高。边缘提示 (EAM) 的有效性。为了验证与对象相关的边缘提示的有效性,我们在EFMs中保留了初始融合操作和最终的1 × 1卷积,并删除了局部通道注意力 (LCA)。从选项卡上。如图2所示,与基线模型a相比,模型c (B + EAM + EFM w/o LCA) 实现了更好的整体性能,特别是在f ω β 方面,所有数据集的平均性能增益1.15%。因此,EAM提取的边缘先验有利于提高检测性能。
**EFM的有效性。**然后在模型c (即完整的EFM) 上添加LCA,以验证边缘提示和伪装对象特征的集成操作的有效性。正如在选项卡中可以看到的那样。如图2所示,B EAM EFM模型显示了与模型a和模型c相比的性能改进,证明了LCA和建议的EFM对最终预测的有效贡献。此外,结合设计的EAM,EFM和CAM,所提出的BGNet在所有数据集上都实现了明显的性能改进,在s α,e φ 和f ω β 方面的平均性能提高分别为1.10%,1.14% 和2.65%。EAM的输入。我们还测试一下了EAM的不同输入的有效性,例如,f1,f2和f3用于使用f5探索边缘,以帮助定位与对象相关的边缘。如选项卡所示。如图3所示,f2 + f5的组合获得了伪装物体检测的最佳性能。

总结

在本文中,我们利用边缘先验来帮助恢复对象结构并提高伪装对象检测的性能。我们提出了一个简单而有效的边界引导网络 (BGNet),其中包含边缘感知模块,边缘引导特征模块和上下文聚合模块,以探索与对象相关的边缘语义,以指导和增强COD的表示学习。通过采用边缘提示,我们的BGNet提供了准确的伪装对象预测,具有完整而精细的对象结构和边界。广泛的实验表明,我们的方法在三个基准上都优于现有的最新方法。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

BGNet 的相关文章

随机推荐

  • js逆向--webpack解密逻辑分析

    声明 本文章中所有内容仅供学习交流 不可用于任何商业用途和非法用途 否则后果自负 如有侵权 请联系作者立即删除 由于本人水平有限 如有理解或者描述不准确的地方 还望各位大佬指教 网站 aHR0cHM6Ly9zdGF0aWMud2FpdHdh
  • js 约瑟夫环问题(腾讯笔试)

    昨晚参加腾讯笔试 5道编程题 先记录下第一道js约瑟夫环问题 n个人围成一桌 从第s个人数起 第m个人出列 例子 输入 1 2 3 输出 2 1 3 这道题跟丢手绢一样 应该用队列的方法 但我不太会 只能用最粗暴的for循环啦 这里说下 其
  • Notion的安装与使用

    Created November 1 2022 1 00 PM Tags 软件 最近了解到一个新的工具 叫做Notion 那么Notion 是什么 一句话理解 把丰富的表达能力组装成 Block 供不会编程能力的人 使用 Notion 在画
  • pthread_cond_broadcast 使用

    使用pthread cond signal只能唤醒N个线程中的一个 而pthread cond broadcast可以唤醒全部的N个线程 实例 include
  • C 标准库 - 《ctype.h》

    原文链接 https www runoob com cprogramming c standard library ctype h html 简介 C 标准库的 ctype h 头文件提供了一些函数 可用于测试和映射字符 这些函数接受 in
  • 基于Jupyterlab的 csv 3D 2D 模型转换

    cells cell type code execution count 1 id 47dcf242 c704 40de 9e99 fdb55dd78681 metadata scrolled true outputs source imp
  • 基于单片机的水温液位监测系统设计(#0513)

    在现代工业生产中 常常需要测量容器中液体的液位 在一般的生产过程中 液位测量的目的主要是通过液位测量来确定容器里的原料 半成品或产品的数量 以保证生产过程各环节物料平衡以及为进行经济核算提供可靠的依据 另外还为了在连续生产的情况下 通过液位
  • 预测波士顿房价-线性回归(Ridge)

    预测波士顿房价 线性回归 Ridge 1 数据集 使用的是sklearn datasets load boston 该数据集是一个回归问题 每个类的观察值数量是均等的 波士顿数据集506个样本 13个特征变量 CRIM 城镇人均犯罪率 ZN
  • oracle创建序列seq起始值为1_Oracle修改序列(Sequence)起始值问题

    Oracle 序列 Sequence 主要用于生成流水号 在应用中经常会用到 特别是作为ID值 拿来做表主键使用较多 但是 有时需要修改序列初始值 START WITH 时 有同仁使用这个语句来修改 alter sequence seque
  • iOS架构师_UML建模语言

    UML UML统称建模语言 面向对象软件的表转化建模语言 包含Booch MOT OOSE 工具 StarUML 时序图
  • 树莓派教程 : 树莓派各版本引脚定义

    树莓派Zero W WH Raspberry Pi Zero W WH GPIO针脚定义
  • C语言难点之数组与指针的爱恨情仇

    提到数组和指针 是C语言的精髓 下面就来讲一讲它们之间的爱恨情仇 数组与指针的定义 对于数组来说 它的定义是在内存中拿出一块连续的内存作为整个数组的空间 数组名对应与整个数组的首地址 相当于是一个常量的指针 对于指针来说 它的定义只是在内存
  • Linux服务器上通过miniconda安装R(2022)

    安装miniconda 下载最新版miniconda wget https repo continuum io miniconda Miniconda3 latest Linux x86 64 sh 安装 bash Miniconda3 l
  • 数据仓库——数据集市

    一 什么是数据集市 这里我们先回忆一下数据仓库的定义 数据仓库 Data Warehouse 是一个面向主题的 Subject Oriented 集成的 Integrate 相对稳定的 Non Volatile 反映历史变化 Time Va
  • PAT1027 打印沙漏 (20 分)(C语言)

    题目 本题要求你写个程序把给定的符号打印成沙漏的形状 例如给定17个 要求按下列格式打印 所谓 沙漏形状 是指每行输出奇数个符号 各行符号中心对齐 相邻两行符号数差2 符号数先从大到小顺序递减到1 再从小到大顺序递增 首尾符号数相等 给定任
  • matplotlib绘图接口和绘制线性图

    在深入使用matplotlib之前你需要知道几个matplotlib技巧 这些技巧能帮助你更快速掌握matplotlib 导入matplotlib 和numpy pandas一样 在导入matplotlib时我们也可以用一些常用的简写形式
  • MybatisPlus快速入门

    目录 1 概述 2 快速入门 2 1 数据库环境准备 2 2 创建SpringBoot工程 引入MyBatis Plus起步依赖 2 3 编写DataSource相关配置 2 4 编码 2 5 测试 3 CRUD 3 1 添加 3 1 1
  • Ubuntu下firefox账号无法登录问题

    ubuntu16 04自带有firefox浏览器 但是会发现账号无法登录 原来在windows下的数据没有办法同步 书签也同步不了 经过查询资料后得知 Ubuntu系统中自带的firefox是国际版 服务器与windows下的不一样 因此没
  • 渗透测试之AppScan篇

    IBM AppScan是一款非常好用且功能强大的Web 应用安全测试工具 曾以 Watchfire AppScan 的名称享誉业界 Rational AppScan 可自动化 Web 应用的安全漏洞评估工作 能扫描和检测所有常见的 Web
  • BGNet

    为此 在本文中 我们提出了一种新的边界引导网络 BGNet 它显式地使用边缘语义来增强伪装对象检测的性能 首先 我们设计了一个简单而有效的边缘感知模块 EAM 它集成了低级别的局部边缘信息和高级别的全局位置信息 以在显式边界监督下探索与对象