[Context and Structure Mining Network for Video Object Detection]阅读笔记

2023-10-26

文章目录

@[TOC](文章目录)

Abstract

Introduction

Related work

Proposed Method

1.overview

2.Sptial-temporal context Information Encoding（stCLE）

3.Structure-based Proposal Feature Aggregation(SPFA)

实验

效果

Abstract

强调目前主导视频目标检测(VOD)的是建议框级的特征聚合(proposal-level feature aggregation)
指出当前两个主要的问题。
①再当前常用的二阶段网络RPN忽略了对目标分类有帮助的上下文信息(context information)。
②当前VOD采用的特征融合都以整个建议框(proposal)为单位进行融合，这样没有考虑框中间的结构信息。
会导致目标发生遮挡或者姿态改变时，两帧间的相似性较差。
为了解决这些问题：
①提出本文的模型CSMN
②编码了全局的时间-空间-上下文信息聚合在目标特征图中。
③每个proposal都被分成了几个patch来捕捉目标的结构信息。
④每个patch都会学习一个权重用于指示它在信息聚合时作用几何，如发生遮挡的patch可以低权重。

Introduction

首先先回忆了视频目标检测的历史
·2017 FGFA 光流方法
·2018 MANet 特征融合
·2017 D&T 相邻帧之间信息(追踪)
·2018 STSN 跨时域可变性卷积
·2019 PLSA 稀疏步幅局部跨镇特征空间对应关系
·还有其他后处理方法如seq-nms等
·SELSA 序列及语义聚合(就是融合帧信息，MEGA是它的升级版，作者说实验时基于这个basline的)
·MEGA 融合临近全局帧+记忆模块(作者github里说是根据MEGA改的，但是我没找到代码，就几个介绍文件)
·2020HVR-Net 视频间帧信息
本文贡献
·作者将proposal分成N个不重叠的patch(文中N=9)。
·特征融合时不是考虑两个整体proposal，而是patch，以缓解姿势偏差。
·给每一个patch以权重，更关注非遮挡的patch。

Related work

1.利用二阶段目标检测构建(实验中baseline是SELSA，但是代码地址里只有几个介绍文件和readme，说基于MEGA改的)。
2.本文方法属于VOD中的融合时序信息，融合时序信息又分为后处理和训练中融合帧信息，本文属于后者。

Proposed Method

1.overview

首先本文给当前检测的帧叫法为target frame，用于信息聚合的辅助帧叫作support frame。

1.骨干网络使用resnet101，conv4用于输入rpn，conv5用于输入一个stCIE(时间-空间-上下文信息编码)编码出一个新的feature map再和rpn的结果共同生成proposal。
2.生成的proposal会通过SPFA(Structure-base Proposal Feature Aggregation结构信息建议框特征融合)

具体流程可以看这个图，更清晰：
在这里插入图片描述

2.Sptial-temporal context Information Encoding（stCLE）

这个是基于non-local提出的一个模块，灵感来源于attention，作者把这个模块拓展到了时间空间的维度(本来就是考虑上下文的一个模块)。
关于non-local有一个博文说的非常清楚：【论文笔记】Non-local Neural Networks
关于作者图和改进，是这样实现的，将需要检测的proposal作为target pixel feature(我的理解是就只有一项像素，因为还没看到代码，可能理解有偏差)，当前feature map的其他内容作为支持信息，包括其他帧的信息也为支持信息，蓝色为support pixel feature，红色为target，如下图：
在这里插入图片描述
最终的结构图是这样的：

其中eq.1是计算相似度的函数，具体矩阵每一个点的值怎么计算式子如下：

个人理解，通过这个式子计算的相=相似度，将系数控制在了1一下，并且数值都不算大，在当作系数乘support信息时可以充分将其缩小，最后累加的时候起到参考作用而不至于起到决定作用。

关于我为什么觉得是一个像素，因为原文说了这样一段话：

3.Structure-based Proposal Feature Aggregation(SPFA)

大体思路：其他的信息融合方式的视频目标检测譬如MEGA，计算时以proposal为单位，而作者做出的改变时以patch为单位，以应对帧间遮挡姿态变化等状况。
先上结构图：
在这里插入图片描述
其中一个合并头的操作是这样的，target的patch计算和M个support proposal的相似度，然后乘以原输入的support proposal进行逐元素相加操作聚合成一个最终的结果，最终的输出的结果是宽高同proposal一样的数据(3*3)。这一组数据代表了support proposal支持聚合后target patch的信息，然后我们对这一组信息训练了一个权重参数W，W代表了这个patch在target proposal的重要程度。
在这里插入图片描述
下面看一下这个相似度S是怎么计算的，这幅图很好理解，针对于每一个support proposal，S只是一个数：

上述的大体思路了解之后，结合下面的流程图中的数据的shape就可以帮助我们加深理解了：

最开始的第一步：左边的target proposal分成N个patch，右边的support proposal则复制N份。
第二步：每一组support proposal(M个)计算同一个target patch的相似度，相乘原support proposal得到融合信息。
第三步：训练了一个权重W控制N组target patch和support proposal(M个)融合信息的重要程度。
第四步：得到的加权融合信息同原来的target proposal信息逐元素相加的aggregated feature。

实验

1.这个实验证明了两个模块的有效性。在这里插入图片描述
2.这个实验证明了stCIE融合时间维度的特征对视频目标检测是有帮助的。其中作者把数据集10帧以内的ground truth的同一物体的IOU叫做运动IOU，这个IOU比较大代表物体运动慢，以此为根据，作者将验证集分了三个档次slow/medium/fast来验证模型在物体不同运动速度的效果。
在这里插入图片描述
3.这个实验证明了，给target patch权重参数w是有效的，Fixed指参数是固定的，不是学习出的。

4.这个实验证明了不同的支持帧数量对结果的影响。

5.这个实验验证了N(proposal分成几份)选取什么值最合适。

6.这组是同视频目标检测方法的综合对比。
在这里插入图片描述

效果

在这里插入图片描述

上图中，作者说检测的效果体现了stCIE的效果，就比如这个海龟，因为上下文的水让模型更确信它是一只龟。
在这里插入图片描述
这张图片体现了SPFA的作用，看这个赛车发生了遮挡，在普通的proposal融合中效果并不佳，spfa起作用的具体原因可以看下图。

上图中，黄色字体是当前patch的权重，绿色数字是这个support proposal同当前patch的相似度，结果显而易见，遮挡的给了更低的权重。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

目标检测

计算机视觉