End-to-End Human Object Interaction Detection with HOI Transformer（CVPR2021）

2023-10-31

基于HOI transformer进行端到端的人与物体的交互检测

介绍

这是CVPR2021年的一篇论文，主要是作者提出了一种端到端的HOI检测方法，基于Transformer结构。

作者总结了以前的研究工作以及方法，基本上目前的HOI研究主要有三种：两阶段、一阶段、端到端。如图所示：

在这里插入图片描述

两阶段方法：先进行目标检测，找到人和物体的框以及类标签，然后再通过使用multi-stream架构来预测人和物体的交互对。由于顺序和分离的两级架构，这些方法复杂度高且效率低。

一阶段方法：引入了交互点的概念，同时对交互点以及边界框进行预测，然后再通过算法将交互点和对象对进行匹配。一阶段方法仍然需要复杂的后处理来对对象检测结果和交互预测进行分组。

端到端方法：输入一张图像，直接进行所有预测，输出结果。之前有基于LSTM的端到端HOI检测，作者这里用Transformer做端到端HOI检测。但是端到端也需要进行匹配，然后算法用的是Hungarian matching算法。

HOITransformer模型架构

作者的方法与之前不同，主要由两部分组成：一个端到端的Transformer编码器解码器结构、一个五元组的HOI实例匹配损失。整体网络结构图如下所示：
在这里插入图片描述

该网络结构由三个主要部分组成：

一个卷积网络用来从图像中提取特征
一个Transformer编码器解码器结构用来接收特征输出嵌入
一些多层感知机来通过输出嵌入去预测HOI实例

首先是主干网络，这里用的是CNN。首先将彩色图像输入然后生成HxWxC的特征图，然后通过1x1的卷积层将通道维度从C减少到d，最后再将其展平，将空间维度折叠到一维。因为Transformer需要用序列作为输入，所以这里需要进行展平（至于他这里Flatten的具体操作，或许是将每一列或行拼起来？）。因此特征图可以是解释为长度为H*W的序列，每个时间步的值是大小为d的向量。使用ResNet作为主干，并将特征conv-5的维度从C=2048减少到d=256。

接下来是编码器，它具有多头自注意力模块和前馈网络FFN，为了区分序列中的相对位置，所以在输入的时候引入了位置嵌入，展平特征和位置编码的总和被馈送到变换器编码器中以总结全局信息。编码器的输出在整个网络结构中表示为全局存储器，即Global Memory。

然后是解码器，与编码器不同，它包含一个额外的多头交叉注意层。解码器将N个学习的位置嵌入（在图中表示为HOI Queries）转换为N个输出嵌入。然后，它们通过MLP层得到预测的结果。一般来说，解码器有三个输入，一个是来自编码器的Global Memory，一个是 HOI Queries，一个是位置编码。对于多头交叉注意层，值直接来自Global Memory。Key是Global Memory和输入位置编码的总和。Queries是输入位置编码和输入 HOI Queries的总和。对于自注意力层，所有的 Query、Key、Value 都来自 HOI Queries或前一个解码器层的输出。

最后是MLP层，这里将每个 HOI 实例定义为（人类类、交互类、物体类、人类框、物体框）的五元组。每个 HOI 查询的输出嵌入通过多个多层感知 (MLP) 分支解码为一个 HOI 实例。具体来说，有三个单层 MLP 分支分别预测人体置信度、物体置信度和交互置信度，以及两个三层 MLP 分支来预测人体框和物体框。用于预测置信度的所有单层 MLP 分支都使用 Softmax 函数。

HOI实例匹配和损失函数

HOI实例是(ch, cr, co, bh, bo)的五元组，其中(ch, cr, co)表示人类、交互和物体类置信度，(bh, bo)是人类和物体的边界框。

两阶段 HOI 检测器首先使用对象检测器预测对象提议 (ch, bh)、(co, bo)，然后枚举检测到的（人、对象）对以通过交互分类来预测 cr。换句话说，这种方法是在尝试做一个近似概率。

在这里插入图片描述

其中 p(h) 和 p(o) 分别表示人和物体边界框的置信度。 p(r|h, o) 表示给定人类框 h 和物体框 o 的交互 r 的概率，通常由multi-stream交互识别模型实现。在该方法中，对象检测器和交互分类器分别进行优化。

但是作者他们将HOI 检测视为预测与真实值之间二分匹配的集合预测问题。我们的方法直接预测 HOI 集中的元素，并以统一的方式优化所提出的 HOI 匹配损失。具体如下：

在这里插入图片描述

在图中，GT是黑色的，黄色不仅关系分类正确而且位置更靠近GT，且IOU交并比也大，为了最小化匹配代价损失，模型会将预测的黄色与GT匹配。

在这里插入图片描述

公式2匹配代价函数的第一部分是计算人、物、关系类别，使用标准的softmax交叉熵损失。第二部分是人和物的边界框的回归损失，使用GIoU损失和L1损失的加权和，α和β是损失权重的超参数。算法的话使用的是Hungarian算法。

在这里插入图片描述

其中σ所属的那个符号（我也不知道怎么读）表示一对一匹配解空间。经匈牙利算法确定GT set和预测set对应的最优匹配对后，就可以计算模型的loss，loss的函数和公式2一样，理论上说模型loss函数的两个超参和匹配代价函数的不同，但是考虑到超参较多等原因，论文同DETR一样，将两个函数的超参设置一样。

实验结果

作者在V-COCO和HICO-DET数据集上和当前的SOTA做了数据对比。

HICO-DET：由47,776张图像组成，其中包含超过150K人类对象对（训练集中有38,118张图像，测试集中有9,658张图像）。它有600个HOI类别，超过117个交互和80个对象。此外，根据训练实例的数量，600个HOI类别被分为138个稀有类别和462个非稀有类别。

V -COCO：是MSCOCO的子集，由trainval数据集中的5,400个图像和测试集中的4946个图像组成。每个人都用29个不同动作类别的二进制标签进行注释（其中5不涉及关联对象）。

数据增强：作者以0.5的概率调整图像的亮度和对比度；尺度增强，短边范围480-800，长边最大1333像素；以0.5的概率做随机翻转；随机裁剪，将图像以0.5的概率裁剪到一个随机的矩形patch，然后再进行一次比例缩放以确保shape，如果给定的gt人-物对的任何一个框都位于裁剪patch之外，其标签将被删除。实验中证实：多尺度训练可在完全类别中获得4.29％点数收益，随机crop上获得5.08％的收益，两者的结合可以获得更好的结果。

在这里插入图片描述

作者对超参做了实验

在这里插入图片描述

参考资料：https://zhuanlan.zhihu.com/p/372028485

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)