经典文献阅读之--BEVDistill(BEV蒸馏)

2023-05-16

0. 简介

之前作者前段时间在研究BEV的相关算法，当时就觉得BEV算法好是好，但是所需要的内存以及计算资源实在是太大了，无法实时在真实场景中运行。我们知道多视图（multi-view)三维目标检测具有低成本、高效率的特点，具有广阔的应用前景。然而，由于缺乏深度信息，通过透视图准确地检测目标是极其困难的。当前的方法倾向于为图像编码器采用重主干，使得它们不适用于现实世界的部署。与图像不同的是，激光雷达点在提供空间线索方面更优越，导致高度精确的定位。本文探索了基于激光雷达的检测器用于多视图（multi-view)三维目标检测。本文不是直接训练深度预测网络，而是在鸟瞰(BEV)空间中统一图像和激光雷达特征，并在师生范式中自适应地跨非同质表征传递知识。为此本文《Cross-Modal BEV Distillation for Multi-View 3D Object Detection》，目前我们可以在Github上找到对应的链接。

1. 主要贡献

本文通过设计一个跨模态的BEV知识蒸馏框架，即BEVDISTILL来解决上述挑战。本项目没有构建一个单独的深度估计网络，也没有显式地将一个视图投影到另一个视图中，而是将所有特征转换到BEV空间，同时保持几何结构和语义信息。通过共享BEV表示，不同模态的特征在不损失太多信息的情况下自然对齐。通过密集和稀疏监督，自适应地迁移空间知识:

引入软前景引导蒸馏，用于非均匀密集特征模仿，
提出稀疏式实例蒸馏范式，通过最大化互信息，有选择地监督学生

2. 相关工作

2.1 基于视觉的3d目标检测

基于视觉的3D目标检测旨在检测目标的位置、尺度和旋转，这在自动驾驶和增强现实中非常重要。其中一项工作是直接从单幅图像中检测3D盒子。Mono3D利用传统方法将2D对象提升到具有语义和几何信息的3D空间。考虑到位于不同距离的物体会出现在不同的尺度上，D4LCN提出利用深度预测进行卷积核学习。最近，FCOS3D将经典的2D范式FCOS扩展到单目3D目标检测。通过预测其2d属性，将回归目标转换到图像域。此外，PGD引入了关系图来改进对象定位的深度估计。MonoFlex认为位于不同位置的对象不应该被平等对待，并提供自动调整的监督。

另一项工作是从多视角图像中预测物体。DETR3D首先通过引入一个新的概念:3D参考点，将DETR纳入3D检测。之后， Graph-DETR3D通过动态图特征聚合丰富特征表示来扩展它。与上述方法不同，BEVDet利用Lift-splat-shoot将图像明确投影到BEV空间，然后使用传统的3D检测头。受最近开发的注意力机制的启发，BEVFormer以可学习的注意力方式自动化cam2bev过程，并取得了优越的性能。PolarFormer将极坐标引入到BEV空间的模型构建中，大大提高了性能。此外，BEVDepth通过明确地用投影的激光雷达点监督深度预测来改进BEVDet，并实现了最先进的性能。

2.2 目标检测中的知识蒸馏

大多数用于目标检测的KD方法专注于通过迫使学生的预测与教师的预测相匹配，在两个同质检测器之间迁移知识。更近期的作品发现模仿特征表示对检测更有效。一个重要的挑战是确定应该从教师模型中提取哪些特征区域。FGFI 选择由GT的IoU大于一定阈值的锚框所覆盖的特征。PGD 只关注几个关键的预测区域，使用分类和回归分数的组合作为质量的衡量标准。尽管有大量的工作讨论了目标检测中的KD，但只有少数工作考虑了多模态设置。MonoDistill 将点投影到图像平面，并应用修改后的基于图像的3D检测器作为提取知识的教师模型。这样的范式自然地解决了对齐问题，然而，它错过了追求更强大的基于点的教师模型的机会。LIGA-stereo利用激光雷达的信息，通过监督基于视觉的模型的BEV表示与第二个模型的中间输出。最近，UVTR(Li et al.，2022a)提出在保持各自检测器结构的前提下，提取体素空间中的跨模态知识。然而，它直接迫使二维分支模仿三维特征，忽略了不同模态之间的差异。

3. 详细内容

在本节中，我们将详细介绍我们提出的BEVDistill。我们首先在图1中概述了整个框架，并阐明了3.1节中教师和学生模型的模型设计。在3.2节中提出跨模态知识蒸馏方法，由两个模块组成:密集特征蒸馏和稀疏实例蒸馏。

3.1 基线模型

学生模型。采用当前最先进的基于相机的检测器BEVFormer作为学生模型。它由用于特征提取的图像主干、用于cam2bev视图转换的空间交叉注意力模块和用于3D目标检测的transformer头组成。此外，它提供了一个时间交叉注意力模块来感知子序列的多帧信息，以更好地预测。

老师模型。为了保持与学生模型的一致性，我们选择Object-DGCNN作为我们的教师模型。为简单和通用性，将DGCNN注意力替换为普通的多尺度注意力模块。它首先将3D点投射到BEV平面，然后用基于transformer的标签分配进行一对一监督。通过从预训练的中心点模型初始化来训练模型，并在知识蒸馏过程中固定所有参数。

…详情请参照古月居

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)