0. 简介
之前作者前段时间在研究BEV的相关算法,当时就觉得BEV算法好是好,但是所需要的内存以及计算资源实在是太大了,无法实时在真实场景中运行。我们知道多视图(multi-view)三维目标检测具有低成本、高效率的特点,具有广阔的应用前景。然而,由于缺乏深度信息,通过透视图准确地检测目标是极其困难的。当前的方法倾向于为图像编码器采用重主干,使得它们不适用于现实世界的部署。与图像不同的是,激光雷达点在提供空间线索方面更优越,导致高度精确的定位。本文探索了基于激光雷达的检测器用于多视图(multi-view)三维目标检测。本文不是直接训练深度预测网络,而是在鸟瞰(BEV)空间中统一图像和激光雷达特征,并在师生范式中自适应地跨非同质表征传递知识。为此本文《Cross-Modal BEV Distillation for Multi-View 3D Object Detection》,目前我们可以在Github上找到对应的链接。
1. 主要贡献
本文通过设计一个跨模态的BEV知识蒸馏框架,即BEVDISTILL来解决上述挑战。本项目没有构建一个单独的深度估计网络,也没有显式地将一个视图投影到另一个视图中,而是将所有特征转换到BEV空间,同时保持几何结构和语义信息。通过共享BEV表示,不同模态的特征在不损失太多信息的情况下自然对齐。通过密集和稀疏监督,自适应地迁移空间知识:
- 引入软前景引导蒸馏,用于非均匀密集特征模仿,
- 提出稀疏式实例蒸馏范式,通过最大化互信息,有选择地监督学生
2. 相关工作
2.1 基于视觉的3d目标检测
基于视觉的3D目标检测旨在检测目标的位置、尺度和旋转,这在自动驾驶和增强现实中非常重要。其中一项工作是直接从单幅图像中检测3D盒子。Mono3D利用传统方法将2D对象提升到具有语义和几何信息的3D空间。考虑到位于不同距离的物体会出现在不同的尺度上,D4LCN提出利用深度预测进行卷积核学习。最近,FCOS3D将经典的2D范式FCOS扩展到单目3D目标检测。通过预测其2d属性,将回归目标转换到图像域。此外,PGD引入了关系图来改进对象定位的深度估计。MonoFlex认为位于不同位置的对象不应该被平等对待,并提供自动调整的监督。
另一项工作是从多视角图像中预测物体。DETR3D首先通过引入一个新的概念:3D参考点,将DETR纳入3D检测。之后, Graph-DETR3D通过动态图特征聚合丰富特征表示来扩展它。与上述方法不同,BEVDet利用Lift-splat-shoot将图像明确投影到BEV空间,然后使用传统的3D检测头。受最近开发的注意力机制的启发,BEVFormer以可学习的注意力方式自动化cam2bev过程,并取得了优越的性能。PolarFormer将极坐标引入到BEV空间的模型构建中,大大提高了性能。此外,BEVDepth通过明确地用投影的激光雷达点监督深度预测来改进BEVDet,并实现了最先进的性能。
2.2 目标检测中的知识蒸馏
大多数用于目标检测的KD方法专注于通过迫使学生的预测与教师的预测相匹配,在两个同质检测器之间迁移知识。更近期的作品发现模仿特征表示对检测更有效。一个重要的挑战是确定应该从教师模型中提取哪些特征区域。FGFI 选择由GT的IoU大于一定阈值的锚框所覆盖的特征。PGD 只关注几个关键的预测区域,使用分类和回归分数的组合作为质量的衡量标准。尽管有大量的工作讨论了目标检测中的KD,但只有少数工作考虑了多模态设置。MonoDistill 将点投影到图像平面,并应用修改后的基于图像的3D检测器作为提取知识的教师模型。这样的范式自然地解决了对齐问题,然而,它错过了追求更强大的基于点的教师模型的机会。LIGA-stereo利用激光雷达的信息,通过监督基于视觉的模型的BEV表示与第二个模型的中间输出。 最近,UVTR(Li et al.,2022a)提出在保持各自检测器结构的前提下,提取体素空间中的跨模态知识。 然而,它直接迫使二维分支模仿三维特征,忽略了不同模态之间的差异。
3. 详细内容
在本节中,我们将详细介绍我们提出的BEVDistill。我们首先在图1中概述了整个框架,并阐明了3.1节中教师和学生模型的模型设计。在3.2节中提出跨模态知识蒸馏方法,由两个模块组成:密集特征蒸馏和稀疏实例蒸馏。
3.1 基线模型
学生模型。采用当前最先进的基于相机的检测器BEVFormer作为学生模型。它由用于特征提取的图像主干、用于cam2bev视图转换的空间交叉注意力模块和用于3D目标检测的transformer头组成。此外,它提供了一个时间交叉注意力模块来感知子序列的多帧信息,以更好地预测。
老师模型。为了保持与学生模型的一致性,我们选择Object-DGCNN作为我们的教师模型。为简单和通用性,将DGCNN注意力替换为普通的多尺度注意力模块。它首先将3D点投射到BEV平面,然后用基于transformer的标签分配进行一对一监督。通过从预训练的中心点模型初始化来训练模型,并在知识蒸馏过程中固定所有参数。
…详情请参照古月居
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)