Unmanned Aerial Vehicle Visual Detection and Tracking using DeepNeural Networks: A Performance Benchmark
深度无人机的视觉检测与跟踪神经网络:性能基准
摘要—无人机(UAV)可能会造成由于疏忽和疏忽造成的重大航空安全风险恶意使用。因此,自动检测和跟踪无人机是空中安全系统的一项基本任务。无人机检测的常见技术包括可见带以及红外热成像,射频和雷达。深度神经网络(DNN)用于基于图像的对象检测的最新进展为将视觉信息用于此检测和跟踪任务打开了可能性。此外,这些检测体系结构可以实现为骨干视觉跟踪系统,从而实现持久跟踪无人机入侵。迄今为止,还没有全面的表现存在将DNN应用于可见波段图像的基准用于无人机检测和跟踪。为此,三个数据集在各种环境条件下进行无人机检测和跟踪,总共包括241个视频(331,486个图像)使用四个检测架构和三个跟踪进行评估构架。表现最佳的检测器架构行动计划(mAP)为98.6%,表现最佳的追踪架构获得96.3%的MOTA。在可见光谱和红外光谱之间进行交叉模态评估,实现了在室内进行训练时,可见图像上的最大mAP为82.8%红外模态。这些结果为基于深度学习的最新技术提供了第一个公开的多方法基准方法并深入了解哪些检测和跟踪架构在无人机领域很有效。
无人机检测和跟踪架构
涉及范围和复杂性,而针对检测和跟踪的多项综合调查已经开展出版更广泛[12] [13]。 我们提供概述通用的流行建筑和文学检测和跟踪挑战。
A.物体检测
对象检测是最基本的方法之一在计算机视觉方面经过充分研究的任务。所需对象必须使用边界框定位,边界框应尽可能紧密地封闭物体。深度学习有由于种类繁多,对物体检测器的影响很大深入的模型可以学习的表达功能。这导致对象检测社区专注于通用对象在许多不同类别上表现良好的探测器和数据集,而不是为特定的探测器设计对象[30]。深度学习架构主要由两个组成类别:两级检测器和一级检测器。这两级检测器,例如RCNN [31],Faster RCNN [23]和RFCN [32],由一个阶段组成一组可能包含所需的感兴趣的候选区域对象和第二阶段对提议的区域进行分类并回归其边界框参数。这些探测器通常在以下方面优于一阶段检测架构检测精度方面以计算为代价效率。一级检测器,例如OverFeat [33],YOLO(您仅查看一次)[16],SSD(单发检测器)[15]和CornerNet [34]放弃区域提案阶段,赞成使用全局图像特征确定边界框位置。特别是YOLO和SSD会分割影像进入网格并回归边界框的参数关于每个网格单元上的一组锚框。相反,CornerNet专注于检测关键点对在每个对象的左上角和右下角。 DETR(检测变压器)[17]是一种较新的方法,它使用了双向的变压器编码器-解码器架构匹配损失以提出边界框。尽管在对象检测方面取得了长足的进步,主要的挑战是无人机通常会以惊人的速度出现图像中的不同尺寸。小物体是由这样的检测架构中,更少的像素以及随后的卷积骨干的最深层可以努力提取详细的对象信息。此外,连续的最大池化层可能会抑制这种检测对倒数第二个小场景物体的响应架构的各个阶段。为了解决这个问题,以金字塔为特色网络[35]融合了几层功能,以执行多尺度检测。另一个问题是将无人机与其他类似颜色的小型物体区分开来出现在天空中的鸟类,例如鸟类。这体现为“无人机与鸟类”数据集[29],其中获胜者团队实现了具有时间感知能力的两阶段检测器输入通道和标准跟踪算法进行过滤排除误报[36]。由于能见度较差,无人机也可能难以检测在恶劣的天气条件下,照明不良,质量低下摄像头(在其他无人机上)和具有类似颜色的建筑物轮廓。杨等。 [37]提高可见度的调查方法用于检测,包括除雾,除雨和弱光增强。这些方法改善了检测结果经过精心研究的物体,例如人脸,行人和车辆,但尚不清楚它们是否会转移到无人机上。
B.追踪
单目标跟踪(SOT)带来了关键挑战区分物体与背景的方法相对建立的传统算法可以执行井[38],[39],[40],[41]。多目标跟踪(MOT),但是,本文的范围在此进行介绍。进一步的挑战。特别是,我们必须能够跟踪多个物体在短时间内或长时间内彼此遮挡大体时间。为此,算法通常采用外观描述符[42],[43],[44]或利用运动信息[45],[46]区分附近的运动对象。Geiger等。 [47]使用匈牙利算法[48]用于对象跟踪。他们能够通过关联预测位置来精确跟踪城市场景中的车辆运动,检测到的位置和物体的几何形状从外观提示。 Bewley等。 [24]证明可以获得良好的性能(但不限于车辆跟踪),而无需昂贵的几何图形计算。此外,他们还展示了他们的在线框架比其他方法更快,而且不会牺牲准确性。 Wojke等。 (DeepSORT)[25]进一步介绍SORT框架内的一个深层辅助网络更好地捕获对象的外观描述符。这个在关联步骤中使用了对对象姿势和摄像机视点变化具有鲁棒性的重新识别网络显着减少物体出现的次数确定为新的,而不是与具有之前已被确定。 Bergmann等。 (跟踪器)[26]表明检测器实际上足以进行跟踪系统,并且不需要显式的运动预测和关联。他们表明运动模型可以在包围盒回归中被充分捕获探测器的数量,并达到最新的精度和框架吞吐量。但是,在几乎所有情况下,检测模型体系结构都作为跟踪框架中的骨干存在。因此,评估跟踪性能是很自然的一步在确定探测器的总体性能时,我们包含在此基准中。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)