SAM-DETR学习笔记Accelerating DETR Convergence via Semantic-Aligned Matching

2023-11-15

Abstract

最近开发的DEtection TRansformer（DETR）通过消除一系列手工制作的组件，建立了一个新的对象检测范式。然而，DETR的收敛速度非常慢，这大大增加了培训成本。我们观察到，慢收敛主要归因于在不同特征嵌入空间中匹配具有目标特征的对象查询的复杂性。本文介绍了SAM-DETR，这是一种语义对齐匹配DETR，它大大加快了DETR的收敛，而不牺牲其准确性。SAM-DETL从两个角度解决了收敛问题。首先，它将对象查询投影到与编码图像特征相同的em寝具空间中，在那里可以使用对齐的语义有效地完成匹配。其次，它显式地搜索具有最具辨别特征的显著点以进行语义对齐匹配，这进一步加快了收敛速度并提高了检测精度。SAM-DETR就像一个即插即用的解决方案，很好地补充了现有的收敛解决方案，但只引入了少量的计算开销。扩展实验表明，所提出的SAM-DETR实现了较高的收敛性和竞争检测精度。实施代码是公开的athttps://github.com/ZhangGongjie/SAM-DETR .

1. Introduction

目标检测是计算机视觉中最基本的任务之一，随着深度学习的发展，目标检测取得了前所未有的进展[27]。然而，由于大多数对象检测器过度依赖手工制作的组件（如锚、基于规则的目标分配和非最大抑制（NMS）），因此它们通常存在复杂的检测流水线和次优性能。最近提出的DEtection TRansformer（DETR）[3]为物体检测消除了对此类手动设计组件的需求。尽管设计简单，结果令人满意，但DETR最显著的缺点之一是其训练收敛速度极慢，需要500个时期才能收敛到COCO基准[26]，而Faster R-CNN[35]只需要12～36个时期。这种缓慢的收敛问题显著增加了训练成本，从而阻碍了其更全面的应用。DETR在解码器中使用一组对象查询来检测不同空间位置的目标对象。如图2所示，在交叉关注模块中，使用基于集合的全局损失来训练这些对象查询，以匹配目标对象，并从匹配区域提取相应的特征，用于后续预测。然而，如[10，31，63]中所指出的，每个对象查询在初始化时几乎与所有空间位置匹配，因此需要繁琐的训练迭代来学习关注相关区域。对象查询与对应的目标特征之间的匹配困难是DETR缓慢收敛的主要原因。最近已经提出了一些工作来解决DETR的缓慢收敛问题。例如，可变形DETR[63]用可变形注意力代替了原始的全局密集注意力，该注意力只关注一小部分特征，以降低复杂性并加快收敛。条件DETR[31]和SMCA-DETR[10]修改了交叉注意力模块，使其在空间上受到限制。相反，我们的方法从不同的角度工作，不需要修改注意力机制。我们的核心思想是简化对象查询与其对应目标特征之间的匹配过程。基于暹罗语的架构定义了一个有希望的匹配方向，该架构通过两个相同的子网络将匹配双方的语义对齐，以将它们投射到相同的嵌入空间中。其有效性已在各种匹配涉及的视觉任务中得到证明，如目标跟踪[1、4、20、21、46、47]、重新识别[5、37、38、48、59]和少量镜头识别[15、19、39、41、55]。受这一观察的启发，我们提出了语义对齐匹配DETR（SAM-DETR），它在交叉关注模块之前附加了一个即插即用模块，以在语义上对齐对象查询与编码图像特征，从而促进它们之间的后续匹配。这为对象查询提供了强大的优先权，以集中于编码图像特征中的语义相似区域。此外，由于对象关键点和末端在识别和定位中的重要性[3，31，62]

我们建议明确地搜索多个显著点，并将它们用于语义对齐匹配，这自然符合DETR的原始多头注意机制。我们的方法只在原始DETR中引入了一个即插即用模块，而大多数其他操作保持不变。因此，所提出的方法可以很容易地以互补的方式与现有的收敛解相结合。总之，这项工作的贡献是四方面的，这通过创新性地将其交叉注意力解释为“匹配和蒸馏”过程，并在语义上将对象查询与编码的图像特征对齐，我们建议显式搜索具有最具区别性特征的对象的显著点，并将其馈送到交叉关注模块进行语义对齐匹配，这进一步提高了检测精度，并加快了模型的收敛速度。第三，实验验证了我们提出的SAM-DETR与原始DETR相比实现了更快的收敛。第四，由于我们的方法只在原始DETR中添加了一个即插即用模块，而其他操作基本不变，因此所提出的SAM-DETR可以很容易地与现有解决方案集成，这些解决方案可以修改注意力机制，以进一步提高DETR的收敛性，甚至在12个训练周期内也可以达到与Faster R-CNN相当的收敛速度。

2. Related Work

物体检测。现代物体检测方法可大致分为两类：两级检测器和单级检测器。两级检测器主要包括Faster R-CNN[35]及其变体[2，9，16，23，32，44，49，51，54]，其使用区域建议网络（RPN）来生成区域建议，然后对其进行每个区域的预测。单级检测器[17，28，29，33，34，43，57，61，62]跳过建议生成，直接在密集放置的滑动窗口（锚点）或对象中心上执行对象分类和定位。然而，这些方法中的大多数仍然依赖于许多手工制作的组件，例如锚点生成、基于规则的训练目标分配和非最大抑制（NMS）后处理，因此不是完全端到端的，最近提出的DETR[3]为对象检测建立了一个新的范例[50，55，56，60，63]。它采用了Transformer[45]编码器-解码器架构和基于集合的全局损失来取代手工制作的组件，实现了第一个完全端到端的对象检测器。然而，与那些两级和单级探测器相比，DETR存在严重的低收敛性，需要额外的长时间训练才能达到良好的性能。为缓解这一问题，已提出了多项工程：De-950,可变形DETR[63]用稀疏的可变形注意力取代了原来的密集注意力；条件DETR[31]和SMCA-DETR[10]分别提出了条件交叉注意和空间调制共同注意（SMCA），以取代DETR去编码器中的交叉注意模块，旨在对原始交叉注意施加空间约束，以更好地关注突出区域。在这项工作中，我们还旨在从不同的角度改进DETR的收敛性。我们的方法不会修改DETR中的原始注意力机制，因此可以与现有方法互补。基于暹罗的匹配架构。匹配是视觉任务中的常见概念，尤其是在对比度任务中，如人脸识别[36，40]、重新识别[5，14，23，37，38，48，59]、对象跟踪[1，4，8，11，20，21，42，46，47，52，58，64]，少数镜头识别[15、19、39、41、53、55]等。其核心思想是预测两个看跌期权之间的相似性。经验结果表明，基于暹罗的架构将匹配的两侧投影到相同的嵌入空间中，在涉及匹配的任务中表现出色。我们的工作正是基于这一观察结果，将DETR的交叉关注解释为“匹配和特征提炼”过程。为了实现快速收敛，至关重要的是确保对象查询和编码图像特征之间的对齐语义，即，将两者投影到相同的嵌入空间中。

3. Proposed Method

在本节中，我们首先回顾了DTR的基本架构，然后介绍了我们提出的语义对齐匹配DETR（SAM-DETR）的架构。我们还展示了如何将我们的方法与现有的对流解决方案相结合，以进一步促进DETR的收敛。最后，我们展示并分析了几个示例的可视化，以说明我们方法的机制并证明其有效性。

3.1. A Review of DETR

DETR[3]将对象检测的任务表述为集合预测问题，并使用Trans former[45]编码器-解码器架构解决该问题。给定图像I∈RH0×W0×3，主干和Transformer编码器产生编码的图像特征F∈RHW×d，其中特征维数H0、W0和H、W分别表示图像和特征的空间大小，其中N是对象查询的数量，通常为100～300。在Transformer解码器中，对象查询由自关注模块、交叉关注模块和前馈网络（FFN）依次处理，以产生输出，输出进一步通过多层感知器（MLP）生成预测结果。一个很好的方法是：对象查询表示不同空间位置的潜在对象；所述自我关注模块按形式在不同对象查询之间传递消息；在交叉注意模块中，对象查询首先搜索要匹配的对应区域，然后从匹配区域中提取相关特征以用于后续预处理。交叉关注机制制定如下：

其中Wq、Wk和Wvare是关注机制中查询、键和值的线性投影。理想情况下，交叉关注模块的输出Q′∈RN×ds应包含从编码图像特征中提取的相关信息，以预测对象类别和位置。然而，如[10，31，63]中所指出的，对象查询最初与编码图像特征的所有空间位置相等匹配，对象查询如何正确地关注特定区域是一个非常有挑战性的问题。匹配困难是导致DETR收敛速度慢的关键原因

3.2. SAM-DETR

我们提出的SAM-DETR旨在通过将对象查询和编码的图像特征语义对齐到相同的嵌入空间中，从而加速DETR的收敛，从而减轻等式1中匹配过程的困难。它与原始DETR[3]的主要区别在于Transformer解码器层。如图3（a）所示，所提出的SAM-DETR在交叉关注模块和模型可学习参考框之前附加语义对齐模块，以促进匹配过程。与DETR相同，解码器层重复六次，第一层的输入为零，前一层的输出为后续层的输入。可学习的参考框Rbox∈RN×4在第一解码器层被修改，表示相应对象查询的初始位置。在这些参考框的本地化指导下，建议的语义对齐器将先前的对象查询嵌入数据Q和编码的图像特征F作为输入，以生成新的对象查询插入数据Qnew及其位置嵌入数据Qnewpos，并将其反馈给后续的交叉关注模块。生成的嵌入Qnew被迫位于与编码图像特征F相同的嵌入空间中，这有助于它们之间的后续匹配过程，使对象查询能够快速、正确地处理编码图像特征中的相关区域

3.2.1 Semantic-Aligned Matching

如等式1和图2所示，交叉注意力模块将点积应用于对象查询和编码的图像特征，生成指示对象查询和目标区域之间匹配的注意力权重图。使用点积是直观的，因为它测量两个向量之间的相似性，鼓励对象查询对更相似的区域具有更高的关注权重。然而，原始DETR[3]并未强制对象查询和编码图像特征语义对齐，即投影到相同的嵌入空间中。因此，对象查询嵌入在初始化时被随机投影到嵌入空间，因此几乎与编码图像特征的所有空间位置相等匹配。因此，需要非常长的训练来学习它们之间的有效匹配。通过以上观察，提出的SemanticsAligner设计了一种语义对齐机制，以确保对象查询嵌入与编码的图像特征位于相同的嵌入空间中，这保证了它们之间的多积是一种有意义的相似性度量。这是通过基于参考框从编码图像特征中重新采样对象查询来实现的，如图3（b）所示。给定编码图像特征和对象查询的参考框Rbox，Semantics Aligner首先将编码图像特征的空间维度从1D序列HW×d恢复到2D映射H×W×d。然后，它应用RoIAlign[12]从编码的图像特征中提取区域级特征sFR∈RN×7×7×d。然后通过从FR重新采样获得新的对象查询Qnew和Qnewpos。更多细节将在下一小节讨论

由于重采样过程不涉及任何项目，因此新的对象查询嵌入Qnews与编码的图像特征F共享完全相同的嵌入空间，从而为对象查询聚焦于完全相似的区域提供了强大的先验。

3.2.2 Matching with Salient Point Features

多头部注意力在DETR中扮演着不可或缺的角色，它允许每个头部专注于不同的部分，从而显著增强其建模能力。此外，先前的工作[3，31，62]已经确定了对象检测中最具辨别力的显著点的重要性，我们建议明确搜索多个显著点，并将它们的特征用于上述语义对齐匹配。这种设计自然适合多头注意力机制[45]，无需任何修改。让我们将注意力头的数量表示为M，通常设置为8。如图3（b）所示，在通过RoIAlign检索区域级特征sFR之后，我们应用ConvNet和多层感知（MLP）来预测每个区域的McoordinatesRSP∈RN×M×2，表示对识别和局部化对象至关重要的突出点。

值得注意的是，我们将预测坐标限制在参考框内。第4.3节对该设计选择进行了实证验证。然后通过双线性插值从FR中采样显著点的特征。与M搜索到的突出点相对应的M采样特征向量最终被连接为新的对象查询嵌入，以便每个注意力头部可以集中在一个突出点的特征上

新的对象查询的位置嵌入是以突出点的图像比例坐标为输入，使用正弦函数生成的。类似地，对应于Msalient点的位置嵌入也被连接起来，以提供给后续的多头交叉关注模块

3.2.3 Reweighting by Previous Query Embeddings

Semantics Aligner有效地生成了与编码图像特征在语义上对齐的新对象查询，但也带来了一个问题：以前的查询em beddingsQ包含用于检测的有价值的信息，而交叉关注模块根本没有利用这些信息。为了解决这个问题，所提出的语义对齐器还将先前的查询查询Qa作为输入，通过线性投影和S形函数生成加权系数。通过对重加权系数的逐元素乘法，新的查询嵌入和它们的位置嵌入都被重加权为高权重的重要特征，从而有效地利用来自先前查询嵌入的有用信息。该过程可表述为

其中WRW1和WRW2表示线性投影，σ（·）表示S形函数，⊗表示元素乘法

3.3.与SMCA-DETR的兼容性

如图3（a）所示，我们提出的SAM DETRonly添加了一个即插即用模块，具有轻微的计算开销，而大多数其他操作（如注意机制）保持不变。因此，我们的方法可以很容易地以互补的方式与现有的收敛解决方案一起工作，以进一步促进DETR的收敛。我们通过将我们的方法与SMCA-DETR[10]（一种最先进的加速DETR收敛的方法）集成，证明了我们的方法的卓越兼容性。SMCA-DETR[10]用空间调制的共同注意（SMCA）代替了原始的交叉注意，SMCA估计了对象查询的空间位置，并应用2D高斯权重图来约束注意响应。在SMCA-DETR[10]中，2D高斯权重图的中心位置和尺度都是从对象查询嵌入中预先预测的。为了将我们提出的SAM-DETR与SMCA相结合，我们做了轻微的修改：我们采用Semantics Aligner预测的突出点坐标作为2D类高斯权重图的中心位置，同时根据合并的RoI特征预测权重图的比例。实验结果证明了我们提出的方法与SMCA-DETR[10]之间的互补效应。

3.4.可视化和分析

图4可视化了由提出的语义对齐器搜索的显著点，以及从多头交叉注意力模型生成的它们的注意力权重图。我们还将它们与原始DETR的衰减权重图进行了比较。这两个模型都以ResNet-50[13]为骨干进行了12个时期的训练。可以观察到，搜索到的显著点大部分位于目标对象内，并且通常是对对象识别和定位至关重要的最独特的位置。这说明了我们的方法在后续匹配过程中搜索显著特征的有效性。此外，如来自不同头部的注意力权重图所示，来自每个显著点的采样特征可以有效地匹配目标区域和搜索范围下的nar行，如注意力图区域所反映的结果，该模型可以有效且高效地关注整体注意力图中目标对象的末端，这大大促进了收敛。相比之下，从原始DETR生成的注意力图更加分散，无法有效和准确地定位末端。这种观察符合我们的动机，即在将对象查询与目标特征匹配时的应用是DETR收敛缓慢的主要原因。可视化还证明了我们提出的设计通过语义对齐匹配和显式搜索显著特征来缓解匹配困难的有效性

4. Experiments

4.1. Experiment Setup

数据集和评估指标

我们对COCO 2017数据集[26]进行了实验，其中包含约117k张训练图像和5k张验证图像。采用COCO的标准评估指标来评估目标检测的性能。

实施细节

SAM DETR的实施细节大多与原始DETR[3]一致。Weadopt ImageNet预训练[7]ResNet-50[13]作为骨干，并使用AdamW优化器[18，30]使用8×Nvidia V100 GPU训练我们的模型。主干的初始学习速率设置为1×10−5，Trans former编码器-解码器框架的初始学习率设置为1 x 10−4，权重衰减为1×1−4。学习率在稍后阶段衰减0.1。批量大小设置为16。将ResNet-50与升级（R50-DC5）一起使用时，批量大小为8。模型架构相关的超参数与DETR保持相同，只是我们将对象查询的数量N从100增加到300，并用S形焦点损失代替交叉熵损失进行分类[25]。这两种设计变化都与以前的工作一致，以促进DETR的收敛[10，31，63]。我们采用了与DETR[3]相同的数据增强方案，包括水平翻转、随机裁剪和随机调整大小，最长边最多1333像素，最短边至少480像素

我们采用了两种训练方案进行实验，其中包括学习率在10个时期后衰减的12个时期方案，以及学习率在40个时期后衰退的50个时期方案

4.2. Experiment Results

表1对提议的SAM DETR、其他类似DETR的检测器[3、6、10、31、63]和Faster R-CNN[35]进行了全面比较。如图所示，经过长时间训练后，Faster R-CNN和DETR都能取得令人印象深刻的性能。然而，当只训练了12个时期时，Faster R-CNN仍然取得了良好的性能，而DETR由于其缓慢的收敛而表现得更差。最近的几项工作[10，31，63]修改了原始的注意机制，并在12个时期的训练方案下有效地提高了DETR的性能，但与强大的Faster R-CNN基线相比仍有很大差距。对于独立使用，与原始DETR基线相比，我们提出的SAM DETR可以实现显著的性能增益（+10.8%AP），并优于所有DETR变体[10，31，63]。此外，提出的SAM-DETR可以很容易地与现有的DETR的收敛增强方法，以实现更好的性能。将我们提出的SAM DETR与SMCA[10]相结合，与独立的SAM-DETR相比，AP+2.9%，与SMCA-DETR[10]相比，AP+4.4%，在12个时期内实现了与Faster R-CNN相当的性能。图1还显示了12个时期方案下竞争方法的收敛曲线1,

我们还使用更强的主干R50-DC5和更长的50历元训练方案进行了实验。在各种设置下，所提出的SAM-DETR一致地提高了原始DETR的性能，并在进一步与SMCA集成时实现了最先进的精度[10]。在各种设置下的优异性能证明了我们方法的有效性。

4.3. Ablation Study

我们进行了消融研究，以验证我们提出的设计的有效性。在12历元训练方案下使用ResNet-50[13]进行实验

语义对齐匹配（SAM）的效果。如表2所示，所提出的SAM与任何查询重采样策略一起，始终实现优于基线的性能。结果有力地支持了我们的说法，即SAM有效地降低了将对象查询匹配到其相应目标特征的复杂性，从而加速了DETR的收敛。搜索显著点的效果。如表2所示，不同的查询重采样策略导致检测精度的大差异。最大池的性能优于平均池，这表明检测更多地依赖于关键特性，而不是平等地对待所有特性。这促使我们明确地搜索显著点，并使用它们的特征进行语义对齐匹配。结果表明，仅搜索一个显著点并作为新的对象查询对其特征进行重新采样优于原始的重新采样策略。此外，采样多个显著点扫描自然与多头注意力机制一起工作，进一步增强了新对象查询的表示能力，提高了性能。在Boxesvs中搜索。在图像中搜索。如第3.2.2节所述，在相应的参考框中搜索显著点。如表3所示，在图像尺度上搜索突出点（允许突出点位于其参考框之外）会降低性能。我们怀疑性能下降是由于匹配更大搜索空间的难度增加。值得注意的是，原始DETR的对象查询没有明确的搜索范围，而我们提出的SAM-DETR模型具有可解释含义的可学习参考框，这有效地缩小了搜索空间，导致加速收敛。先前嵌入的重新加权效果。Webbelieve先前对象查询的嵌入包含有助于检测的信息，应在匹配过程中有效利用这些信息。为此，我们预测了一组来自先前查询嵌入的重加权系数，以应用于新生成的对象查询、高光照关键特征。如表2所示，所提议的检索一致地提高了性能，表明有效地使用了以前的对象查询中的知识.

4.4. Limitation

与Faster R-CNN[35]相比，SAM-DETR具有DETR[3]在大型物体上的卓越精度，在小型物体上的性能下降。提高小对象精度的一种方法是利用多尺度特征，我们将在未来对此进行探索。

5.结论

他的论文提出SAM-DETR来加速DETR的收敛。SAM-DETR的核心是一个即插即用模块，它在语义上对齐对象查询和编码特征，以促进它们之间的匹配。它还显式搜索显著点特征以进行语义对齐匹配。所提出的SAM-DETR可以与现有的收敛解决方案轻松集成，以进一步提高性能，从而在12个训练周期内实现与Faster R-CNN相当的精度。我们希望我们的工作为更全面地研究和应用DETR铺平道路

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)