摘要
解决目标检测的域自适应问题,其中主要是source和target域之间的巨大差异。前人的工作主要在对齐image-level和Instance-level shifts(Bias 07:DA Faster RCNN),然而,他们忽略去了crucial image regions和important instances在不同域的匹配,这会导致domain shift效果变差。
本文提出一种categorical regularization framework来缓解该问题,并且作为一个plug-and-play,可以灵活的加在DA Faster R-CNN上。
具体来说,通过聚合一个image-level multi-label classifier(因为分类器有但是不强的定位能力)到detection backbone中,我们可以获得和分类信息相关的稀疏但是重要的图片区域。同时,在instance-level,通过在classifier和detection head之间引入一个regularization factor,去自动寻找目标域的hard aligned instances。
Introduction
domain adaptive在图像分类 [5, 6, 22, 33],语义分割 [13, 30, 32] 和目标检测 [1, 28, 41, 12]都有广泛的应用。在目标检测中,DA Faster RCNN是最具有代表性的工作。
近期,DA Faster RCNN有多个系列 [28, 41, 12, 14]。其中 [28, 41]观察到:纯图像级对齐强制对立不可转移的背景,而目标检测任务本质上是聚焦域可能包含感兴趣目标的局部区域。进一步,虽然instance-level对齐可以让object proposals在域上对齐,但是当前的尝试 [1, 12]缺少从low-value region proposals中识别hard aligned instances的能力。
简单来说,本文认为DA Faster RCNN在Image-level(classifier)上,可能只是将target domain大范围的背景,和soure domain强行对齐,而不是将crucial regions去对齐;在head detection上同理。
通过categorical regularization framework,我们可以让backbone networks可以在两个领域中更准确的激活兴趣区域,从而得到更好的自适应目标检测结果。
具体来说,本文包含两个regularization modules,image-level categorical regularization (ICR)和categorical consistency regularization(CCR)。
(1)ICR:在detection backbone network上添加image-level multi-label classifier,并且用source domain的类别标签有监督训练。(2)CCR:考虑image-level predictions和instance-level predictions之间的一致性。
Approach
Image-level Categorical Regularization
对于给定的detection backbone network,本文对最后一个卷积层执行global average pooling,将池化后的特征宋玉一个multi-label classifier(通过一个1x1卷积),通过交叉熵多目标损失。
Categorical Consistency Regularization
本文设计CCR模块去自动寻找hard aligned instances,并基于以下两个动机:(1)因为存在大量的low-value背景候选框,导致无法找到target domain中的hard foreground instances。(2)image-level classifier和instance-level detection level是互补的,因为前者可以帮助RPN获得更准确的RoI特征。假设pjc代表第j个实例的类别为c
在instance-level adversarial loss的基础上扩展:
得到最终的损失函数(DA-Faster):