对于task aligned loss,TOOD使用标准化
t
t
t,即
t
⃗
\vec t
t,以替换损失中的目标。它采用每个实例内最大的IoU作为规范化。该分类的二进制交叉熵(BCE)可以重写为:
L
c
l
s
−
p
o
s
=
∑
i
=
1
N
p
o
s
B
C
E
(
p
i
,
t
⃗
i
)
L_{cls-pos}=\displaystyle\sum_{i=1}^{N_{pos}}BCE(p_i, \vec t_i)
Lcls−pos=i=1∑NposBCE(pi,ti)
Efficient Task-aligned Head (ET-Head). 在目标检测中,分类和定位之间的任务冲突是一个众所周知的问题。YOLOX的解耦头从单级和两级探测器中吸取了教训,并成功地应用于YOLO模型。然而,解耦头可能会使分类和定位任务独立,缺乏任务特定学习。基于TOOD,作者改进了头部,并提出了ET-Head,目标是为了更快更准。如图2所示,作者使用ESE替换TOOD中的层注意力模块,将分类分支的对齐简化,将回归分支替换为Distribution Focal Loss(DFL)层。通过上述实验,ET-Head在V100上增加了0.9ms。 对于分类任务和定位任务的学习,作者分别选择了Varifocal Loss(VFL)和Distribution focal loss(DFL)。PP-Picodet成功地将VFL和DFL应用于目标探测器中,并获得了性能的提高。VFL与中的Quality Focal Loss(QFL)不同,VFL使用目标评分来衡量正样本的损失权重。 这种实现使得具有高IoU的正样本对损失的贡献相对较大。这也使得模型在训练时更注重高质量的样本,而不是那些低质量的样本。并且两者都用IoU感知的分类评分(IACS)作为预测的目标,这可以有效地得到classification score和localization quality estimation的联合表示,使训练和推理之间具有高度的一致性。 为了解决Bounding Box表示不灵活的问题,作者提出使用一般分布来预测Bounding Box。
L
o
s
s
=
α
.
l
o
s
s
V
F
L
+
β
.
l
o
s
s
G
I
o
U
+
γ
.
l
o
s
s
D
F
L
∑
i
=
1
N
p
o
s
t
⃗
i
Loss=\frac{\alpha.loss_{VFL}+\beta.loss_{GIoU}+\gamma.loss_{DFL}}{\displaystyle\sum_{i=1}^{N_{pos}}\vec t_i}
Loss=i=1∑Npostiα.lossVFL+β.lossGIoU+γ.lossDFL