为了解决这个局限,本文将跨模态任务进行融合,利用一个统一的解码器模型,在任务一致性 ( task identity) 的指导下。设置深视差图回国任务作为 t=1,语义分割任务作为 t=0,解码器根据输入的场景表示 z 和任务一致性 t,得到跨模态输出
Y
~
\widetilde Y
Y:
Y
~
=
D
(
δ
(
z
,
t
)
)
\widetilde Y=D(\delta(z,t))
Y=D(δ(z,t)),
δ
\delta
δ 是拼接操作,D 是跨模态解码器,最后一个网络层没有激活函数层
具体来说,语义分割任务 s (图2中的红线)通过
s
=
σ
c
(
Y
~
s
)
s=\sigma_c(\widetilde Y_s)
s=σc(Ys) 计算,其中
Y
~
s
=
D
(
δ
(
z
,
t
=
1
)
)
\widetilde Y_s=D(\delta(z,t=1))
Ys=D(δ(z,t=1)) ,
σ
c
\sigma_c
σc 是一个 softmax 函数
是插入估计任务通过
d
=
σ
b
(
f
μ
(
Y
~
d
)
)
d=\sigma_b(f_{\mu}(\widetilde Y_d))
d=σb(fμ(Yd)) 实现,其中
Y
~
d
=
D
(
δ
(
z
,
t
=
0
)
)
\widetilde Y_d=D(\delta(z,t=0))
Yd=D(δ(z,t=0)),
f
μ
f_\mu
fμ 是像素级的平局池化操作,
σ
b
\sigma_b
σb 是 sigmoid 函数
这其中预测的输出
Y
~
\widetilde Y
Y 是依赖于设置的任务量 t 的,所以模型可以通过指定 t 的值进行模型最终输出模态的切换
L
r
e
=
∥
I
l
−
I
^
r
→
l
∥
+
∥
I
r
−
I
^
l
→
r
∥
\mathcal{L}_{re}=\|I^l-\hat I^{r\to l}\|+\|I^r-\hat I^{l\to r}\|
Lre=∥Il−I^r→l∥+∥Ir−I^l→r∥
进一步利用左右视差的一致性和预测的视差图的圆滑性改进网络训练,得到最终的损失
L
d
e
p
t
h
=
L
r
e
+
α
l
r
(
∥
d
l
−
d
^
r
→
l
∥
+
∥
d
r
−
d
^
l
→
r
∥
)
+
α
d
s
(
∥
∂
x
d
∥
e
−
∥
∂
x
d
∥
+
∥
∂
y
d
∥
e
−
∥
∂
y
d
∥
)
\mathcal{L}_{depth}=\mathcal{L}_{re}+\alpha_{lr}(\|d^l-\hat d^{r\to l}\|+\|d^r-\hat d^{l\to r}\|)+\alpha_{ds}(\|\partial_xd\|e^{-\|\partial_xd\|}+\|\partial_yd\|e^{-\|\partial_yd\|})
Ldepth=Lre+αlr(∥dl−d^r→l∥+∥dr−d^l→r∥)+αds(∥∂xd∥e−∥∂xd∥+∥∂yd∥e−∥∂yd∥)
定义损失函数为真实语义标签与预测语义标签之间的交叉熵损失:
L
s
e
g
=
H
(
s
g
t
,
s
)
\mathcal L_{seg}=\mathcal H(s_{gt},s)
Lseg=H(sgt,s)
SceneNet 的自监督训练
左右语义一致性
使用左右图一致性作为重建损失,很容易受到左右图光照条件不一致的影响,因此替换使用更高级的语义信息作为一致性判断依据,不容易受到光照条件影响,语义一致性表达为:
L
l
r
s
c
=
∥
s
l
−
s
r
→
l
∥
+
∥
s
r
−
s
l
→
r
∥
\mathcal{L}_{lrsc}=\|s^l-s^{r \to l}\|+\|s^r-s^{l \to r}\|
Llrsc=∥sl−sr→l∥+∥sr−sl→r∥
语义指导的视差圆滑性
为了约束语义的一致性,加上视差图的圆滑性,约束统一分割区域的像素对应的视差的圆滑性
L
s
m
o
o
t
h
=
∥
d
−
f
↦
(
d
)
∥
⨂
(
1
−
∥
ψ
(
s
)
−
f
↦
(
ψ
(
s
)
)
∥
)
\mathcal L_{smooth}=\|d-f_{\mapsto}(d)\|\bigotimes(1-\|\psi(s)-f_{\mapsto}(\psi(s))\|)
Lsmooth=∥d−f↦(d)∥⨂(1−∥ψ(s)−f↦(ψ(s))∥)
L
=
L
+
α
s
e
g
L
s
e
g
+
α
l
r
s
c
L
l
r
s
c
+
α
s
m
o
o
t
h
L
s
m
o
o
t
h
\mathcal{L}=\mathcal{L}+\alpha_{seg}\mathcal{L}_{seg}+\alpha_{lrsc}\mathcal{L}_{lrsc}+\alpha_{smooth}\mathcal{L}_{smooth}
L=L+αsegLseg+αlrscLlrsc+αsmoothLsmooth