Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation论文解析(视频超分)
论文可以直接必应搜索下载,比百度好用
主要贡献
提出了一种基于亚像素卷积和时空网络的实时视频超分方法。
比较早期融合、慢速融合、3D卷积。
提出一种基于多尺度空间变换器网络的密集帧间运动补偿的有效方法。
将所提出的运动补偿技术与时空模型相结合,以提供一种高效的、端到端可训练的运动补偿视频 SR 算法。
主要方法
Sub-pixel convolution SR(子像素卷积)
对单张图片做超分的方法
最后一步就是子像素卷积,把所有特征图平铺将图片放大r倍。放大倍数也可以小于r,但要满足
x
2
∗
c
=
C
x^2*c=C
x 2 ∗ c = C
x为放大倍数,c为常数,C为通道数。
参考链接https://blog.csdn.net/leviopku/article/details/84975282
+++
Spatio-temporal networks(时空网络)
时空模型粗略图如下
Early fusion
时间帧在第一层进行融合,以颜色通道的方式表达。
Slow fusion
时间帧两两融合和early fusion类似。
3D convolution
是比较好的时空模型。具体操作可以看这个
https://www.cnblogs.com/wangxiaocvpr/p/5734508.html
+++
Spatial transformer motion compensation(空间变换运动补偿)
本文采用双线性插值做光流,因为双线性插值比薄样板插值更高效。
示意图和详细模块如下。
本文通过下式来约束流,
其中
I
t
I_t
I t 是约束帧,
I
t
+
1
′
I'_{t+1}
I t + 1 ′ 是变换帧,
H
H
H 为Huberloss本文通过如下表达式近似:
H
(
∂
x
,
y
∆
)
=
ϵ
+
∑
i
=
x
,
y
(
∂
x
∆
i
2
+
∂
y
∆
i
2
)
H (∂x,y∆) = \sqrt{\epsilon + ∑_{i=x,y}(∂x∆i2 + ∂y∆i2)}
H ( ∂ x , y ∆ ) = ϵ + i = x , y ∑ ( ∂ x ∆ i 2 + ∂ y ∆ i 2 )
空间变换模块优于其他运动补偿机制,因为可以直接参与到超分网络中。如图
空间变换模块和超分模块是可区分的,因而是端到端可训练的。最后,他们能整合成一个loss
实验
单帧与多帧早期融合对比
由图可知多帧表现基本一致,但在超过5帧后,时间依赖可能会变得过于复杂,无法学到有用的信息。与单帧相比早期融合加入时间相关性对运算的增加很少,同时在8层网络后还能保持较好的一致性。
早期融合和慢融合对比
S5表示5帧慢融合,S5-SW表示共享权重5帧慢融合。
和上一块一样早期融合在只增加3%的运算量的情况下获得了更高的精确度,而慢速融合明显提高了速度。虽然慢速融合在七层时准确度较低,但在9层时达到了和早期融合一样好的效果。并且有更好的效率。这表明在浅层网络中最好利用整个网络容量来联合处理信息。但在深层网络下,慢速融合更好。虽然由于网络特征的可重用性,共享权重可以有很高的效率。但E5在效率和质量上都比S5-SW好。并且在所有情况下,在这种性能和效率的权衡中,早期或慢速融合始终优于具有共享权重的慢速融合。论文作者猜测共享权重能在视频动作识别中效果更好是因为有更多的参数,同时更多的联合处理的帧。
运动补偿视频超分
图片结果可以明显看出加入了动态补偿之后的效果好了很多。
PSNR的指标显示,加入了MC之后指标也有明显的提升。
总结
本篇论文将亚像素卷积的效率优势与时间融合策略相结合,提出了视频 SR 的实时时空模型。 所使用的时空模型精度更高,复杂度更低。 将模型与基于空间变换网络的运动补偿机制结合,该机制对于视频 SR 来说是有效且可联合训练的。 与单独的时空模型相比,使用包含显式运动补偿的方法获得的结果被证明在 PSNR 和时间一致性方面具有优势,并且在视频 SR 方面的表现优于当前的技术水平。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)