论文阅读视频生成

2023-11-01

T.-C. Wang et al., “Video-to-Video Synthesis,” arXiv:1808.06601 [cs], Dec. 2018, Accessed: Nov. 03, 2020. [Online]. Available: http://arxiv.org/abs/1808.06601.

论文项目地址: https://tcwang0509.github.io/vid2vid/

Abstract

Introduction

1. GANs

2. Unconditional video synthesis

3. Future video prediction

4. video-to-vide synthesis

Video-to-Video Synthesis

trick3: Multimodal Synthesis

Abstract

video-to-video synthesis: 学习一个从输入视频(如一系列语义分割组成的视频)到输出视频(如真实场景)的映射.

目前(2018年底)的研究现状: 尽管image-to-image得到了很好的研究，但视频到视频的研究害很少。如果直接采用image-to-image的技术，在强行把每一帧拼到一起得到视频，则视频质量很低，看起来也不连贯。

本文的工作: 提出了一个基于GAN的video-to-video synthesis方法。并在三种不同类型的场景(分割、骨架和姿态)下进行了验证。

本文的效果: 可以达到2k的分辨率和最长30s的长度，远好于SOTA.

Introduction

生成视频很有意义, 可以应用在计算机视觉、机器人、计算机图形学等领域。目前有根据已有帧预测futer video的研究；有无条件的视频生成。但这篇文章inspired by其他特定目的的视频处理方法，如视频去噪、视频取模糊等，研究了视频到视频的条件生成任务。

具体而言，本文将视频到视频的图像合成任务看作了分布匹配问题，通过条件GAN将分割视频、骨架视频等转换为真实的视频。

文章在多个数据集上进行了尝试，输入的格式包括分割、骨架和姿态，能够产生2k的分辨率和最长30s的长度，远好于SOTA.

1. GANs

文章使用了条件GAN, 以manipulable(可操作的) semantic representations作为条件输入。

2. Unconditional video synthesis

从随机向量生成视频，如VGAN使用了时空卷积网络，TGAN将latent code映射为图片，再转换为视频；MoCoGAN使用RNNl；

因为无条件的设定，所以该类方法的重建视频通常分辨率较低且时间短。

3. Future video prediction

用观测到的帧预测未来的帧，它以图像重建loss 进行优化，常常会导致模糊，同时也无法完成长时间的预测毕竟信息有限。

video-to-video合成问题与视频预测在本质上是不同的。因为video-to-video合成不会尝试预测物体的运动，而是根据已有的条件信息来产生另一个域的对应信息。

4. video-to-vide synthesis

视频去噪、去模糊、去雨等也可以看作是video-to-vide synthesis问题。但这类研究都是对特定任务的，因此不能直接把已有的去噪之类的方法拿来做为本文的方法。

Video-to-Video Synthesis

$s_1^T \equiv \{ s_{1},s_{2},...,s_{T}\}$ ：输入视频序列，比如是语义分割帧的序列或者边缘图序列；

$x_1^T \equiv \{x_{1},x_{2},...,x_{T}\}$ ：真实场景的(目标)视频序列；

本篇文章的目标：找到从 $s_1^T \equiv \{ s_{1},s_{2},...,s_{T}\}$ 到重建视频 $\hat{x}_1^T \equiv \{\hat{x}_{1},\hat{x}_{2},...,\hat{x}_{T}\}$ 的映射。从而使二者的条件分布相同:

$p(\hat{x}_{1}^{T}|s_{1}^{T}) = p(x_{1}^{T}|s_{1}^{T})$

根据GAN理论，目标函数为：

$\max_{D}\min_{G} E_{(x_{1}^T,s_{1}^T)} [\log D(x_{1}^T,s_{1}^T)] + E_{s_{1}^T} [\log (1 - D(G(s_{1}^T),s_{1}^T))]$

以此为理论依据，论文提出了新的网络结构去完成video-to-vide synthesis任务。

序列生成器

基本原理

通过假设马尔可夫过程来简化图像生成任务，即认为条件分布 $p(\hat{x}_{1}^{T}|s_{1}^{T})$ 可以分解为

$p(\hat{x}_{1}^{T}|s_{1}^{T}) = \prod_{t=1}^T p(\hat{x}_{t}|\hat{x}_{t-L}^{t-1},s_{t-L}^{t}).$

也就是说视频仅仅通过部分的帧序列即可还原，并且第t帧 $\hat{x}_t$ 只与下面3个有关：

(1) 当前输入帧 $s_t$ ；

(2) 之前的L个输入帧 $s_{t-L}^{t-1}$ ;

(3)之前的L个生成帧 $\hat{x}_{t-L}^{t-1}$ 。

通过训练一个网络F，来使用第t帧 $\hat{x}_t=F(\hat{x}_{t-L}^{t-1},s_{t-L}^{t})$ 建模条件分布 $p(\hat{x}_{t}|\hat{x}_{t-L}^{t-1},s_{t-L}^{t})$ .

通过递归使用F来得到最终的输出，即重建的视频 $x_1^T \equiv \{x_{1},x_{2},...,x_{T}\}$ 。

L的取值显然需要trade-off，当L太大时，太耗卡；当L过小时，质量不好。因此文章选择了L=2;

trick1: 通过光流估计利用帧间冗余

除了连续帧之间恰好被遮挡的物体，其他情况下使用光流估计利用帧间冗余都是有效的。通过把F建模为

$F(\hat{x}_{t-L}^{t-1},s_{t-L}^{t})=(\mathbf{1}-\hat{m}_{t}) \odot \hat{w}_{t-1}(\hat{x}_{t-1})+ \hat{m}_{t} \odot \hat{h}_{t},$

其中， $\odot$ 表示element-wise操作，1表示全1图像。这样，第一部分就是考虑到光流估计的前一帧；第二部分即为合成的有新像素的图片。上式中各项的含义为

$\hat{w}_{t-1}=W(\hat{x}_{t-L}^{t-1},s_{t-L}^{t})$ : 估计的从 $\hat{x}_{t-1}$ 到 $\hat{x}_{t}$ 的光流；W是光流预测网络。文章通过输入的帧 $s_{t-L}^{t}$ 和之前合成的帧 $\hat{x}_{t-L}^{t-1}$ 来估计光流. $\hat{w}_{t-1}(\hat{x}_{t-1})$ 的意思是使用 $\hat{w}_{t-1}$ 来wrap $\hat{x}_{t-1}$ .
$\hat{h}_{t}=H(\hat{x}_{t-L}^{t-1},s_{t-L}^{t})$ 是由生成器H合成的图片；
$\hat{m}_{t}=M(\hat{x}_{t-L}^{t-1},s_{t-L}^{t})$ 是遮挡mask，取值为[0,1]之间的连续值，M则是mask预测网络。通过使用连续取值而不是bool值来更好地处理放大区域(也就是图片放大之后会变模糊，一些像素看起来就好像既被遮挡了又没被遮挡)，从而更好地恢复细节。

trick2: 前景-背景先验

这个trick只针对分割语义的输入情况，此时F可以进一步建模为

$F(\hat{x}_{t-L}^{t-1},s_{t-L}^{t})=(\mathbf{1}-\hat{m}_{t}) \odot \hat{w}_{t-1}(\hat{x}_{t-1})+ \hat{m}_{t} \odot {(} (\mathbf{1}-\mathbf{m}_{B,t}) \odot \hat{h}_{F,t} + \mathbf{m}_{B,t} \odot \hat{h}_{B,t}{)}$

其中, $\hat{h}_{F,t} = H_F(s_{t-L}^{t})$ 是前景模型； $\hat{h}_{B,t} = H_B(\hat{x}_{t-L}^{t-1},s_{t-L}^{t})$ 是后景模型； $\mathbf{m}_{B,t}$ 是由输入的分割语义得到的背景mask. 实验证明，该trick能够提高指标。

trick3: Multimodal Synthesis

论文中好像没有明确表示是否适用于所有输入，但只描述了在语义分割下的原理。能够使得同样的输入得到多个不同视觉效果的输出，

生成器网络结构

生成器使用了粗-精细两部分重建的结构。其中，粗糙重建的网络结构如下图所示

可见，它以输入序列 $s_{t-L}^{t}$ 和之前的合成序列 $\hat{x}_{t-L}^{t-1}$ 为网络输入，每部分的帧被concat一起然后经过几个res block形成了两个包含high-level features的中间层。然后，将两个中间层加到一起并且feed into两个分离的残差网络。第一个网络H得到由生成器H合成的图片 $\hat{h}_{t}=H(\hat{x}_{t-L}^{t-1},s_{t-L}^{t})$ ；第二个网络表示M和W，得到了光流 $\hat{w}_{t-1}=W(\hat{x}_{t-L}^{t-1},s_{t-L}^{t})$ 和遮挡mask $\hat{m}_{t}=M(\hat{x}_{t-L}^{t-1},s_{t-L}^{t})$ 。

接下来是全部的网络结构，即再加上两个精细还原结构：

通过相加将G2提取的特征和G1的输出组合到一起并decode得到最终的高分辨率结果。

判别器

文章使用了两个鉴别器来缓解mode collapse并提升效果。

条件图像鉴别器DI: 判断每一个输出帧是否真实，即对真实的pair $(x_t,s_t)$ 输出1；对假pair $(\hat{x}_t,s_t)$ 输出0；

条件视频鉴别器DV：在给定相同光流的情况下判断生成的序列是否真实。对对真实的pair $(x_{t-K}^{t-1},w_{t-K}^{t-2})$ 输出1；对假pair $(\hat{x}_{t-K}^{t-1},w_{t-K}^{t-2})$ 输出0；

使用了采样算子来实现上面的操作。

损失函数

损失函数如下

$\min_{F} ( \max_{D_I} \mathcal{L}_{I}(F,D_I) + \max_{D_V} \mathcal{L}_{V}(F,D_V) ) + \lambda_{W} \mathcal{L}_{W}(F)$

其中LI是图像部分条件GAN的loss，使用了采样算子 $\phi_I$

$E_{\phi_I(x_1^T,s_1^T)} [\log D_I(x_i,s_i)] + E_{\phi_I(\hat{x}_1^T,s_1^T)} [\log (1 - D_I(\hat{x}_i,s_i))]$

LV是视频部分条件GAN的loss，使用了采样算子 $\phi_V$

$E_{\phi_V (w_1^{T-1},x_1^T,s_1^T)} [\log D_V(x_{i-K}^{i-1},w_{i-K}^{i-2})] + E_{\phi_V (w_1^{T-1},\hat{x}_1^T,s_1^T)} [\log (1 - D_V(\hat{x}_{i-K}^{i-1},w_{i-K}^{i-2}))]$

LW则是光流损失，包括两个部分，一个是估计的光流和真实的光流之间的区别；另一个是由光流估计的帧和真实帧之间的区别:

$\mathcal{L}_{W} = \frac{1}{T-1}\sum_{t=1}^{T-1} ( ||\hat{w}_t - w_t \|_1 + \|\hat{w}_t(x_t) - x_{t+1} \|_1 ).$

实验

数据集

文章共使用了如下数据集：

Cityscapes
Apolloscape
Face Video Dataset
Dance Video Dataset

Baseline

使用了两个baseline

pix2pixHD，通过生成图片并拼接来比较；
COVST

评价指标

使用了基于Amazon Mechanical Turk的人类主观评价以及 FID。

结果

如下图所示：人脸

跳舞视频

道路视频

定量比较

Discussion

主要的缺点是

对一些场景不能很好地重建，如正在转弯的车，也许可以通过加3D线索，如深度信息来解决；
无法保证同意物体在整个场景下保持不变；
难以完成语义操纵。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)