文本生成视频Make-A-Video,根据一句话就能一键生成视频 Meta新AI模型

2023-10-27

Meta公司(原Facebook)在今年9月29日首次推出一款人工智能系统模型:Make-A-Video,可以从给定的文字提示生成短视频。

Make-A-Video研究基于文本到图像生成技术的最新进展,该技术旨在实现文本到视频的生成,可以仅用几个单词或几行文本生成异想天开、独一无二的视频,将无限的想象力带入生活。比如一句“三马奔腾”生成视频:
请添加图片描述
初步预览地址:https://makeavideo.studio/
文章链接:https://arxiv.org/abs/2209.14792
本篇文章将根据论文边解读边介绍文本生成视频的效果、技术、发展和理解。

一、摘要

我们提出了Make-A-Video——一种直接将文本到图像(T2I)生成的最新巨大进展转换为文本到视频(T2V)的方法。我们的直觉很简单:从成对的文本图像数据中了解世界的样子和描述方式,并从无监督的视频片段中了解世界是如何移动的。Make-A-Video有三个优点:(1)它加快了T2V模型的训练(它不需要从头开始学习视觉和多模态表示),(2)它不需要成对的文本视频数据,以及(3)生成的视频继承了当今图像生成模型的广度(审美、幻想描述等方面的多样性)。我们设计了一种简单而有效的方法,用新颖有效的时空模块建立T2I模型。首先,我们分解全时间U-Net和注意张量,并在空间和时间上近似它们。其次,我们设计了一个时空流水线来生成高分辨率和帧速率视频,其中包括视频解码器、插值模型和两个超分辨率模型,可以实现除T2V以外的各种应用。Make-a-video在时空分辨率、对文本的忠实度和质量等各个方面都开创了文本到视频生成的最新技术,由定性和定量测量确定。

二、文本生成视频

2.1、效果预览

模型可以为不同的视觉概念集生成具有连贯运动的高质量视频,如:

一只穿着红色斗篷超级英雄服装的狗,在天空中飞翔。
在这里插入图片描述

一对年轻夫妇在大雨中行走
在这里插入图片描述

猫手里拿着遥控器看电视
在这里插入图片描述

还有一些其他的例子:
在这里插入图片描述
在这里插入图片描述

2.2、难点:没有文本-视频对的数据集

互联网为研究收集了数十亿计的文本-图像数据对,这是文本生成图像能够成功建模的基石之一。然而,由于无法轻松收集类似大小的文本-视频数据集,为文本生成视频复制这种成功是极其有限的,而且目前都已经存在了可以生成图像的模型,从头开始训练文本生成视频模型也是极其浪费资源的。

无监督学习使网络能够从数量级的更多数据中学习,这些大量的数据对于学习世界上更微妙、更不常见的概念的表示非常重要,以这种方式预先训练的模型比单独以监督方式训练的模型具有更高的性能,受这些动机的启发,Make-A-Video孕育而生。

Make-A-Video利用T2I模型学习文本和视觉世界之间的对应关系,并使用未标记(未配对)视频数据的无监督学习来学习真实运动。

2.2、难点:推断动作和事件

文本生成图像都是静态的,人们通常可以从静态图像推断出动作和事件,但是计算机并不具备这种能力,且描述图像的文本并不能完全展现这种动作和事件细节。

同样,作者使用了无监督学习,即使没有文字描述,无监督学习也足以了解世界上不同的实体是如何移动和相互作用的。
Make-A-Video开创了T2V新一代的最新技术。

作者使用函数保持变换,在模型初始化阶段扩展了空间层,以包含时间信息。扩展的时空网络包括新的注意力模块,可以从视频集合中学习时间世界动态。该程序通过将先前训练的T2I网络中的知识瞬间转移到新的T2V网络中,大大加快了T2V培训过程。作者训练空间超分辨率模型以及帧插值模型,提高生成视频的分辨率,并支持更高(可控)的帧速率。

2.3、主要贡献

  1. 我们利用联合文本-图像先验来绕过对成对文本-视频数据的需要,这反过来又允许我们潜在地扩展到更大数量的视频数据。
  2. 我们提出了空间和时间上的超分辨率策略,首次在用户提供文本输入的情况下生成高清、高帧速率视频
  3. 我们根据现有T2V系统评估Make-A-Video,并提出:(A)定量和定性测量的最新结果,以及(b)比现有T2V文献更全面的评估。

三、模型

在这里插入图片描述
主要框架如上图所示,Make-A-Video由三个主要组件组成:(i)基于文本图像对训练的基本T2I模型(ii)时空卷积层和注意力层以及(iii)用于提高帧率的帧插值网络和两个用来提升画质的超分网络

Make-A-Video的最终T2V推理方案(如图2所示)可以表述为:
y t ^ = S R h ∘ S R l t ∘ ↑ F ∘ D t ∘ P ∘ ( x ^ , C x ( x ) ) \hat{y_{t}}=\mathrm{SR}_{h} \circ \mathrm{SR}_{l}^{t} \circ \uparrow_{F} \circ \mathrm{D}^{t} \circ \mathrm{P} \circ\left(\hat{x}, \mathrm{C}_{x}(x)\right) yt^=SRhSRltFDtP(x^,Cx(x))
其中,ˆyt是生成的视频,SRh、SRl是空间和时空超分辨率网络(第3.2节),↑F是帧插值网络,Dt是时空解码器,P是先验,ˆx是BPE编码的文本,Cx是CLIP文本编码器,x是输入文本

3.1、文本生成图像

在添加时空信息前,模型的主干是一个基于文本生成图像的T2I模型。使用以下网络从文本生成高分辨率图像:(i)一个先前的网络P(ii)一个解码器网络D,以及(iii)两个超分辨率网络,将生成的图像分辨率分别增加到256×256和768×768像素,最终生成图像。

3.2、时空层次

为了将二维条件网络(即只能生成2d图像)扩展到时间维度,作者修改了两个关键构建块(卷积层和注意力层),这两个构建块现在不仅需要空间维度,还需要时间维度,以便生成视频。
,然后基于U-Net的扩散网络进行时间修改,利用时空解码器Dt生成16个RGB帧,然后通过在16个生成的帧和超分辨率网络SRtl之间插值来增加有效帧速率。
在这里插入图片描述
超分辨率包含幻觉信息。为了不出现闪烁的伪影,幻觉必须在帧之间保持一致。因此,我们的SRtl模块跨空间和时间维度运行。由于内存和计算的限制以及高分辨率视频数据的稀缺性,将SRh扩展到时间维度是一个挑战。因此,SRh仅沿空间维度运行。但为了在帧之间产生一致的细节幻觉,我们对每个帧使用相同的噪声初始化

3.3、伪三维卷积层

受可分离卷积的启发(Cholet,2017),我们在每个2D卷积(conv)层之后叠加一个1D卷积,如图3所示。这有助于空间轴和时间轴之间的信息共享,而不会屈服于3D conv层的繁重计算负载。此外,它在预先训练的2D conv层和新初始化的1D conv层之间创建了一个具体分区,允许我们从头开始训练时间卷积,同时保留空间卷积权重中先前学习的空间知识。

伪三维卷积层定义为:
Conv ⁡ P 3 D ( h ) : = Conv ⁡ 1 D ( Conv ⁡ 2 D ( h ) ∘ T ) ∘ T , \operatorname{Conv}_{P 3 D}(h):=\operatorname{Conv}_{1 D}\left(\operatorname{Conv}_{2 D}(h) \circ T\right) \circ T, ConvP3D(h):=Conv1D(Conv2D(h)T)T,

3.4 、伪3D注意层

T2I网络的一个重要组成部分是注意层,作者将维度分解策略扩展到了注意力层。在每个(预先训练的)空间注意层之后,叠加一个时间注意层,与卷积层一样,它近似于一个完整的时空注意层。伪三维注意层定义为:
ATTN ⁡ P 3 D ( h ) =  unflatten  ( A T T N 1 D ( A T T N 2 D (  flatten  ( h ) ) ∘ T ) ∘ T ) . \operatorname{ATTN}_{P 3 D}(h)=\text { unflatten }\left(A T T N_{1 D}\left(A T T N_{2 D}(\text { flatten }(h)) \circ T\right) \circ T\right) . ATTNP3D(h)= unflatten (ATTN1D(ATTN2D( flatten (h))T)T).

帧速率调节。除了T2I条件之外,类似于CogVideo(Hong等人,2022),作者还添加了一个额外的条件参数fps,表示生成的视频中每秒的帧数。对每秒不同帧数的条件进行调节,使额外的增强方法能够在训练时处理有限的可用视频量,并在推理时对生成的视频提供额外的控制。

3.5、帧插值网络

除了时空修改外,作者还训练了一个新的屏蔽帧内插和外推网络↑F,能够通过帧插值来增加生成视频的帧数,以获得更平滑的生成视频,或者通过帧前/帧后外推来延长视频长度。为了提高内存和计算限制内的帧速率,我们对屏蔽帧插值任务的时空解码器Dt进行微调,通过对屏蔽输入帧进行零填充,实现视频上采样。

3.6、训练

上述Make-A-Video的不同组件都是独立训练的,唯一接收文本作为输入的组件是之前的P。

解码器接收CLIP图像嵌入作为输入,而超分辨率组件接收降采样图像作为训练期间的输入。在对图像进行训练后,我们添加并初始化新的时间层,并在未标记的视频数据上对其进行微调。从原始视频中采样16帧,f ps的随机范围为1到30。我们使用beta函数进行采样,在训练解码器时,从较高的FPS范围(较少运动)开始,然后过渡到较低的FPS幅度(较多运动)。屏蔽帧插值组件从时间解码器进行微调。

四、实验

因为是独立训练的,所以每个组件训练的数据集都不同
数据集:NSFW、HD-VILA-100M、WebVid-10M、HD-VILA-10M、UCF-101、MSR-VTT

定量评估:Frechet Video Distance (FVD)、 Inception Score(IS)、Frechet Inception Distance (FID) 、CLIPSIM (视频帧和文本之间的平均CLIP相似性)

人工评估:在Amazon Mechanical Turk(AMT)收集了包含300个提示的评估集,询问注释者,如果有T2V系统,他们会对生成什么感兴趣。另外使用Imagen的DrawBench提示进行人类评估。我们评估视频质量和文本视频忠诚度。对于视频质量,我们以随机顺序显示两个视频,并询问注释者哪一个质量更高。

五、定量结果

在这里插入图片描述

六、定性结果

在这里插入图片描述

七、讨论

向我们周围的世界学习是人类智力的最大优势之一。正如我们通过观察很快学会识别人、地点、事物和行为一样,如果生成系统能够模仿人类的学习方式,那么它们将更具创造性和实用性。且使用无监督学习学习动态的世界,还有助于研究人员摆脱对标记数据的依赖。
作者在最后提到的几个技术限制

  1. 无法学习文本和只能在视频中推断出的现象之间的关联。如何整合这些内容(例如,生成一段某人从左到右或从右到左挥手的视频)
  2. 生成更长的视频,其中包含多个场景和事件
  3. 描述更详细的故事。
  4. 模型已经学习并可能夸大了社会偏见,包括有害的偏见。

最后

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

文本生成视频Make-A-Video,根据一句话就能一键生成视频 Meta新AI模型 的相关文章

随机推荐

  • handler机制的原理面试,技术水平真的很重要!真香

    面试如作战 我们看战争影视剧的时候 经常看到这些剧作往往主要聚焦于作战过程 战场战略 对战前准备给的篇幅往往很少 实际上 战前准备也是关键的一环 没有充足的粮草 车马 兵器的准备 别说赢得战争 投入战斗都不可能 这个道理在面试中也是一样 如
  • Linux环境项目以jar包形式启动,指定环境配置文件

    nohup java jar xxx jar spring profiles active DEV gt xxx logs txt
  • 选择排序和冒泡排序算法

    冒泡排序算法 Test public void sort2 int array 1 34 4 56 67 7 89 for int i 0 i lt array length 1 i for int j 0 j lt array lengt
  • 7-16 求符合给定条件的整数集 (15分)

    7 16 求符合给定条件的整数集 15分 给定不超过6的正整数A 考虑从A开始的连续4个数字 请输出所有由它们组成的无重复数字的3位数 输入格式 输入在一行中给出A 输出格式 输出满足条件的的3位数 要求从小到大 每行6个整数 整数间以空格
  • 基于CRNN的中文车牌识别

    1 概述 目前HyperLRP是一个开源的 基于深度学习高性能中文车牌识别库 本文主要在其基础上进行改动 自己训练一个crnn车牌识别模型 2 可识别的车牌类型 单行蓝牌 单行黄牌 新能源车牌 白色警用车牌 使馆 港澳车牌 教练车牌 3 可
  • 在windows上配置VScode支持ARM GCC开发环境

    简单有效的在windows上 配置VS Code 以支持GCC开发环境 没有什么花里胡哨的 需要用到的工具 Visual Studio Code 编辑工具 ARM GCC 交叉编译工具链 Msys2 命令行开发环境 mingw window
  • DDIM模型代码解析(一)

    目录 预备知识 main py 解析命令行参数 解析配置文件 预备知识 由于代码中除了一些必要的对模型 数据进行操作的PyTorch函数外 还有一些辅助显示训练等过程有关信息的 或辅助对文件目录进行操作的库 因此 建议读者先对这些库进行了解
  • RT-Thread的设备模型

    RTT内核对象 设备 RT Thread有多种内核对象 其中设备device就是其中一种 内核继承关系图如下 设备继承关系图如下 I O 设备模型框架 应用程序通过 I O 设备管理接口获得正确的设备驱动 然后通过这个设备驱动与底层 I O
  • 如何迈向知识驱动的人工智能?

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 近年来第三代人工智能的讨论热度不断升温 特别在张钹院士发文 迈向第三代人工智能 之后 AI TIME精心策划了一场关于 如何迈向知识驱动的人工智能 的PhD Debate 就大家
  • spring拓展执行时机

    这是一个被人讲烂了的东西 但是我还是会更全面地介绍 并且提出一些坑 一 整体流程 BeanFactoryPostProcessor 这个严格来说不是bean生命周期 只是他会在容器初始化完会调用 这里提及 主要为了说明集中后置处理器顺序 b
  • BUSMASTER使用记录(二):诊断功能、在线16进制转字符串、脚本编写

    目录 五 诊断使用 5 1 诊断设置 5 2 发送数据 5 3 16进制转字符串 推荐工具一 推荐工具二 六 脚本 在上一篇 点击进入 中主要是记录了下基本收发 报文过滤和报文录制 这一篇重点是诊断功能的使用 测试脚本的编写 五 诊断使用
  • Deep Learning-Based CSI Feedback Approach for Time-V arying Massive MIMO Channels阅读笔记

    在频分双工网络中 大规模MIMO系统依靠CSI反馈来执行预编码并获得增益 然而大量的天线对传统CSI反馈方法提出挑战 导致了过多的反馈开销 提出一个实时的CSI反馈架构 CsiNet long short term memory LSTM
  • 探讨UUID和Secrets:确保唯一性与数据安全的利器

    前言 在现代软件开发中 唯一标识符 UUID 和机密信息的处理是至关重要的 UUID是用于唯一标识数据记录和对象的128位值 确保了全球范围内的唯一性 同时 Python的secrets模块为处理机密信息提供了强大的随机数生成功能 适用于密
  • 《华为机试》刷题之HJ41 称砝码

    一 题目 二 示例 三 代码 while True try n int input m list map int input split x list map int input split list1 for i in range n l
  • FSDB 波形文件产生以及截取

    FSDB波形产生 FSDB Fast Signal Database 相比较于VCD文件 FSDB文件的大小比VCD波形小5 50倍 各家的仿真器都支持在simulation的过程中 直接生成FSDB文件 将VCD文件转换为FSDB文件的三
  • 键盘摄影:今天老李是一名动物摄影师

    键摄 全称键盘摄影师 原本是一个贬义词 是指那些没有相机 没有实拍经验 仅凭一副鼠标键盘 在家里打字 在网上头头是道地分享摄影技巧 同时对别人的作品指指点点 然后又无法秀出自己的作品的人 然而 在今天 有了Midjourney 键盘摄影师终
  • js逆向反调试笔记

    sojson反调试 遇到一调试就卡死的代码 现在js最开始位置打上debugger 如果打完debugger后还是直接卡死 那就多打几处 运行代码后 按单步跟 如图 发现正则new RegExp test toString 大概率是在检测代
  • java中金额计算

    撒欢的老猫 java中金额计算 在牵涉到金额的计算时 为了保持高精度的准确性 使用bigDecimal类型 在使用BigDecimal类来进行计算的时候 主要分为以下步骤 1 用float或者double变量构建BigDecimal对象 2
  • 关于路由传参与接收参数

    路由 跳转传参的方式有很多 下面我总结一下常用的传参方式及其相对应的接收参数方式 第一 参数是以 分隔 http localhost 8092 account manage issue id 161123434754052096 路由跳转方
  • 文本生成视频Make-A-Video,根据一句话就能一键生成视频 Meta新AI模型

    Meta公司 原Facebook 在今年9月29日首次推出一款人工智能系统模型 Make A Video 可以从给定的文字提示生成短视频 Make A Video研究基于文本到图像生成技术的最新进展 该技术旨在实现文本到视频的生成 可以仅用