这段视频火爆外网,谷歌把AI视频造假搞得太真太简单了

2023-05-16

来源:量子位

家人们,AI做视频这事今天又被推向了舆论的风口浪尖。

起因是有人在网上发布了这么一只小企鹅的视频:

而这个近50秒视频的诞生,靠的仅仅是6句话

dc0f3d4504414024a7dbe08852aa04aa.jpeg

陆陆续续的,网友们还在发布着这个AI的其它杰作:

97c1a7b2a46fcc9cd739ee3e5a967988.gif

这次给它投喂的提示词也是极短,仅4行

cd04295d88acdd4efd148d4961ed2d3f.png

如此“所写即所得”、丝滑连贯的视频生成方式,也是令不少网友发出感慨:

未来已至。

a7afa836363ffd9a2273c3ba646ba6fd.jpeg

甚至还有人开始“拉仇恨”,说AI正在用各种方式摧毁行业……

57ad758799bd6688f0a924ce4c1d5c85.jpeg

然后就有很多人发问了:“这又是哪家新搞的AI哇?”

ee4c298e2c1c21f670882a124e651b65.jpeg

不过眼尖的网友发现它其实是一位“老朋友”了——

谷歌去年10月份便发布的一个文本转视频(Text-to-Video)模型:Phenaki

只需一段提示词,分分钟可以生成长达两分钟的视频。

52d34e74299c7c1df5df8d56edf43c9e.gif

而相比Phenaki刚发布的时候,谷歌又来了一波上新操作

那么我们现在就来一同看看这些新视频吧~

打字就能生成的视频

与以往AI生成的视频不同,Phenaki最大的特点便是有故事有长度

例如,我们再给这么一段场景描述:

在一座未来感十足的城市里,交通纷繁复杂,这时,一艘外星飞船抵达了城市。

随着镜头的拉近,画面进入到了飞船内部;而后镜头沿着船内长廊继续向前推进,直到看到一名宇航员在蓝色的房间里敲键盘打字。

镜头逐渐移向宇航员的左侧,身后出现蓝色海洋,鱼儿们在水里徜徉;画面快速放大聚焦到一条鱼的身上。

随后镜头快速从海里浮出,直到看到摩天大楼高耸林立的未来城市;镜头再快速拉近到一撞大楼的办公室。

这时,一只狮子突然跳到办公桌上并开始奔跑;镜头先聚焦到狮子的脸上,等再次拉远时,这只狮子已经幻化成西装革履的“兽人”。

最后,镜头从办公室拉出,落日余晖下鸟瞰这座城市。

想必不少友友们在读这段文字过程中,脑中已经浮现相应的画面了。

接下来,我们一起看看Phenaki生成的效果如何:

是不是和你脑补出来的画面一致呢?

总体来说,这个AI即便面对这种脑洞大开的场景提示词,也是做到了无缝衔接的转场。

也难怪网友们看完这段视频后惊呼“(科技)发展得真快啊”。

6bc19603850185ce075af11fe41f52c1.jpeg

而对于篇幅稍短的提示词,Phenaki就更不在话下了。

例如,给Phenaki投喂这样一段文字:

一只逼真的泰迪熊正在潜水;随后它慢慢浮出水面;走上沙滩;这时镜头拉远,泰迪熊行走在海滩边篝火旁。

c68ef0a42eccf05ec161ee4efbbe6da2.gif

没看够?那再来一段,这次换个主角:

在火星上,宇航员走过一个水坑,水里倒映着他的侧影;他在水旁起舞;然后宇航员开始遛狗;最后他和小狗一起看火星上看烟花。

1a9272d948beb39db215526ba32f61e6.gif

而在谷歌更早发布Phenaki之际,还展示了向Phenaki输入一个初始帧以及一个提示词,便可以生成一段视频的能力。

例如给定这样一张静态图:

ec2fc5f196d01c0c0850325d9f4e9aaa.png

然后再给它Phenaki简单“投喂”一句:白猫用猫爪触摸摄像机。效果就出来了:

4f0f7a1ac4fa2995997c393c215d9f7b.gif

还是基于这张图,把提示词改成“一只白猫打哈欠”,效果就成这样了:

4a32f3354a024c2d7d4e21f574c1d13d.gif

当然,任意切换视频整体风格也是可以hold得住的:

457cc1aba88792d4a81bfe7ffecc397e.png

网友:视频行业要被AI冲击了吗?

但除了Phenaki之外,谷歌当时还一道发布过Imagen Video,能够生成1280*768分辨率、每秒24帧的高清视频片段。

01e3c0c27bb2992739d3d2c9d12ade36.gif

它基于图像生成SOTA模型Imagen,展示出了三种特别的能力:

  • 能理解并生成不同艺术风格的作品,水彩、像素甚至梵高风格

  • 能理解物体的3D结构

  • 继承了Imagen准确描绘文字的能力

更早的,Meta也发布了Make-A-Video,不仅能够通过文字转换视频,还能根据图像生成视频,比如:

  • 将静态图像转成视频

  • 插帧:根据前后两张图片生成一段视频

  • 根据原视频生成新视频
    ……

ab209dc7297878ae17491cc06888949d.gif

对于这如“雨后春笋”突然冒出的生成视频模型,不免会让有些人担心:

1d54fda329597c5a8b6eb9bbad187931.jpeg

当然也有人认为现在时机还未到:

0-1总会很快,1-100还是会很漫长。

457d2cbe1f0304e18872082e84d34c7b.jpeg

不过已经有网友在期待靠AI拿奥斯卡奖了:

AI要多久才能成为新的视频编辑器,或者拿下奥斯卡?

e526b5a92c04fb2c0720eb6cc936b572.jpeg

原理介绍

再说回Phenaki,有不少网友都比较好奇它是如何通过文字生成这么丝滑的视频的?

简单来说,Phenaki相较于以往的生成视频模型,它更注重时间长度任意性连贯性

Phenaki之所以能够生成任意时间长度的视频,很大程度上要归功于新的编码器-解码器架构:C-ViViT

它是ViViT的一个因果变体,能够将视频压缩为离散嵌入。

要知道,以往获取视频压缩,要么就是编码器不能及时压缩视频,导致最终生成的视频过短,例如VQ-GAN,要么就是编码器只支持固定视频长度,最终生成视频的长度不能任意调节,例如VideoVQVAE。

但C-ViViT就不一样了,它可谓是兼顾了上面两种架构的优点,能够在时间和空间维度上压缩视频,并且在时间上保持自回归的同时,还可以自回归生成任意长度的视频。

0f7881d24508f5266930b86740f15ecf.jpeg

C-ViViT可以使模型生成任意长度的视频,那最终视频的逻辑性又是怎么保证的呢?

这就得靠Phenaki另外一个比较重要的部分:双向Transformer。

在这其中,为节省时间,采样步骤是固定的,并且在处理文本提示的过程中,能同时预测不同的视频token。

这样一来,结合前面提到的,C-ViViT能够在时间和空间维度上压缩视频,压缩出来的token是具有时间逻辑性的。

也就是说,在这些token上经过掩码训练的Transformer也具备时间逻辑性,最终生成的视频在连贯性自然也就有了保证。

1cb71bf0f9926a0e3fccc00c4575972d.jpeg

如果还想了解更多关于Phenaki的东西,可以戳这里查看。

Phenaki:
https://phenaki.github.io

参考链接:
[1] https://phenaki.video/
[2] https://phenaki.research.google/
[3] https://twitter.com/AiBreakfast/status/1614647018554822658
[4] https://twitter.com/EvanKirstel/status/1614676882758275072

推荐阅读

  • 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

  • 润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)

  • 如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研

  • 奖金675万!3位科学家,斩获“中国诺贝尔奖”!

  • 又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职

  • 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

318560e8a64c5bfbb720914292e84c25.jpeg

👆 长按识别,邀请您进群!

bf2b1d46a2ad18a204287b2d37d51578.gif

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

这段视频火爆外网,谷歌把AI视频造假搞得太真太简单了 的相关文章

  • 电力电子技术笔记-逆变电路

    逆变的概念 逆变 与整流相对应 xff0c 直流电变成交流电 交流侧接电网 xff0c 为有源逆变 交流侧接负载 xff0c 为无源逆变 逆变与变频 变频电路 xff1a 分为交 交变频和交 直 交变频两种 交 直 交变频由交 直变换 xf
  • 短视频如何靠文案走红?盘点3个热门文案技巧

    很多短视频运营者常常都会忽略文案 xff0c 认为视频内容才是最重要的 xff0c 文案只是辅助 xff0c 但其实 xff0c 文案作为内容的逻辑支撑 xff0c 是短视频的点睛之笔 可以说 xff0c 一个爆款短视频 xff0c 绝对少
  • 短视频如何创作?掌握这些技巧,可以让你的短视频更火。

    现在短视频越来越受到大众的喜爱 xff0c 大概现在每个人坐车休假吃饭都在拿着手机刷着短视频 xff0c 可见现在短视频对于现在的人来说还是挺普遍的 xff0c 那么很多人都想从事短视频行业应该如何去进行创作呢 xff0c 下面就和大家分享
  • 短视频如何写爆款文案?爆款短视频文案技巧分享

    现在短视频越来越火热 xff0c 但是在短视频创作当中 xff0c 第一注重的就是视频 xff0c 文案是搭配辅助 xff0c 如果你的视频是走的内容风格 xff0c 那么文案对于你的短视频账号来说也是非常重要的 xff0c 要吸人眼球 x
  • OpenVINO 从yml处提取model下载链接,以mobile-ssd为例

    背景介绍 xff1a 最近需要下载公开模型 xff0c 无法从intel OpenVINO官方模型下载脚本中下载 报告ConnectionResetError Errno 104 Connection reset by peer xff0c
  • 短视频剪辑怎么做?4步教你快速入门

    最近看到很多小伙伴在问 xff0c 做短视频自媒体需要具备哪些技能 xff1f 要准备什么工具 xff1f 今天就给大家盘点一下 xff0c 短视频剪辑怎么做 xff0c 怎样才能快速入门 xff1a 01 剪辑软件 入门级别 xff1a
  • 短视频脚本怎么写?6个套路

    做短视频的基础就是脚本 xff0c 脚本是创作的基石 xff0c 是贯穿这个视频始末的逻辑 那么 xff0c 短视频脚本怎么做呢 xff1f 其实 xff0c 在拍摄脚本里面 xff0c 我们可以把所有的东西拆分为以下 6 个要素 xff1
  • 手机剪辑视频教程,初学者也能学会,上手快

    在过去的推文中 xff0c 和大家无数次的分享过剪映 xff0c 这是一个手机上就可以轻松实现视频剪辑的工具 xff0c 操作简单 xff0c 快速上手 对于想做短视频 xff0c 但是没有电脑的小伙伴 xff0c 如果你会用剪映 xff0
  • 推荐几个免费且高质量无版权的视频素材网站,记得收藏

    今天这篇文章给大家分享视频素材网站 xff0c 希望对大家有帮助 1 Coverr 第一个网站是Coverr Coverr是一个高质量的无版权视频素材下载网站 xff0c 有分类 xff0c 可以英文搜索 这个网站的视频素材质量还是很高的
  • 如何创作出优质的短视频文案?

    在短视频平台上进行创作 xff0c 视频才是重心点 xff0c 文案只不过是绿叶的辅助作用 xff0c 但常刷视频的小伙伴不难发现 xff0c 其实很多时候一句优质文案就可以把一条短视频推上热门 下面就和大家讲讲如何写出优质的文案 xff1
  • 短视频文案怎么吸引人,这几个技巧助你成为文案高手

    一 xff0e 人物状态 43 情感宣泄 61 情感共鸣 想要自己的视频上热门 xff0c 一定要和粉丝产生情感共鸣 xff0c 这样才能促使粉丝点赞 评论 转发 下面这个视频中的文案标题 xff1a 今天给外婆寄生活费回去 xff0c 电
  • 自媒体账号如何注册申请

    如何利用自媒体挣取到人生第一桶金 xff0c 建议大家可以从以下几个方面入手 一 申请自媒体账号 申请自媒体账号需要的材料 xff1a 身份证 xff0c 手机号 xff0c 辅助材料 xff1a 微信公众号或者博客写过文章的都可以 如果实
  • 自媒体人必备,5个免费找短视频素材的网站,赶紧收藏

    大家都知道做自媒体贵在坚持 xff0c 刚开始的时候你会发现还挺容易的 xff0c 但是到后面你会发现不知道发什么内容 xff0c 这时候可以用一些外部的素材来进行创作 xff0c 今天呢 xff0c 小易就给大家分享5个找视频素材的网站
  • 自媒体怎么做?5个操作步骤,普通人也可以做

    根据调查显示 xff0c 目前大家最爱做的副业就是自媒体 每天花1 2小时的时间 xff0c 不用才艺和露脸 xff0c 每天收入200左右 xff0c 比上班的工资还高 xff0c 操作非常的简单 小易整理了5个自媒体新手入门的操作步骤
  • 超好用的4个短视频素材下载网站,快收藏下来

    做过短视频运营的都知道 xff0c 最难的就是找素材 xff0c 在保证素材不侵权的情况下 xff0c 还有找高质量的内容 xff0c 真的很不容易 xff0c 很多人在这一步就已经头秃了 因此 xff0c 今天给大家安利一些超级好用的短视
  • [转] CMake入门

    转载说明 文章转自网络 xff0c 版权归原作者所有 xff0c 原文链接 https www hahack com codes cmake 特别感谢发哥 写代码的篮球痴 分享 文章目录 什么是 CMake 入门案例 xff1a 单个源文件
  • 抖音自媒体平台上最容易上热门的7大领域,你知道吗?

    抖音覆盖的内容领域日益广泛 xff0c 因此 xff0c 运营者在入驻抖音平台的时候不能过于草率 xff0c 不能单纯地根据个人偏好来确定账号的运营方向 本文将主要介绍在抖音平台上最容易上热门的7大领域 xff0c 以此来帮助运营者更好地进
  • 自媒体如何打造爆款呢,应该怎样掌握热点信息

    为什么优质的自媒体博主每天都在打造爆款 xff0c 无论是写文章还是拍视频 xff0c 他们的浏览量总位居前列 主要原因是因为平台推荐 xff1f 粉丝用户庞大 xff1f 这只是一部分原因 xff0c 能让他们从小V转变成大V的主要原因
  • 自媒体账号如何快速涨粉打造爆款,快来get这份运营技巧

    一 账号内容 在注册账号之后 xff0c 我们就要开始构思我们要发什么样的视频 xff0c 要知道我们想要将一个账号做好 xff0c 肯定不是像朋友圈一样 xff0c 今天发个日常 xff0c 明天发个自拍 xff0c 这样发布的作品会比较

随机推荐

  • FSK和GFSK

    1 FSK频移键控 频移键控 xff0c 英文缩写FSK 正弦振荡的频率在一组离散值间改变的角度调制 xff0c 其中每一离散值表示时间离散调制信号的一种特征状态 频移键控是利用两个不同频率F1和F2的振荡源来代表信号1和0 用数字信号的1
  • 多图详解!10大高性能开发核心技术

    程序员经常要面临的一个问题就是 xff1a 如何提高程序性能 xff1f 这篇文章 xff0c 我们循序渐进 xff0c 从内存 磁盘I O 网络I O CPU 缓存 架构 算法等多层次递进 xff0c 串联起高性能开发十大必须掌握的核心技
  • Mac系统中 用Virtualbox搭建CentOS虚拟机 鼠标光标占用、乱飞问题

    问题1 xff1a 我本人用的是MacBook Air xff0c 控制VirtualBox搭建 CentOS 7 的虚拟机时 xff0c 首先遇到了占用鼠标的问题 xff0c 如下图 看起来只需要点击 HostKey xff1a Righ
  • yum 仓库 (本地)

    首先要进入到 34 etc yum repos d 34 目录中 xff08 因为该目录存放着yum仓库的配置文件 xff09 cd etc yum repos d 使用vim或者vi编辑器创建一个名为local repo的新配置文件 xf
  • 噪声是什么?

    1 噪声的概念 日常我们说的噪声是 除了我想听到的声音 以外的声音 xff0c 就是噪声 比如我想听A君讲话 xff0c 但是B君和C君在旁边喋喋不休 xff0c 他们俩说的话是 我不想听到的声音 xff0c 那么他们两个的声音就是噪声 而
  • java多线程

    Java多线程并发 什么是多线程 线程 xff1a 程序内部的一条执行路径 xff08 比如说我们之前学的main方法就是一条单独的执行路线 xff09 单线程 xff1a 程序中如果只有一条执行路径 xff0c 那么这个程序就是单线程的程
  • 生产者消费者

    需要三个对象 xff1a 生产者 xff0c 消费者 xff0c 以及容器 作用 xff1a 解耦 学习编程最主要注重的就是思想 43 动手能力 法一 xff1a 管程法 span class token keyword public sp
  • 《演讲的力量》TED主席和首席教练教你演讲的基本技巧

    导读 xff1a 克里斯 安德森 xff08 Chris Anderson xff09 xff0c TED主席 xff0c TED首席教练 毕业于牛津大学 xff0c 做过记者 xff0c 创办过100多份成功的杂志刊物和网站 在2001年
  • Android keymint(keymaster)一RKP

    what is RKP RKP is remote key provisioing why RKP 以前我们生产手机平板项目的时候 xff0c 是从Google申请attestation key google key xff0c 在产线使用
  • 全网最详细搭建Win10+WSL2+Ubuntu-22.04LTS+CUDA+Xfce4+noVNC个人工作站

    全网最详细搭建Win10 43 WSL2 43 Ubuntu 22 04LTS 43 CUDA 43 Xfce4 43 noVNC个人工作站 本文主要解决的问题点 xff1a win10下使用Ubuntu系统解决WSL默认不支持system
  • 全球26个主流视频网站全搞定,都可以用这个神器下载原版高清视频!

    大家在视频网站上观看视频的时候 xff0c 有时候需要把一个视频下载下载 xff0c 却不知道怎么弄 xff0c 因为目前99 的网站 xff0c 都没有现成的下载方法 xff0c 今天我就来安利一个特别特别香的开源神器 annie 目前已
  • 【知乎热议】如何看待Momenta研发总监任少卿去了蔚来汽车?

    点击上方 xff0c 选择星标或置顶 xff0c 不定期资源大放送 xff01 阅读大概需要15分钟 Follow小博主 xff0c 每天更新前沿干货 导读 近期 xff0c 自动驾驶领域的一个重大事件便是蔚来汽车迎来了一员猛将 原Mome
  • 如何看待2021届校招薪资倒挂? 为什么互联网大厂校招的薪资一年比一年高?

    点击上方 xff0c 选择星标或置顶 xff0c 不定期资源大放送 xff01 阅读大概需要15分钟 Follow小博主 xff0c 每天更新前沿干货 导读 10月27日 xff0c 网传美团今年应届生年薪 35w 43 xff0c 严重倒
  • 搞深度学习用什么笔记本最好?这份报告给你选出了性价比之王

    点击上方 xff0c 选择星标或置顶 xff0c 不定期资源大放送 xff01 阅读大概需要10分钟 Follow小博主 xff0c 每天更新前沿干货 选自 Medium 作者 Towards AI Team 转自 机器之心 编辑 陈萍 杜
  • CVPR2021 最新论文汇总(附论文链接/代码/解析)[持续更新]

    点击上方 xff0c 选择星标或置顶 xff0c 不定期资源大放送 xff01 阅读大概需要5分钟 Follow小博主 xff0c 每天更新前沿干货 本文整理了CVPR2021最新的论文汇总情况 xff0c 主要包括 xff1a Trans
  • 业内视频超分辨率新标杆!快手&大连理工研究登上CVPR 2022

    来源 xff1a 量子位 导读 本文从一种新的视角统一了视频超分辨中的低分辨率和高分辨率的时序建模思路 xff0c 提出了一种新的视频超分辨框架 xff0c 以较小的计算代价 xff0c 充分利用了低分辨和高分辨率下的时序互补信息 已在多个
  • 【收藏】时间序列预测入门必读的4篇论文

    时间序列预测是一个发展历史悠久的技术领域 xff0c 近些年随着机器学习算法和深度学习算法的应用 xff0c 时间序列预测方法在越来越多的传统领域焕发光彩 入门必读的4篇论文见文末 01 传统统计学算法和ML DL算法的优劣 时间序列预测常
  • 一文详解GNN最新研究方向 | 论文合集

    22年初 xff0c 图神经网络 xff08 GNN xff09 成为互联网圈的流行语 xff0c 一整年 xff0c 关于GNN的研究热情日益高涨 xff0c 其已经成为各大深度学习顶会的研究热点 GNN处理非结构化数据时的出色能力使其在
  • 安装ROS环境时的常见问题及解决办法

    安装ROS环境 a 换源 span class token comment 备份原来的sources list span span class token function sudo span span class token functi
  • 这段视频火爆外网,谷歌把AI视频造假搞得太真太简单了

    来源 xff1a 量子位 家人们 xff0c AI做视频这事今天又被推向了舆论的风口浪尖 起因是有人在网上发布了这么一只小企鹅的视频 xff1a 而这个近50秒视频的诞生 xff0c 靠的仅仅是6句话 xff01 陆陆续续的 xff0c 网