ICLR 2023

2023-10-27

©PaperWeekly 原创 · 作者 | 叶振辉

单位 | 浙江大学博士生

研究方向 | 语音合成、说话人视频合成

语音驱动的说话人视频合成（Audio-driven Talking Face Generation）是虚拟人领域的一个热门话题，它旨在根据一段输入的语音，合成对应的目标人脸说话视频。高质量的说话人视频需要满足两个目标：（1）合成的视频画面应具有较高的保真度；（2）合成的人脸面部表情应与输入的驱动语音保证高度对齐。

近年出现的神经辐射场（NeRF；Neural Radiance Field）[1] 为实现第一个目标，即合成高保真度的说话人视频提供了绝佳的工具。仅需要 3 分钟左右的目标人说话视频作为训练数据，即可合成该目标人说任意语音的视频。然而，目前基于 NeRF 的说话人视频合成算法在实现第二个目标还面临许多挑战，具体来说主要可以分为两个方面：

1. 对域外驱动音频的弱泛化能力：由于训练数据集仅包括数分钟的说话人语音-面部表情的成对数据，模型对不同说话人、不同语种、不同表现形式（如歌声）等域外音频难以生成准确的面部表情。

2. “平均脸”问题：由于相同的语音可能有多种合理的面部动作，使用确定性的回归模型来学习这样一个语音到动作的映射可能导致过于平滑的面部动作和较低的表情表现力 [2]。

在今年的人工智能顶级会议 ICLR 2023 上，浙江大学与字节跳动提出了全新的说话人视频合成模型 GeneFace，该算法旨在解决上述的对域外音频的弱泛化能力和“平均脸”问题，实现了高可泛化、高保真度的语音驱动的说话人视频合成。

论文标题：

GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis

论文链接：

https://arxiv.org/abs/2301.13430

代码链接：

https://github.com/yerfor/GeneFace

研究背景

目前基于 NeRF 的说话人视频合成方法 [3] 的主要思路是训练一个基于音频输入的条件神经辐射场（Conditional NeRF）：

其中输入空间的分别是语音表征、观察方向、3D位置。输出空间的则分别代表对应位置的颜色和体密度。根据体积渲染（Volume Rendering）公式，可以在辐射场中任意位置、任意视角观察，渲染得到对应的图像：

其中是从观察位置到被观察位置射出的射线的累积不透明度，可以表示为：

在得到渲染的人脸图像后，对渲染图像与真实图像计算误差，即可对进行模型训练：

整体方案思路

尽管现有的基于 NeRF 的说话人视频合成方法 [3] 实现了视频的高保真度，但如上所述，由于其使用均方误差损失端到端地训练语音到说话人图像的映射，导致模型对域外驱动音频的弱泛化能力和“平均脸”问题。

为了解决上述问题，GeneFace 采用 3D 人脸关键点作为中间变量，提出了一个三阶段的框架。

第一阶段是“语音转动作”，我们在大规模唇语识别数据集上学习语音到动作的映射，这使得我们的模型能够享受大数据集带来的高泛化能力。注意为了解决平均脸问题，我们设计了一个变分动作生成器（Variational Motion Generator）来学习这个语音到动作的映射，该模型可以根据输入的语音生成精确的、具有丰富细节和表现力的面部动作。

第二个阶段是“动作域迁移”，我们提出了一种基于对抗训练的域适应方法，以训练一个人脸动作的后处理网络（Domain Adaptative Post-net），从而弥合大规模唇语识别数据集与目标人视频之间的域差距（Domain Gap）。

第三个阶段是“基于动作渲染视频”，我们设计了一个基于 NeRF 的渲染器（3DMM NeRF Renderer），它以预测的 3D 人脸关键点为条件来渲染高保真的说话人视频。GeneFace 的三阶段推理流程如下图所示：

2.1 语音转动作

GeneFace 的第一阶段任务是根据输入的音频，得到对应的人脸表情。我们利用 HuBERT 模型从原始音频中提取语音表征，使用 3D 人脸关键点表示人脸表情。我们利用一个大型的唇语识别数据集中的语音-动作数据对，训练了一个准确、鲁棒的语音到动作映射。

为了避免简单的确定性模型导致的“平均脸”问题，我们提出了变分动作生成器（Varaitional Motion Generator）结构。该模型结合了变分自编码器（VAE；Variaitonal Auto-Encoder）和流模型（Flow-based Models）的优点，能根据输入语音生成准确且富有表现力的人脸动作。其训练流程图如下所示：

2.2 动作域适应

由于目标人视频的数据量（约 3-5 分钟）与大规模唇读数据集（约数百小时）相比差距过大，实验结果表明，目标人的人脸表情与大规模数据集中的人脸表情存在巨大的域差异，可能导致最终渲染的图像出现模糊或不真实的情况。要解决这一问题，一种常见的方法是直接在目标人数据集上微调（fine-tune）整个语音转动作模型。但这个做法可能会导致灾难性遗忘，使模型失去在大数据集上学习到的泛化能力。

在这种情况下，我们设计了一个半监督的对抗训练流程来进行动作域适应。具体来说，我们训练了一个动作后处理网络（post-net）将语音转动作模块所预测的 3D 人脸表情迁移到目标人脸的个性化领域。该后处理网络的训练流程图如下所示：

具体来说，动作后处理网络的训练损失函数由三项构成：

其中前两项是在大规模数据集样本上的 LSGAN [4] 对抗损失，第三项是在目标人数据集样本上经过后处理的预测动作与真实动作的误差损失。

2.3 基于动作渲染视频

为了给予前两个模块预测的 3D 人脸特征点渲染对应的视频，我们提出了一个以 3D 人脸特征点作为输入条件的 NeRF 模型。具体来说，除了观察方向和 3D 位置之外，3D 人脸特征点也将作为 NeRF 的输入空间，以预测对应位置的颜色和体密度。这一模型可以描述为如下的一个映射：

其中表示 3D 人脸特征点。该模型的训练方式与上文介绍的 NeRF 模型训练方法一致。

实验结果

实验表明，GeneFace 相比基准方法实现了更好的图像质量（更低的 FID）、更好的嘴唇对齐程度（更低的 LMD 和更高的 Sync 指标）。尤其是在受域外（OOD；Out-of-Domain）语音驱动时，GeneFace 的优势更加明显。

为了更好地展示 GeneFace 相比现有的基于 NeRF 的说话人合成方法的优势，我们还提供了一个实例视频：

在视频中我们可以发现：1）基准算法对于一些特殊音节无法生成准确唇形，而 GeneFace 可以做到；2）基准算法对于语速较快的音频倾向于半张着嘴、唇形运动过于平缓，而 GeneFace 即使在语速较快时也能生成准确且富有表现力的表情。

参考文献

[1] Ben M, Pratul S, Matthew T, Jonathan B, Ravi R, Ren N. NeRF: Representing scenes as neural radiance fields for view synthesis. In Proc. ECCV 2020.

[2] Ren Y, Liu J, Zhao Z. Portaspeech: Portable and high-quality generative text-to-speech. In Proc. NeurIPS 2021.

[3] Yudong G, Keyu C, Sen L, Yong-Jin L, Hujun B, Juyong Z. AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis. In Proc. ICCV 2021.

[4] Xudong M, Qing L, Haoran X, Raymond Y.K. L, Zhen W, Stephen Paul S. Least Squares Generative Adversarial Networks. ICCV 2017.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ICLR 2023 的相关文章

socket error总结

Socket error 0 Directly send error Socket error 10004 Interrupted function call Socket error 10013 Permission denied Soc
运维实践

欢迎关注 WeiyiGeek 点击下方卡片即可关注我哟设为星标每天带你基础入门到全栈实践再到放弃学习涉及网络安全运维应用开发物联网IOT 学习路径个人感悟等知识花开堪折直须折莫待无花空折枝作者主页 ht
【华为OD统一考试A卷

华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷和OD统一考试 B卷你收到的链接上面会标注A卷还是B卷请注意根据反馈目前大部分收到的都是
编译XT720 gingerbread

在android根目录下执行 build envsetup sh 然后执行lunch 选择你要的套餐然后直接make 编译中有3处错误 1 packages apps CMStats Android mk中把LOCAL STATIC J
【华为OD统一考试B卷

文章目录题目描述输入描述输出描述用例 C java javascript python 题目描述对一个数据a进行分类分类方法为此数据a 四个字节大小的四个字节相加对一个给定的值b 取模如果得到的结果小于一个给定的值c 则数
猿创征文

猿创征文国产数据库实战之TiDB 数据库快速入门一系统检查 1 检查系统版本 2 查看本地IP地址 3 TiDB集群介绍二快速部署本地测试集群 1 安装 TiUP工具 2 声明全局环境变量 3 快速部署TiDB 集群三连接 T
元宇宙概念火热，多家企业推出NFT

摘要产业动态 Facebook 计划未来五年在欧洲招聘 1 万人建立元宇宙新加坡新跃社科大学成立元宇宙实验室淘宝APP上线天猫双11首届元宇宙艺术展格拉斯哥大学与VB Hyperledger合作启动Moshan区块链实验室政策相
day39 动态规划

62 不同路径机器人每次只可以向右或者向下每次向右走 dp i 0 1 dp 0 j 1 dp i j dp i 1 j dp i j 1 i的范围 0 m 1 j的范围 0 n 1 63 不同路径 II 解法同上需要考虑障碍物
Debugger problem "The breakpoint will not currently be hit. No symbols have been loaded for this doc...

网上收集到的相关解决办法 1st Start debugging Now select Debug gt Windows gt Modules In the modules window taht now appears check wha
c语言中断程序运行,C语言实现 "软中断" 程序小结

参考网友帖子改写呵呵对于系统级语言设计之一的中断程序设计包括软中断和硬中断后者设计到硬件端口的读写操作等等应该用汇编实现比较好而前者用C实现就要方便得多的了对于软中断程序应该有3部分组成中断程序的编写安装和使用由于我们可以
【从零开始学习C++

目录前言委托构造函数类内初始化空指针枚举类总结前言 C 的学习难度大内容繁多因此我们要及时掌握C 的各种特性因此我们更新本篇文章向大家介绍C 的新增特性委托构造函数委托构造函数是指一个类的构造函数调用另一个类的构造
我的2016--"狗血"

偶然看到了CSDN的我的2016 主题征文活动突然感慨一番今年又快结束了而我这一年的经历可以浓缩为两个字狗血然而我能用上如此不羁的词汇并未能掩盖我木讷的内心这才真的是狗血感觉像在梦游走了好远的路一睁开眼睛却还在原地
【100%通过率】【华为OD机试 c++/java/python】任务总执行时长【 2023 Q1

华为OD机试题目列表 2023Q1 点这里 2023华为OD机试刷题指南点这里题目描述任务总执行时长任务编排服务负责对任务进行组合调度参与编排的任务有两种类型其中一种执行时长为taskA 另一种执行时长为taskB 任务一旦
2023华为产品测评官－开发者之声

2023华为产品测评官开发者之声活动激发了众多开发者和技术爱好者的热情他们纷纷递交了精心编写的产品测评报告活动社群充满活力参与者们热衷于交流讨论互相帮助解决问题一起探索云技术的无限可能在此次活动中华为云CodeArts获得
怎么用计算机算ess tss,"ESS、RSS、TSS"分别表示什么?

回归平方和 ESS 残差平方和 RSS 总体平方和 TSS 1 回归平方和是反映自变量与因变量之间的相关程度的偏差平方和用回归方程或回归线来描述变量之间的统计关系时实验值yi与按回归线预测的值Yi并不一定完全一致 2 残差平方和是在线
ChatGPT 再遭禁用

近日三星电子宣布禁止员工使用流行的生成式AI工具原因在于4月初三星内部发生的三起涉及 ChatGPT 误用造成的数据泄露事件报道称三星半导体设备测量资料产品良率等内容或已被存入ChatGPT学习资料库中去年11月上线以来 Cha
超高清

海思 HDR HDR行业面临巨大挑战 01 标准不统一终端呈现效果参差不齐 HDR多种技术标准共存缺少终端侧技术实现方案标准间兼容性较差不能覆盖主流终端的适配认证及测试过程导致终端呈现效果差距大 02 生态碎片化部分技术方案专
Android系统开发之修改Captive Potal Service（消灭感叹号）

本文原作者长鸣鸟未经同意转载不带名的严重鄙视谷歌在Android5 0之后的版本加入了CaptivePotalLogin服务本服务的功能是检查网络连接互联网情况主要针对于Wi Fi 不让Android设备自动连接那些不能联网的无
Visio 2007/2010 左侧"形状"窗口管理

Visio 2007 2010 左侧形状窗口管理 Visio 打开后通常窗口左侧会有一个形状面板我们可以方便地从中选择需要的形状有时为了获得更大的版面空间或者不小心关闭了形状面板怎么把它重新调出来我们可以从视图中把它找
代码随想录算法训练营第三天

今天是算法训练营的第三天写了454 四数相加 II这道题目力扣链接代码随想录链接代码如下 class Solution def fourSumCount self nums1 List int nums2 List int nums

随机推荐

独家

随机森林概述当变量的数量非常庞大时你将采取什么方法来处理数据通常情况下当问题非常庞杂时我们需要一群专家而不是一个专家来解决问题例如Linux 它是一个非常复杂的系统因此需要成百上千的专家来搭建以此类推我们能否将许多专家的
【华为OD统一考试B卷

在线OJ 已购买本专栏用户请私信博主开通账号在线刷题运行出现 Runtime Error 0Aborted 请忽略华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一
动态规划（五）

01背包问题 01 Knapsack problem 有10件货物要从甲地运送到乙地每件货物的重量单位吨和利润单位元如下表所示由于只有一辆最大载重为30t的货车能用来运送货物所以只能选择部分货物配送要求确定运送哪些货物
Matplotlib

1 折线图 import matplotlib pyplot as plt import numpy as np x np linspace 1 1 50 1到1 有五十个点 y 2 x 1 plt figure num 1 figsize
第1课：三位一体定位法，让写作事半功倍

做最懂技术的传播者最懂传播的工程师课程内容分析本课程的目标是通过对一系列问题的梳理找到适合自己的输出状态确定与理想输出状态之间存在的差距以及采取什么办法减少差距知识要点 1 受众需要什么省时间的内容收敛看过就走教你
java错误-The prefix "aop" for element "aop:aspectj-autoproxy" is not bound.

配置springmvc的aop时出错当我向配置文件中添加
年底裁员潮，你有没有被"N+1"?

2018年11月28日上午前一天加班到深夜的李女士又一大早起床匆匆赶去上班了她在一家垂直电商公司工作多年岁末将至一切和往常一样为了在年前完成比上一季度更高的 KPI 她所在团队经常通宵达旦赶工李女士准备开始新一天的鸡血工作主
数学甜点004

数学是一门及其高深又变幻莫测的学科且其根本就是问题的解决因此是不可能也没有必要去寻找一种能够解决所有问题的通解的坦白说研究数学的最大乐趣就是在于发现从来没有人走过的新道路即一种不同于常规的具有跳跃性构造性的解法换句话说无论是
时序预测

时序预测 MATLAB实现AR时间序列预测目录时序预测 MATLAB实现AR时间序列预测基本介绍程序设计学习总结参考资料基本介绍如果某个时间序列的任意数值可以表示自回归方程那么该时间序列服从p阶的自回归过程可以表示为AR
你需要知道面试中的10个JavaScript概念

翻译原文出处 10 JavaScript concepts you need to know for interviews 之前不是闹得沸沸扬扬的大漠穷秋文章为什么只会Vue的都是前端小白甚至大多数回头看了也就会jQuery和Vue这
AI绘画

今天用Midjourney生成了质量极高的美少女武士后续会作为固定栏目来分享美图接下来请欣赏作品提示词分享 1 an asian girl dressed in samurai style in the style of anime ae
多维时序

多维时序 MATLAB实现Attention LSTM 注意力机制长短期记忆神经网络多输入单输出目录多维时序 MATLAB实现Attention LSTM 注意力机制长短期记忆神经网络多输入单输出基本介绍模型背景 LSTM模型
error C2041: illegal digit ‘9‘ for base ‘8‘

错误日志文本八进制数值超过范围 1 gt E CProject test12 Source c 5 10 error C2041 illegal digit 8 for base 8 十六进制数值超过范围 1 gt E CProject
【每日一题】ABC194E-Mex Min

题目内容原题链接给定一个长度为 n n n 的整数数组 a a a 求所有长度为 m m
【华为OD统一考试B卷

题目描述一群大雁往南飞给定一个字符串记录地面上的游客听到的大雁叫声请给出叫声最少由几只大雁发出具体的 1 大雁发出的完整叫声为 quack 因为有多只大雁同一时间嘎嘎作响所以字符串中可能会混合多个 quack 2 大雁会依次完整发
Spring概述 ——跟我学Spring3

1 1 1 Spring是什么 Spring是一个开源的轻量级Java SE Java 标准版本 Java EE Java 企业版本开发应用框架其目的是用于简化企业级应用程序开发应用程序是由一组相互协作的对象组成而在传统应用程序开发
打印机"启用双向支持"的意思

在打印机的属性选项里面有一项启用双向支持的选项但是具体有什么作用一直都不明白今天特意查了一些资料启用双向支持简单来说就是来回打印打印头从左向右走动时能打印从右向左回来时不能打印如果不启用仅仅是从左向右走动时打印重庆
Illegal processing instruction target ("xml"); xml (case insensitive) is reserved by the specs

问题描述当SoapUI访问一个webservice时对于某些webserive服务如果webserive的输入参数要求是xml格式如果xml格式输入不正确会报 Unmarshalling Error Illegal process
工行数据中心高级经理李雁南：接口冒烟测试方法

原文出自听云技术博客 http blog tingyun com web a 今年遇到了几个问题与接口的功能和性能相关恰巧最近公司也在组织以冒烟测试为主题的活动于是乎突发奇想寻思着能否将接口测试与冒烟测试结合起来发掘一些新的接口
ICLR 2023

PaperWeekly 原创作者叶振辉单位浙江大学博士生研究方向语音合成说话人视频合成语音驱动的说话人视频合成 Audio driven Talking Face Generation 是虚拟人领域的一个热门话题它旨在根据

ICLR 2023

ICLR 2023 的相关文章

随机推荐

热门标签