ICLR 2023

2023-11-14

764c8d0db907b662fd1609feea032e82.gif

©PaperWeekly 原创 · 作者 | 黄融杰

单位 | 浙江大学

研究方向 | 语音翻译

语音到语音翻译(S2ST)对于打破语言壁垒与沟通障碍非常有益。传统的 S2ST 系统通常由语音识别(ASR),机器翻译(MT)和语音合成(TTS)三部分组成。与这些级联系统相比,直接 S2ST 能够用于翻译没有书面形式的语言;减少了计算需求,降低了推理延迟;还避免子系统之间的误差传递。

近年来 [1,2],利用自监督模型获得的离散单元(discrete unit)构建无文本 S2ST 系统逐渐成为主流,通过语音到单元翻译(S2UT)与基于单元的声码器的系统以支持跨语言 S2ST。我们主要有两大目标:1)高质量:直接语音到语音翻译在无文本下尤其具有挑战;2)低延迟:考虑真实实时同传时,高推理速度至关重要。

271b5c6645b59fd845f06231ff1508a8.png

尽管离散单元的无文本 S2ST 系统带来了突破,但目前的 S2ST 研究仍存在两大挑战:

● 由于语音包含语言内容和声学信息(语者、旋律、音调和能量),因此相同含义的语音得到的自监督单元可能不同,不确定性的训练目标(target)降低了翻译的准确率。

● 在 S2ST 系统上构建并行模型时,由于序列单元间不存在条件依赖,因而并行系统的输出与实际目标分布可能存在差异。

4d55ffaa092dcc9c0d6d8566652db428.png

论文标题:

TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation

论文链接:

https://arxiv.org/abs/2205.12523

代码链接:

https://github.com/Rongjiehuang/TranSpeech

在今年的人工智能顶级会议 ICLR 2023 上,浙江大学和字节跳动提出了全新的基于双边扰动的非自回归语音到语音翻译模型 TranSpeech。针对自监督表征受声学特征影响而不确定性强的问题,提出了基于双边扰动(BiP)的模型微调,减轻了声学多峰性(Acoustic Multimodality)以提升翻译性能。

进一步地,我们使用 Mask-Predict 算法建立非自回归 S2ST 模型,显著加快解码过程。同时为了应对非自回归翻译中的语言学多峰性(Linguistic Multimodality)挑战,我们基于知识蒸馏构建了噪声更少、确定性更强的语料库。在三种语言对的实验结果表明,BiP 平均提高了 2.9 个 BLEU 点。就推断速度而言,并行解码与自回归基线相比实现了 21.4 倍的加速。

bbd4e225678e6e0f493a4d460ad32ef4.png

研究背景

我们在此介绍两种影响模型性能的多峰性挑战:1)声学多峰性:具有相同内容“Vielen dank”的语音可能因各种声学条件而不同;2)语言学多峰性 [3]:同一源词/短语/句子(“谢谢”)有多个正确的目标翻译(“Danke schon”和“Vielen dank”)。

76d4e93b619be105cb357917a3bf3b56.png

而语音可以分解为内容信息和声学信息(语者、旋律、音调和能量)两大部分:语言内容表示语音信号的含义,要将语音样本翻译成另一种语言,从语音信号中学习语言信息至关重要;在声学条件中,说话人身份被认为是说话人的声音特征,节奏表征了说话者发出每个音节的速度,音高是语调的一个重要组成部分,能量则影响说话的音量。

e23ad380c2859c55e30a0d00c144cf61.png

双边扰动微调

针对自监督表征受声学特征影响而确定性差的问题,我们提出了基于双边扰动(BiP)的模型微调,减轻了表征的声学多峰性(Acoustic Multimodality)以提升翻译性能。

我们主要关注单语者场景中具挑战性的声学特征,包括节奏、音调和能量变化。具体而言,我们利用预训练的自监督学习教师模型,使用扰动的输入语音和归一化的伪文本标签,利用Connectionist Temporal Classification(CTC)[4] 微调模型得到确定性更强的、声学不敏感的自监督表征,以提升翻译模型准确度,主要包括:

● 风格规范化阶段:获得具有数据集平均声学特征的音频,创建声学不可知的自监督表征,消除 CTC 目标(Target)的声学信息。

● 信息增强阶段:扰动输入音频的声学特征,在不同声学条件(如节奏、音调和能量)下创建语音样本变体,同时保留语言内容信息。

因此,我们使用扰动语音作为输入,以风格不可知“伪文本”作为目标训练语音到自监督表征的(Many-to-One)识别模型。鼓励学习语言学信息的、而声学“平均”的确定性表征,解决声学多峰性挑战并提高语音翻译的准确度。

c507e46658345022b7cfaa877bc6f1e8.png

为证明声学多峰性并验证双边扰动,我们可视化频谱并分别扰动声学特征(即节奏、音调和能量),创建扰动语音样本。

feff9acedd731870379af54eb1c207ad.png

9712dc91573d8d453826d12c5c77bcfe.png

可以看到,在预训练自监督模型中,声学特征改变而语言学内容不变带来的自监督表征不确定性高达 22.7% UER。自监督模型同时学习语言内容信息和声学信息,因此相同内容而声学信息(语者、旋律、音调和能量)不同的语音中得到的自监督表征是不确定的。与之不同的是,使用所提出的双边扰动(BiP)后微调模型,得到的 UER 出现了显著下降,证明了 BiP 有效地缓解声学多峰性挑战。

8c3b78fa07146c26fc8998af36362eb8.png

非自回归语音翻译

我们 1)使用 BiP 微调的自监督模型 HuBERT [5] 获得目标语音的离散自监督单元;2)建立用于语音到单元翻译(S2UT)的序列到序列模型 TranSpeech,3)应用单独训练的基于单元的声码器 [6,7] 获得目标语言语音。

从模型结构上,我们使用了 Conformer 编码器以及 Transformer 解码器。同时使用 Transformer XL [7] 的具有相对正弦位置编码的多头注意力机制,提高自注意力模块的鲁棒性,并更好地推广到不同的输入语音长度。

为了缓解非自回归翻译的语言学多峰性,我们应用知识蒸馏技术从自回归教师模型中构建了新的翻译语料库,比原始语料库具有更少的噪声因素,且更具确定性。

a8fe738efb7e886f7666cde7007cdc4f.png

在非自回归解码策略中,我们应用 Mask-Predict [8] 策略,具体来说:1)训练中,给定目标序列的长度 N,我们首先从 1-N 的均匀分布中采样遮蔽(Mask)单元的数量,然后随机选择遮蔽位置。对于训练损失,我们计算遮蔽位置中生成的单元和目标单元之间的交叉熵(CE)损失,同时加入了目标长度预测的 CE 损失。2)推理中,该算法运行预定的T次迭代优化,总体上我们在每次迭代时遮蔽 (Mask)单元,然后进行预测(Predict)。

在第一次迭代 t=0 中,我们预测目标序列的长度 N,并遮蔽所有单元 Y。在每轮迭代中,我们确定较高分数的单元,继续遮蔽(Mask)具有最低置信度的 n 个单元:

91b251b2c49b0be4cf7e839f11d3a536.png

其中 n 是关于迭代轮次 t 的函数,我们在本工作中使用线性衰减(Linear decay)。掩蔽后,TranSpeech 基于源语言语音 X 和未掩蔽单元 Yobs 预测掩蔽单元 Y,并更新各单元置信度。

6997970507ec94f88a7f544f9e3ab602.png

与此同时,我们探索使用了高级解码方式,包括:

长度 beam 搜索:我们选择具有最高概率的前 K 个候选长度,同时并行解码具有不同长度的目标序列。

噪声并行解码:我们使用自回归教师模型获得序列置信度,以确定最佳整体翻译。

852e3d3862a8dc278db00bdcc5bd905c.png

实验结果

我们使用CVSS-C翻译数据集的三种语言对上进行了实验,包括法语-英语(Fr-En)、英语-西班牙语(En-Es)和英语-法语(En-Fr)。

8416804c9a1783f0a9e275b41c25e912.png

主要得出以下结论:

● 双边扰动(3 vs. 4)在 S2ST 性能提高了 2.9 个 BLEU 点。

● Conformer 模型架构(2 vs. 3)显示了 2.2 个 BLEU 点的精度增益。

● 知识蒸馏(6 vs. 7)被证明可以缓解语言学多峰性,在蒸馏语料库上的训练提供了大约 1 个 BLEU 点的提升。

● TranSpeech 超过了最佳公开基线(2 vs. 6),且在 S2ST 上实现新的 SOTA 只需要 2 个掩码预测(Mask-Predict)迭代轮次。

● 当考虑非自回归预测的速度-性能平衡时,更多的迭代轮次(7 vs. 8)或高级解码方法(例如,长度 beam 搜索(8 vs. 9)和噪声并行解码(9 vs. 10))进一步提升翻译精度。

0fe39162aeaaae319f5447ab7f46eca2.png

在解码速度上,自回归基线解码时间随着长度上具有线性增长。而非自回归模型  TranSpeech 不同长度序列的解码时间几乎是恒定的,尽管有多个周期的 Mask-Predict 迭代轮次。与自回归基线相比,TranSpeech 的速度提高了 21.4 倍。另一方面,它也可以保持 BELU 18.39 的最高质量,同时获得 253% 的加速。

e294303a340ac6803f7987f6cbb3cfb1.png

总结与展望

针对翻译质量,我们提出了基于双边扰动(BiP)的自监督模型微调,减轻了表征的声学多峰性(Acoustic Multimodality)以提升翻译性能。针对翻译速度,我们使用 Mask-Predict 算法建立非自回归解码,并应用知识蒸馏技术应对语言学多峰性(Linguistic Multimodality)挑战。在三种语言对的实验结果表明,与基线 S2ST 模型相比,BiP 平均提高了 2.9 个 BLEU 点。就推理速度而言,并行解码与自回归基线相比实现了 21.4 倍的加速。

TranSpeech 是我们研究通用语音翻译(Universal Translation)的关键一步,未来我们将持续提高 S2ST 的翻译质量,并积极拓展到多模态 S2ST 翻译领域。

outside_default.png

参考文献

outside_default.png

[1] A. Lee, P.-J. Chen, C. Wang, J. Gu, X. Ma, A. Polyak, Y. Adi, Q. He, Y. Tang, J. Pino et al., “Direct speech-to-speech translation with discrete units,” arXiv preprint arXiv:2107.05604, 2021.

[2] A. Lee, H. Gong, P.-A. Duquenne, H. Schwenk, P.-J. Chen, C. Wang, S. Popuri, J. Pino, J. Gu, and W.-N. Hsu, “Textless speech-to-speech translation on real data,” arXiv preprint arXiv:2112.08352, 2021.

[3] Jiatao Gu, James Bradbury, Caiming Xiong, Victor OK Li, and Richard Socher. Non-autoregressive neural machine translation. arXiv preprint arXiv:1711.02281, 2017.

[3] Alexei Baevski, Michael Auli, and Abdelrahman Mohamed. Effectiveness of self-supervised pretraining for speech recognition. arXiv preprint arXiv:1911.03912, 2019.

[4] Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, and Abdelrahman Mohamed. Hubert: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29:3451–3460, 2021.

[5] Adam Polyak, Yossi Adi, Jade Copet, Eugene Kharitonov, Kushal Lakhotia, Wei-Ning Hsu, Abdelrahman Mohamed, and Emmanuel Dupoux. Speech resynthesis from discrete disentangled self-supervised representations. arXiv preprint arXiv:2104.00355, 2021.

[6] Jungil Kong, Jaehyeon Kim, and Jaekyoung Bae. Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis. Advances in Neural Information Processing Systems, 33:17022–17033, 2020.

[7] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V Le, and Ruslan Salakhutdinov. Transformer-xl: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860, 2019.

[8] Marjan Ghazvininejad, Omer Levy, Yinhan Liu, and Luke Zettlemoyer. Mask-predict: Parallel decoding of conditional masked language models. arXiv preprint arXiv:1904.09324, 2019.

更多阅读

cacc510beb93b1878ff982344eda831e.png

e8657cb8f7da3ff19a3263485b02c8e8.png

c111e00f66dbf1ac4a3725872d76b213.png

b65a628dd8795babad51b68beb5ca982.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

ICLR 2023 的相关文章

随机推荐

  • mac运行ps特别慢_PS CC 2019 太卡,运行特别慢?这几个优化提速技巧我再说一遍...

    只要设置好这几个选项 让你的 PS CC 2019 运行如飞 曾经写过关于PS优化提速的教程 但总有粉丝问我PS很卡很慢 怎么办 所以 这几个核心的 PS 优化提速技巧我再说一遍 先声明一下 我这里讲的优化提速是指你电脑配置足够的情况下PS
  • ​LeetCode刷题实战33:搜索旋转排序数组

    来源 https www cnblogs com techflow p 12441002 html 算法的重要性 我就不多说了吧 想去大厂 就必须要经过基础知识和业务逻辑面试 算法面试 所以 为了提高大家的算法能力 这个公众号后续每天带大家
  • 【Monkey】Android压力测试

    一 简单介绍一下Monkey Monkey工具直接运行在设备或模拟器的adb shell中 生成用户或系统的伪随机事件流 二 Monkey命令 1 adb shell monkey p package 事件数 50 随机完成50个事件 ad
  • Unity架构之域重新加载

    域重新加载 域重新加载将重置脚本状态 默认情况下会启用域重新加载 此功能为您提供了全新的脚本状态 并会在您每次进入运行模式时重置所有静态字段和已注册的处理程序 这意味着每次在 Unity Editor 中进入运行模式时 您的项目就会采用与在
  • pkpm字体库下载_pkpm字体库转到cad

    等级 文件 5MB 格式 rar 五层框架结构PKPM模型 CAD配筋图纸 建筑说明 本工程为唐山市市医院办公大楼 建筑面积约为 4000平方米 本建筑共五层 为框架结构 抗震烈度按8度设防 图纸包括 唐山医院建筑图 CAD配筋图纸以及pk
  • matlab实现以不同信噪比在干净语音信号中叠加噪声

    原理公式 信噪比计算公式 信号功率和噪声功率之比 也是信号幅度和噪声幅度的平方之比 一般情况下我们使用分贝的形式 即单位是dB 其值为对数信号与噪声功率比的十倍 matlab实现代码 function y noise add noise m
  • shopify 前端开发遇到的问题及解决(部分)

    问题 gallery不同部分的小li互相干扰 解决 修复了小li互相干扰的bug 原因 其实不单单需要修改小li的class 并且需要修改小li的控件 也就是是loopli 不然会互相干扰 shopify的section中jQuery能够拿
  • MongoDB 内置角色

    1 数据库用户角色 针对每一个数据库进行控制 read 提供了读取所有非系统集合 以及系统集合中的system indexes system js system namespacesreadWrite 包含了所有read权限 以及修改所有非
  • 面试官问:你熟悉哪些HashMap的封装扩展类?

    我习惯了无所谓 却不是真的什么都不在乎 请关注 源码猎人 目录 简介 LinkedHashMap 源码解读 LinkedHashMap属性 LinkedHashMap构造函数 LinkedHashMap 方法 LinkedHashMap 内
  • (二)动态白盒测试(含逻辑覆盖例子)

    一 动态白盒测试 重点 1 概念 动态 测试运行中的程序 白盒 洞察盒子里面 检查代码并观察运行状况 生成测试数据 分析测试结果的工作量大 使开展测试工作费时 费力 费人 二 动态白盒测试常用的测试用例方法 a 逻辑覆盖 语句覆盖 分支 判
  • [Python人工智能] 七.什么是过拟合及dropout解决神经网络中的过拟合问题

    从本专栏开始 作者正式开始研究Python深度学习 神经网络及人工智能相关知识 前一篇文章通过TensorFlow实现分类学习 以MNIST数字图片为例进行讲解 本文将介绍什么是过拟合 并采用droput解决神经网络中过拟合的问题 以Ten
  • SCL+顺控GRAPH西门子PLC1500 SCL程序 包括PLC程序,触摸屏程序 灌装线程序有配方

    SCL 顺控GRAPH西门子PLC1500 SCL程序 包括PLC程序 触摸屏程序 中文注释详细 灌装线程序有配方 报警记录 液位读取 重量读取 除个别调用外 程序全采用SCL 顺控程序编写 YID 277626722251284好3730
  • 20200808网抑云笔试(动态规划 补全回文串)刷题(粉刷房子,会议室(最多一心几用))

    1 网抑云题 一个是进行字符串补全使之成为回文串 AC70 另一个是一堆物品平均分给两个人 允许丢弃 求最少丢弃 字符串补全为回文串的 我的做法是 动态规划 判断if s i s j 是的话就 dp i j dp i 1 j 1 否则 的话
  • php CURL模拟登陆+获取cookie

    模拟post请求 function post curl url params headers httpInfo array ch curl init curl setopt ch CURLOPT HEADER 1 curl setopt c
  • HTML+CSS实现旋转立方体

    1 六个面叠在一起 2 六个面整体水平垂直居中 3 旋转且位移到对应的六个面上
  • Using DirectSound to Play Audio Stream Data

    Download demo project 30 5 Kb Download source 3 27 Kb Introduction This article with its code shows how to play audio st
  • 两个数组的交集

    摘自 https leetcode cn com problems intersection of two arrays solution duo chong jie fa jie jue 349 liang ge shu zu de ji
  • 极验java源码_jsp滑动拼图极验验证java代码

    运行环境 Myeclipse tomcat6 jdk1 7 最近研究了一个新的验证登录注册的代码 叫做极验验证滑动拼图代码 对它感兴趣是因为在b站看到了 觉得对页面的显示效果特别好 而且也很安全 它是属于行为式验证 简单一滑即可完成拼图 用
  • 计算机网络 第1章 概述 知识小结

    1 电路交换 报文交换和分组交换的主要优缺点 电路交换 优点 通信双方时延小 缺点 网络传输易堵塞 浪费资源且效率低 报文交换 优点 网络信道利用率较高 缺点 延时长 对转发中心要求高 需占用较大存储空间 分组交换 优点 高效 逐段占用 灵
  • ICLR 2023

    PaperWeekly 原创 作者 黄融杰 单位 浙江大学 研究方向 语音翻译 语音到语音翻译 S2ST 对于打破语言壁垒与沟通障碍非常有益 传统的 S2ST 系统通常由语音识别 ASR 机器翻译 MT 和语音合成 TTS 三部分组成 与这
Powered by Hwhale