ICLR 2023

2023-11-14

©PaperWeekly 原创 · 作者 | 黄融杰

单位 | 浙江大学

研究方向 | 语音翻译

语音到语音翻译（S2ST）对于打破语言壁垒与沟通障碍非常有益。传统的 S2ST 系统通常由语音识别（ASR），机器翻译（MT）和语音合成（TTS）三部分组成。与这些级联系统相比，直接 S2ST 能够用于翻译没有书面形式的语言；减少了计算需求，降低了推理延迟；还避免子系统之间的误差传递。

近年来 [1,2]，利用自监督模型获得的离散单元（discrete unit）构建无文本 S2ST 系统逐渐成为主流，通过语音到单元翻译（S2UT）与基于单元的声码器的系统以支持跨语言 S2ST。我们主要有两大目标：1）高质量：直接语音到语音翻译在无文本下尤其具有挑战；2）低延迟：考虑真实实时同传时，高推理速度至关重要。

尽管离散单元的无文本 S2ST 系统带来了突破，但目前的 S2ST 研究仍存在两大挑战：

● 由于语音包含语言内容和声学信息（语者、旋律、音调和能量），因此相同含义的语音得到的自监督单元可能不同，不确定性的训练目标（target）降低了翻译的准确率。

● 在 S2ST 系统上构建并行模型时，由于序列单元间不存在条件依赖，因而并行系统的输出与实际目标分布可能存在差异。

论文标题：

TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation

论文链接：

https://arxiv.org/abs/2205.12523

代码链接：

https://github.com/Rongjiehuang/TranSpeech

在今年的人工智能顶级会议 ICLR 2023 上，浙江大学和字节跳动提出了全新的基于双边扰动的非自回归语音到语音翻译模型 TranSpeech。针对自监督表征受声学特征影响而不确定性强的问题，提出了基于双边扰动（BiP）的模型微调，减轻了声学多峰性（Acoustic Multimodality）以提升翻译性能。

进一步地，我们使用 Mask-Predict 算法建立非自回归 S2ST 模型，显著加快解码过程。同时为了应对非自回归翻译中的语言学多峰性（Linguistic Multimodality）挑战，我们基于知识蒸馏构建了噪声更少、确定性更强的语料库。在三种语言对的实验结果表明，BiP 平均提高了 2.9 个 BLEU 点。就推断速度而言，并行解码与自回归基线相比实现了 21.4 倍的加速。

研究背景

我们在此介绍两种影响模型性能的多峰性挑战：1）声学多峰性：具有相同内容“Vielen dank”的语音可能因各种声学条件而不同；2）语言学多峰性 [3]：同一源词/短语/句子（“谢谢”）有多个正确的目标翻译（“Danke schon”和“Vielen dank”）。

而语音可以分解为内容信息和声学信息（语者、旋律、音调和能量）两大部分：语言内容表示语音信号的含义，要将语音样本翻译成另一种语言，从语音信号中学习语言信息至关重要；在声学条件中，说话人身份被认为是说话人的声音特征，节奏表征了说话者发出每个音节的速度，音高是语调的一个重要组成部分，能量则影响说话的音量。

双边扰动微调

针对自监督表征受声学特征影响而确定性差的问题，我们提出了基于双边扰动（BiP）的模型微调，减轻了表征的声学多峰性（Acoustic Multimodality）以提升翻译性能。

我们主要关注单语者场景中具挑战性的声学特征，包括节奏、音调和能量变化。具体而言，我们利用预训练的自监督学习教师模型，使用扰动的输入语音和归一化的伪文本标签，利用Connectionist Temporal Classification（CTC）[4] 微调模型得到确定性更强的、声学不敏感的自监督表征，以提升翻译模型准确度，主要包括：

● 风格规范化阶段：获得具有数据集平均声学特征的音频，创建声学不可知的自监督表征，消除 CTC 目标（Target）的声学信息。

● 信息增强阶段：扰动输入音频的声学特征，在不同声学条件（如节奏、音调和能量）下创建语音样本变体，同时保留语言内容信息。

因此，我们使用扰动语音作为输入，以风格不可知“伪文本”作为目标训练语音到自监督表征的（Many-to-One）识别模型。鼓励学习语言学信息的、而声学“平均”的确定性表征，解决声学多峰性挑战并提高语音翻译的准确度。

为证明声学多峰性并验证双边扰动，我们可视化频谱并分别扰动声学特征（即节奏、音调和能量），创建扰动语音样本。

可以看到，在预训练自监督模型中，声学特征改变而语言学内容不变带来的自监督表征不确定性高达 22.7% UER。自监督模型同时学习语言内容信息和声学信息，因此相同内容而声学信息（语者、旋律、音调和能量）不同的语音中得到的自监督表征是不确定的。与之不同的是，使用所提出的双边扰动（BiP）后微调模型，得到的 UER 出现了显著下降，证明了 BiP 有效地缓解声学多峰性挑战。

非自回归语音翻译

我们 1）使用 BiP 微调的自监督模型 HuBERT [5] 获得目标语音的离散自监督单元；2）建立用于语音到单元翻译（S2UT）的序列到序列模型 TranSpeech，3）应用单独训练的基于单元的声码器 [6,7] 获得目标语言语音。

从模型结构上，我们使用了 Conformer 编码器以及 Transformer 解码器。同时使用 Transformer XL [7] 的具有相对正弦位置编码的多头注意力机制，提高自注意力模块的鲁棒性，并更好地推广到不同的输入语音长度。

为了缓解非自回归翻译的语言学多峰性，我们应用知识蒸馏技术从自回归教师模型中构建了新的翻译语料库，比原始语料库具有更少的噪声因素，且更具确定性。

在非自回归解码策略中，我们应用 Mask-Predict [8] 策略，具体来说：1）训练中，给定目标序列的长度 N，我们首先从 1-N 的均匀分布中采样遮蔽（Mask）单元的数量，然后随机选择遮蔽位置。对于训练损失，我们计算遮蔽位置中生成的单元和目标单元之间的交叉熵（CE）损失，同时加入了目标长度预测的 CE 损失。2）推理中，该算法运行预定的T次迭代优化，总体上我们在每次迭代时遮蔽（Mask）单元，然后进行预测（Predict）。

在第一次迭代 t=0 中，我们预测目标序列的长度 N，并遮蔽所有单元 Y。在每轮迭代中，我们确定较高分数的单元，继续遮蔽（Mask）具有最低置信度的 n 个单元：

其中 n 是关于迭代轮次 t 的函数，我们在本工作中使用线性衰减（Linear decay）。掩蔽后，TranSpeech 基于源语言语音 X 和未掩蔽单元 Yobs 预测掩蔽单元 Y，并更新各单元置信度。

与此同时，我们探索使用了高级解码方式，包括：

长度 beam 搜索：我们选择具有最高概率的前 K 个候选长度，同时并行解码具有不同长度的目标序列。

噪声并行解码：我们使用自回归教师模型获得序列置信度，以确定最佳整体翻译。

实验结果

我们使用CVSS-C翻译数据集的三种语言对上进行了实验，包括法语-英语（Fr-En）、英语-西班牙语（En-Es）和英语-法语（En-Fr）。

主要得出以下结论：

● 双边扰动（3 vs. 4）在 S2ST 性能提高了 2.9 个 BLEU 点。

● Conformer 模型架构（2 vs. 3）显示了 2.2 个 BLEU 点的精度增益。

● 知识蒸馏（6 vs. 7）被证明可以缓解语言学多峰性，在蒸馏语料库上的训练提供了大约 1 个 BLEU 点的提升。

● TranSpeech 超过了最佳公开基线（2 vs. 6），且在 S2ST 上实现新的 SOTA 只需要 2 个掩码预测（Mask-Predict）迭代轮次。

● 当考虑非自回归预测的速度-性能平衡时，更多的迭代轮次（7 vs. 8）或高级解码方法（例如，长度 beam 搜索（8 vs. 9）和噪声并行解码（9 vs. 10））进一步提升翻译精度。

在解码速度上，自回归基线解码时间随着长度上具有线性增长。而非自回归模型 TranSpeech 不同长度序列的解码时间几乎是恒定的，尽管有多个周期的 Mask-Predict 迭代轮次。与自回归基线相比，TranSpeech 的速度提高了 21.4 倍。另一方面，它也可以保持 BELU 18.39 的最高质量，同时获得 253% 的加速。

总结与展望

针对翻译质量，我们提出了基于双边扰动（BiP）的自监督模型微调，减轻了表征的声学多峰性（Acoustic Multimodality）以提升翻译性能。针对翻译速度，我们使用 Mask-Predict 算法建立非自回归解码，并应用知识蒸馏技术应对语言学多峰性（Linguistic Multimodality）挑战。在三种语言对的实验结果表明，与基线 S2ST 模型相比，BiP 平均提高了 2.9 个 BLEU 点。就推理速度而言，并行解码与自回归基线相比实现了 21.4 倍的加速。

TranSpeech 是我们研究通用语音翻译（Universal Translation）的关键一步，未来我们将持续提高 S2ST 的翻译质量，并积极拓展到多模态 S2ST 翻译领域。

参考文献

[1] A. Lee, P.-J. Chen, C. Wang, J. Gu, X. Ma, A. Polyak, Y. Adi, Q. He, Y. Tang, J. Pino et al., “Direct speech-to-speech translation with discrete units,” arXiv preprint arXiv:2107.05604, 2021.

[2] A. Lee, H. Gong, P.-A. Duquenne, H. Schwenk, P.-J. Chen, C. Wang, S. Popuri, J. Pino, J. Gu, and W.-N. Hsu, “Textless speech-to-speech translation on real data,” arXiv preprint arXiv:2112.08352, 2021.

[3] Jiatao Gu, James Bradbury, Caiming Xiong, Victor OK Li, and Richard Socher. Non-autoregressive neural machine translation. arXiv preprint arXiv:1711.02281, 2017.

[3] Alexei Baevski, Michael Auli, and Abdelrahman Mohamed. Effectiveness of self-supervised pretraining for speech recognition. arXiv preprint arXiv:1911.03912, 2019.

[4] Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, and Abdelrahman Mohamed. Hubert: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29:3451–3460, 2021.

[5] Adam Polyak, Yossi Adi, Jade Copet, Eugene Kharitonov, Kushal Lakhotia, Wei-Ning Hsu, Abdelrahman Mohamed, and Emmanuel Dupoux. Speech resynthesis from discrete disentangled self-supervised representations. arXiv preprint arXiv:2104.00355, 2021.

[6] Jungil Kong, Jaehyeon Kim, and Jaekyoung Bae. Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis. Advances in Neural Information Processing Systems, 33:17022–17033, 2020.

[7] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V Le, and Ruslan Salakhutdinov. Transformer-xl: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860, 2019.

[8] Marjan Ghazvininejad, Omer Levy, Yinhan Liu, and Luke Zettlemoyer. Mask-predict: Parallel decoding of conditional masked language models. arXiv preprint arXiv:1904.09324, 2019.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ICLR 2023 的相关文章

【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
台积电再被坑，2纳米光刻机优先给Intel和三星，美国太霸道了

外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台三星获得3台台积电只能得到一台考虑到美国对ASML的强大影响力外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面自从2014年量产14纳米之
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技

随机推荐

mac运行ps特别慢_PS CC 2019 太卡，运行特别慢？这几个优化提速技巧我再说一遍...

只要设置好这几个选项让你的 PS CC 2019 运行如飞曾经写过关于PS优化提速的教程但总有粉丝问我PS很卡很慢怎么办所以这几个核心的 PS 优化提速技巧我再说一遍先声明一下我这里讲的优化提速是指你电脑配置足够的情况下PS
LeetCode刷题实战33：搜索旋转排序数组

来源 https www cnblogs com techflow p 12441002 html 算法的重要性我就不多说了吧想去大厂就必须要经过基础知识和业务逻辑面试算法面试所以为了提高大家的算法能力这个公众号后续每天带大家
【Monkey】Android压力测试

一简单介绍一下Monkey Monkey工具直接运行在设备或模拟器的adb shell中生成用户或系统的伪随机事件流二 Monkey命令 1 adb shell monkey p package 事件数 50 随机完成50个事件 ad
Unity架构之域重新加载

域重新加载域重新加载将重置脚本状态默认情况下会启用域重新加载此功能为您提供了全新的脚本状态并会在您每次进入运行模式时重置所有静态字段和已注册的处理程序这意味着每次在 Unity Editor 中进入运行模式时您的项目就会采用与在
pkpm字体库下载_pkpm字体库转到cad

等级文件 5MB 格式 rar 五层框架结构PKPM模型 CAD配筋图纸建筑说明本工程为唐山市市医院办公大楼建筑面积约为 4000平方米本建筑共五层为框架结构抗震烈度按8度设防图纸包括唐山医院建筑图 CAD配筋图纸以及pk
matlab实现以不同信噪比在干净语音信号中叠加噪声

原理公式信噪比计算公式信号功率和噪声功率之比也是信号幅度和噪声幅度的平方之比一般情况下我们使用分贝的形式即单位是dB 其值为对数信号与噪声功率比的十倍 matlab实现代码 function y noise add noise m
shopify 前端开发遇到的问题及解决（部分）

问题 gallery不同部分的小li互相干扰解决修复了小li互相干扰的bug 原因其实不单单需要修改小li的class 并且需要修改小li的控件也就是是loopli 不然会互相干扰 shopify的section中jQuery能够拿
MongoDB 内置角色

1 数据库用户角色针对每一个数据库进行控制 read 提供了读取所有非系统集合以及系统集合中的system indexes system js system namespacesreadWrite 包含了所有read权限以及修改所有非
面试官问：你熟悉哪些HashMap的封装扩展类？

我习惯了无所谓却不是真的什么都不在乎请关注源码猎人目录简介 LinkedHashMap 源码解读 LinkedHashMap属性 LinkedHashMap构造函数 LinkedHashMap 方法 LinkedHashMap 内
（二）动态白盒测试（含逻辑覆盖例子）

一动态白盒测试重点 1 概念动态测试运行中的程序白盒洞察盒子里面检查代码并观察运行状况生成测试数据分析测试结果的工作量大使开展测试工作费时费力费人二动态白盒测试常用的测试用例方法 a 逻辑覆盖语句覆盖分支判
[Python人工智能] 七.什么是过拟合及dropout解决神经网络中的过拟合问题

从本专栏开始作者正式开始研究Python深度学习神经网络及人工智能相关知识前一篇文章通过TensorFlow实现分类学习以MNIST数字图片为例进行讲解本文将介绍什么是过拟合并采用droput解决神经网络中过拟合的问题以Ten
SCL+顺控GRAPH西门子PLC1500 SCL程序包括PLC程序，触摸屏程序灌装线程序有配方

SCL 顺控GRAPH西门子PLC1500 SCL程序包括PLC程序触摸屏程序中文注释详细灌装线程序有配方报警记录液位读取重量读取除个别调用外程序全采用SCL 顺控程序编写 YID 277626722251284好3730
20200808网抑云笔试（动态规划补全回文串）刷题（粉刷房子，会议室（最多一心几用））

1 网抑云题一个是进行字符串补全使之成为回文串 AC70 另一个是一堆物品平均分给两个人允许丢弃求最少丢弃字符串补全为回文串的我的做法是动态规划判断if s i s j 是的话就 dp i j dp i 1 j 1 否则的话
php CURL模拟登陆+获取cookie

模拟post请求 function post curl url params headers httpInfo array ch curl init curl setopt ch CURLOPT HEADER 1 curl setopt c
HTML+CSS实现旋转立方体

1 六个面叠在一起 2 六个面整体水平垂直居中 3 旋转且位移到对应的六个面上
Using DirectSound to Play Audio Stream Data

Download demo project 30 5 Kb Download source 3 27 Kb Introduction This article with its code shows how to play audio st
两个数组的交集

摘自 https leetcode cn com problems intersection of two arrays solution duo chong jie fa jie jue 349 liang ge shu zu de ji
极验java源码_jsp滑动拼图极验验证java代码

运行环境 Myeclipse tomcat6 jdk1 7 最近研究了一个新的验证登录注册的代码叫做极验验证滑动拼图代码对它感兴趣是因为在b站看到了觉得对页面的显示效果特别好而且也很安全它是属于行为式验证简单一滑即可完成拼图用
计算机网络第1章概述知识小结

1 电路交换报文交换和分组交换的主要优缺点电路交换优点通信双方时延小缺点网络传输易堵塞浪费资源且效率低报文交换优点网络信道利用率较高缺点延时长对转发中心要求高需占用较大存储空间分组交换优点高效逐段占用灵
ICLR 2023

PaperWeekly 原创作者黄融杰单位浙江大学研究方向语音翻译语音到语音翻译 S2ST 对于打破语言壁垒与沟通障碍非常有益传统的 S2ST 系统通常由语音识别 ASR 机器翻译 MT 和语音合成 TTS 三部分组成与这

ICLR 2023

ICLR 2023 的相关文章

随机推荐

热门标签