论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用

2023-11-11

近日，实验室三篇论文被语音研究顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)录用，一篇论文被重要期刊IEEE Signal Processing Letters (IEEE SPL)录用，论文方向涉及说话人识别中的对抗攻击、基于扩散模型的跨语种情感迁移语音合成、语音转换中基于多层级韵律建模的风格迁移、基于语言模型的语音转换。现对四篇论文工作进行简要介绍。

-1-

论文题目：Timbre-reserved Adversarial Attack in Speaker Identification
作者列表：王晴，姚继珣，张丽，郭鹏程，谢磊
发表期刊：IEEE/ACM Transactions on Audio, Speech and Language Processing
论文网址：https://arxiv.org/abs/2309.00929

内容简介：作为一种生物特征识别技术，说话人识别（Speaker Identification, SID）系统面临各种攻击。欺骗攻击（Spoofing Attack）通常模仿目标说话人的音色，而对抗攻击（Adversarial Attack）则通过向任意语音添加经过精心设计的对抗扰动来混淆SID系统。尽管欺骗攻击复制了与目标说话人相似的音色，但没有把SID这个下游任务考虑进去，并未利用SID模型的弱点，不能完全使SID系统产生攻击者所期望的决策。至于对抗攻击，尽管SID系统可以被引导到特定的决策上，但它不能满足特定攻击场景中特定的的文本或说话人音色要求。在本文中，为了对说话人识别模型中的攻击不仅利用SID模型的弱点，还可以保留目标说话人的音色，我们提出了一种保留音色的对抗攻击方法。我们通过在语音转换（Voice Conversion, VC）模型的不同训练阶段添加对抗约束来生成保留音色的对抗伪造音频。具体来说，对抗约束是使用目标说话人标签来优化添加到VC模型表示中的对抗扰动，并通过加入VC模型训练的说话人分类器来实现。对抗约束可以帮助控制VC模型生成特定说话人的音频。最终，VC模型的推理结果是理想的保留音色的对抗伪造音频，可以欺骗SID系统。在音频深度伪造检测挑战赛（Audio Deepfake Detection Challenge, ADD）数据集上的实验结果表明，我们提出的方法显著提高了攻击成功率，与仅在攻击语音中直接添加对抗扰动的普通VC模型的结果是可比的。客观和主观评估表明，本文方法生成的伪造音频的质量优于直接向VC生成的音频添加对抗扰动。此外分析显示，生成的对抗伪造音频也符合攻击者指定的文本和目标说话人音色保留要求。

-2-

论文题目：DiCLET-TTS: Diffusion Model based Cross-lingual Emotion Transfer for Text-to-Speech -- A Study between English and Mandarin
作者列表：李涛, 胡晨旭, 从坚, 朱新发, 李静北, 田乔，王玉平, 谢磊
发表期刊：IEEE/ACM Transactions on Audio, Speech and Language Processing
合作单位：字节跳动
论文网址：http://arxiv.org/abs/2309.00883

内容简介：跨语种语音合成旨在赋予目标发音人说外语的能力。虽然基于单语语料库的跨语种语音合成的性能得到了显著改善，但合成的跨语种语音仍然受到外国口音问题的影响，导致合成语音的自然度有限。此外，当前的跨语种语音合成方法大多忽略了情感建模，而情感是人类语音中不可或缺的副语言信息。针对上述问题，本文提出了DiCLET-TTS，一种基于扩散模型的跨语种情感迁移方法，可以将情感从源说话人迁移至语种内的和跨语种的目标说话人。具体来说，为了缓解外国口音问题，同时提升情感表现力，前向扩散过程的终端分布被先验文本编码器以情感嵌入为条件，参数化为与说话人无关但与情感相关的语义先验。为了解决从情感嵌入中去除说话人信息而导致迁移的情感表现力较弱的问题，提出了一种新颖的基于正交投影的情感解耦模块（OP-EDM）以学习与说话人无关但具有情感判别性的嵌入。此外，引入条件增强的扩散解码器来增强反向扩散过程中说话人和情感的建模能力，进一步提高语音传递中的情感表现力。实验表明，尽管语种内情感迁移的性能优于更具挑战性的跨语种迁移，但与三种基线方法相比，DiCLET-TTS 在语内和跨语种迁移方面都可以有效提升合成语音的自然度、情感相似度和说话人相似度。同时，嵌入可视化和偏好测试证明了 OP-EDM 在学习与说话人无关但具有情感判别性的情感嵌入方面的优势。

-3-

论文题目：MSM-VC: High-fidelity Source Style Transfer for Non-Parallel Voice Conversion by Multi-scale Style Modeling
作者列表：王智超，王新升，谢启聪，李涛，谢磊，田乔，王玉平
发表期刊：IEEE/ACM Transactions on Audio, Speech and Language Processing
合作单位：字节跳动
论文网址：https://arxiv.org/abs/2309.01142

内容简介：在语音转换（Voice Conversion, VC）任务中，除了需要将源语音的语义内容传递给转换后的语音，保持源语音中的讲话风格同样十分的重要，它对于许多需要高表现语音的场景十分关键，比如电影电视配音、数据增广等。过去的方法通常使用基于信号提取的韵律特征或者网络学习的定长风格表征来表示源语音的讲话风格，但是这种方式下对于实现全面的风格建模和目标说话人音色保留是不充足的。受语音风格多尺度性质的启发，本文提出了一种用于 VC 任务的多尺度风格建模方法，简称 MSM-VC。MSM-VC 从不同级别（全局、局部和帧级）对源语音的说话风格进行建模。为了有效地建模说话风格，同时防止源语音中音色信息泄露到转换后的语音，每个级别的风格都通过特定的特征来建模。具体来说, 韵律特征、预训练的 ASR 模型的瓶颈特征以及自监督模型提取的特征分别对帧级、局部和全局的风格进行建模。同时，为了平衡源语音风格建模和目标说话人音色保留的能力，我们引入了由预训练的语音情感识别模型和说话人分类器组成的显式约束模块。这种显式约束模块还可以在训练过程中模拟风格迁移的推理过程，能够提高模型解耦能力并减轻训练与推理之间的不匹配。在高表现力语音测试集上进行的实验表明，MSM-VC 优于过去的 VC 方法。提出的方法可以实现对源语音风格进行建模，同时保持良好的语音质量和说话人相似性。此外，消融分析证明了每个风格级别建模的必要性以及每个模块的有效性。

-4-

论文题目：LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models
作者列表：王智超，陈远哲，谢磊，田乔，王玉平
发表期刊：IEEE Signal Processing Letters
合作单位：字节跳动
论文网址：https://arxiv.org/abs/2306.10521

内容简介：基于语言模型 (Lauguage Model, LM) 的音频生成框架（例如 AudioLM）最近在零样本音频生成方面实现了非常优越的性能。本文探索了LM用于零样本语音转换（Zero-shot Voice Conversion）的潜力。最直观的方法是参照AudioLM的框架——通过HuBERT和SoundStream将语音分别表示为语义标记（Semantic Token）和声学标记（Acoustic Token），并根据目标说话人的声学标记将源语音的语义标记转换为目标语音的声学标记。然而，这种方案的问题是：1）语义标记中包含的语言内容可能在多层建模过程中逐渐变弱，而语音转换任务中较长的语音输入使上下文学习变得更加困难；2）语义标记仍然包含少量说话人相关的信息，这些信息可能会泄漏到目标语音中，从而降低目标说话人的相似度；3）LM采样时的多样性可能会导致推理过程中出现错误的结果，从而导致发音不自然和语音质量下降。为了缓解这些问题，我们提出了 LM-VC，这同样是一种两阶段的语言建模方法，它生成粗略的声学标记来恢复源语音的语言内容和目标说话人的音色，然后重建包含声学细节的精细声学标记最终得到转换后的语音。具体来说，为了增强语言内容的传递并促进更好的解耦，我们使用带有掩模预测策略的掩模前缀语言模型（Masked Prefix Language Model, MPLM）进行粗略声学建模。该模型被要求从周围上下文中恢复屏蔽的内容，并根据目标说话人的语音和损坏的语义标记来生成目标语音。此外，为了进一步减轻生成过程中的采样误差，我们引入了一个外部语言模型（External Language Model, ELM），它利用窗口注意力机制（Window Attention）来捕获局部的声学关系，通过浅层融合（Shallow Fusion）参与粗略的声学建模过程。最后，前缀语言模型（Prefix Language Model, PLM）以非自回归的方式从粗略的声学标记中重建精细的声学标记，并产生转换后的语音。实验表明，LM-VC 在语音自然度和说话人相似度方面优于对比系统。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用的相关文章

文档扫描与矫正-仿射变换

图像变换是计算机视觉和图像处理中的关键技术之一它允许我们对图像进行各种形式的变形调整和校正其中仿射变换是一种常见的变换方式在文档扫描过程中由于拍摄角度和畸变等原因文档图像可能存在一定程度的形变仿射变换可以用于校正文档图像使
欧盟反垄断主管即将会见库克，iPhone NFC功能要开放了？

1月5日路透社报道欧盟反垄断主管玛格丽特维斯塔格 Margrethe Vestager 即将在下周举办会议会见苹果博通英伟达等多个科技公司CEO 苹果首席执行官蒂姆库克 Tim Cook 就在其中欧盟反垄断想来大家应该已经不陌
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
比尔盖茨与萨姆.奥尔特曼的对话及感想

谈话内容比尔盖茨嘿萨姆萨姆奥尔特曼嘿比尔比尔盖茨你好吗萨姆奥尔特曼哦天哪这真的太疯狂了我还好这是一个非常激动人心的时期比尔盖茨团队情况怎么样萨姆奥尔特曼我想你知道很多人都注意到了这样一个事实
用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
打造视听盛宴——Resolume Arena 7，一款强大的VJ音视频软件

在当今数字时代视觉艺术和音乐的融合已经成为了许多娱乐活动和演出的重要组成部分而在这个领域中 Resolume Arena 7无疑是一款备受赞誉的VJ音视频软件 Resolume Arena 7具备强大的功能和直观的界面设计使得用户能够
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金

随机推荐

mysql删除以什么开头的数据_Mysql如何删除以“#sql-”开头的临时表

MySQL如何删除以 sql 开头的临时表现象在重建索引后发现Mysql服务器的磁盘空间快满了在用如下命令重建索引 mysql gt alter table skatetab add unique index id uid drop
java agentlib jdwp,JDWP无依赖攻击

JDWP JDWP 是 Java Debug Wire Protocol 的缩写在JPDA Java Platform Debugger Architecture 中它定义了调试器 debugger 和被调试的 Java 虚拟机 tar
LevelHelper-NG

LevelHelper 的克隆放在 github上自取放一张谍照 Qt4 8 4 vs2010
一些简单的变量以及C语言的基本格式

一些比较关键的操作枚举关键 enum MALE REMALE SECRET叫做枚举变量 scanf是C语言提供的 scanf 不是标准C语言提供的而是VS编译器提供的尽量不要使用会使程序失去可移植性 define CRT SECURE
空时自适应处理用于机载雷达——空时处理基础知识（Matla代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 机载阵列雷达信号环境 2 2 空时处理基础知识 2 3 元素空间空时自适应处理 2
一文了解游戏美术开发流程，以及可能遇到的问题

想了解典型的游戏资产开发工作流吗一个团队的游戏美术流程取决于几个因素包括游戏开发工作室类型正在开发的游戏类型和开发团队成员的数量等继续往下阅读你能了解游戏美术开发流程所使用的工具以及可能出现的问题什么是游戏资产工作流游戏资
windows10内置的Ubuntu系统开启浏览器界面，安装Xming

1 安装Xming 2 安装完直接打开 Xming 即可 3 安装一个firefox测试 apt get install firefox 4 运行在程序指令前加上 DISPLAY 0 DISPLAY 0 firefox 5 简化配置每次
利用栈来完成表达式求值

利用栈来完成表达式求值一个表达式要求值分为操作数部分和运算符部分求值的过程便是运算符对操作数进行操作首先我们定义两个栈一个栈存放运算符先放个进去代表开始然后记得结束最后一个字符也是这样代表结束然后建立一个栈存放操作数
提车自检手册(3系，其他车辆类似)

一检查铭牌 1 检查铭牌车辆生产日期大于半年pass 玻璃大灯轮胎的生产日期不得大于车辆生产日期二检查轮胎 1 是否全部为米其林轮胎 zp 4 防爆胎 2 检查全部轮胎日期 4个数字后俩位年份前俩位第几周三检查玻璃 1
下载百度地图瓦片的方法

为什么80 的码农都做不了架构师 gt gt gt 续上篇 Web版百度地图加载离线瓦片本文贴出下载瓦片的简易程序百度地图瓦片的下载其实很容易拿到下载链接然后批量下载就行了不过由于需要按照规则来存储最好自己写个程序去下载这些链接
linux系统中的iscsi网络磁盘共享及其卸载

什么是ISCSI ISCSI主要是透过TCP IP技术将存储设备端透过iscsi target iscsi 目标端功能做成可以提供磁盘的服务器端再透过iscsi initiator iscsi初始化用户功能做成能够挂载使用使用i
前端学习之Ajax（二）

1 核心方法首先对知识进行一下回顾 1 创建一个XMLHttpRequest对象 2 准备发送请求的数据 URL 3 调用XMLHttpRequest对象的open方法 4 调用XMLHttpRequest对象的send方法 5 为XML
用C++写一个简易的矩阵运算类

前段时间做了一个机器人的仿真开发需要用到矩阵运算于是自己写了一套分享出来 easyMat h class easyMat private uint16 t row uint16 t col public float data easy
html treedemo目录树默认打开,layui实现checkbox的目录树tree的例子

废话不多说啦我就直接上代码吧需要的朋友可以过来参考下 layui use tree function layui jquery form layui form 获取节点数据 getTreeData function getTreeDat
在CentOS系统中安装Nginx

以下是在CentOS系统中安装Nginx的步骤 1 更新系统软件包 sudo yum update 2 安装EPEL存储库 sudo yum install epel release 3 安装Nginx sudo yum install n
__attribute__ ((at())绝对定位分析

在学习STM32 IAP 时遇到了关于数组存储空间绝对定位的问题例如 u8 USART RX BUF USART REC LEN attribute at 0X20001000 首先我们先搞懂这里的两个关键字 1 attribute 是
linux lvm 扩大pv的大小,LVM管理：创建、容量调整

一 LVM简介 LVM 是逻辑盘卷管理 Logical Volume Manager 的简称最早是 IBM 为 AIX 研发的存储管理机制 LVM 通过在硬盘和分区之间建立一个逻辑层可以让多个分区或者物理硬盘作为一个逻辑卷相当于一个逻
温度传感器工作原理

参考文章 1 DS18B20传感器的原理秀秀很久没写文章了的博客 CSDN博客 ds18b20工作原理 2 常见测温传感器及电路原理图朽木白露的博客 CSDN博客温度传感器原理图 3 温度传感器工作原理知乎温度传感器工作原理温度
react父组件调用子组件方法

前期我们说了父子组件互相通过props传递数据的方法这个应该都可以理解其实今天说的这个父组件直接调用子组件方法也类似先看代码比较直观 import React Component from react export defaul
论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用

近日实验室三篇论文被语音研究顶级期刊IEEE ACM Transactions on Audio Speech and Language Processing TASLP 录用一篇论文被重要期刊IEEE Signal Processin

论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用

-1-

-2-

-3-

-4-

论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用 的相关文章

随机推荐

热门标签

论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用的相关文章