论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用

2023-11-11

近日,实验室三篇论文被语音研究顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)录用,一篇论文被重要期刊IEEE Signal Processing Letters (IEEE SPL)录用,论文方向涉及说话人识别中的对抗攻击、基于扩散模型的跨语种情感迁移语音合成、语音转换中基于多层级韵律建模的风格迁移、基于语言模型的语音转换。现对四篇论文工作进行简要介绍。

-1-

  • 论文题目:Timbre-reserved Adversarial Attack in Speaker Identification

  • 作者列表:王晴,姚继珣,张丽,郭鹏程,谢磊

  • 发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

  • 论文网址:https://arxiv.org/abs/2309.00929

图片

内容简介:作为一种生物特征识别技术,说话人识别(Speaker Identification, SID)系统面临各种攻击。欺骗攻击(Spoofing Attack)通常模仿目标说话人的音色,而对抗攻击(Adversarial Attack)则通过向任意语音添加经过精心设计的对抗扰动来混淆SID系统。尽管欺骗攻击复制了与目标说话人相似的音色,但没有把SID这个下游任务考虑进去,并未利用SID模型的弱点,不能完全使SID系统产生攻击者所期望的决策。至于对抗攻击,尽管SID系统可以被引导到特定的决策上,但它不能满足特定攻击场景中特定的的文本或说话人音色要求。在本文中,为了对说话人识别模型中的攻击不仅利用SID模型的弱点,还可以保留目标说话人的音色,我们提出了一种保留音色的对抗攻击方法。我们通过在语音转换(Voice Conversion, VC)模型的不同训练阶段添加对抗约束来生成保留音色的对抗伪造音频。具体来说,对抗约束是使用目标说话人标签来优化添加到VC模型表示中的对抗扰动,并通过加入VC模型训练的说话人分类器来实现。对抗约束可以帮助控制VC模型生成特定说话人的音频。最终,VC模型的推理结果是理想的保留音色的对抗伪造音频,可以欺骗SID系统。在音频深度伪造检测挑战赛(Audio Deepfake Detection  Challenge, ADD)数据集上的实验结果表明,我们提出的方法显著提高了攻击成功率,与仅在攻击语音中直接添加对抗扰动的普通VC模型的结果是可比的。客观和主观评估表明,本文方法生成的伪造音频的质量优于直接向VC生成的音频添加对抗扰动。此外分析显示,生成的对抗伪造音频也符合攻击者指定的文本和目标说话人音色保留要求。

-2-

  • 论文题目:DiCLET-TTS: Diffusion Model based Cross-lingual Emotion Transfer for Text-to-Speech -- A Study between English and Mandarin

  • 作者列表:李涛, 胡晨旭, 从坚, 朱新发, 李静北, 田乔,王玉平, 谢磊

  • 发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

  • 合作单位:字节跳动

  • 论文网址:http://arxiv.org/abs/2309.00883

图片

内容简介:跨语种语音合成旨在赋予目标发音人说外语的能力。虽然基于单语语料库的跨语种语音合成的性能得到了显著改善,但合成的跨语种语音仍然受到外国口音问题的影响,导致合成语音的自然度有限。此外,当前的跨语种语音合成方法大多忽略了情感建模,而情感是人类语音中不可或缺的副语言信息。针对上述问题,本文提出了DiCLET-TTS,一种基于扩散模型的跨语种情感迁移方法,可以将情感从源说话人迁移至语种内的和跨语种的目标说话人。具体来说,为了缓解外国口音问题,同时提升情感表现力,前向扩散过程的终端分布被先验文本编码器以情感嵌入为条件,参数化为与说话人无关但与情感相关的语义先验。为了解决从情感嵌入中去除说话人信息而导致迁移的情感表现力较弱的问题,提出了一种新颖的基于正交投影的情感解耦模块(OP-EDM)以学习与说话人无关但具有情感判别性的嵌入。此外,引入条件增强的扩散解码器来增强反向扩散过程中说话人和情感的建模能力,进一步提高语音传递中的情感表现力。实验表明,尽管语种内情感迁移的性能优于更具挑战性的跨语种迁移,但与三种基线方法相比,DiCLET-TTS 在语内和跨语种迁移方面都可以有效提升合成语音的自然度、情感相似度和说话人相似度。同时,嵌入可视化和偏好测试证明了 OP-EDM 在学习与说话人无关但具有情感判别性的情感嵌入方面的优势。

-3-

  • 论文题目:MSM-VC: High-fidelity Source Style Transfer for Non-Parallel Voice Conversion by Multi-scale Style Modeling

  • 作者列表:王智超,王新升,谢启聪,李涛,谢磊,田乔,王玉平

  • 发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

  • 合作单位:字节跳动

  • 论文网址:https://arxiv.org/abs/2309.01142

图片

内容简介:在语音转换(Voice Conversion, VC)任务中,除了需要将源语音的语义内容传递给转换后的语音,保持源语音中的讲话风格同样十分的重要,它对于许多需要高表现语音的场景十分关键,比如电影电视配音、数据增广等。过去的方法通常使用基于信号提取的韵律特征或者网络学习的定长风格表征来表示源语音的讲话风格,但是这种方式下对于实现全面的风格建模和目标说话人音色保留是不充足的。受语音风格多尺度性质的启发,本文提出了一种用于 VC 任务的多尺度风格建模方法,简称 MSM-VC。MSM-VC 从不同级别(全局、局部和帧级)对源语音的说话风格进行建模。为了有效地建模说话风格,同时防止源语音中音色信息泄露到转换后的语音,每个级别的风格都通过特定的特征来建模。具体来说,  韵律特征、预训练的 ASR 模型的瓶颈特征以及自监督模型提取的特征分别对帧级、局部和全局的风格进行建模。同时,为了平衡源语音风格建模和目标说话人音色保留的能力,我们引入了由预训练的语音情感识别模型和说话人分类器组成的显式约束模块。这种显式约束模块还可以在训练过程中模拟风格迁移的推理过程,能够提高模型解耦能力并减轻训练与推理之间的不匹配。在高表现力语音测试集上进行的实验表明,MSM-VC 优于过去的 VC 方法。提出的方法可以实现对源语音风格进行建模,同时保持良好的语音质量和说话人相似性。此外,消融分析证明了每个风格级别建模的必要性以及每个模块的有效性。

-4-

  • 论文题目:LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models

  • 作者列表:王智超,陈远哲,谢磊,田乔,王玉平

  • 发表期刊:IEEE Signal Processing Letters

  • 合作单位:字节跳动

  • 论文网址:https://arxiv.org/abs/2306.10521

图片

内容简介:基于语言模型 (Lauguage Model, LM) 的音频生成框架(例如 AudioLM)最近在零样本音频生成方面实现了非常优越的性能。本文探索了LM用于零样本语音转换(Zero-shot Voice Conversion)的潜力。最直观的方法是参照AudioLM的框架——通过HuBERT和SoundStream将语音分别表示为语义标记(Semantic Token)和声学标记(Acoustic Token),并根据目标说话人的声学标记将源语音的语义标记转换为目标语音的声学标记。然而,这种方案的问题是:1)语义标记中包含的语言内容可能在多层建模过程中逐渐变弱,而语音转换任务中较长的语音输入使上下文学习变得更加困难;2)语义标记仍然包含少量说话人相关的信息,这些信息可能会泄漏到目标语音中,从而降低目标说话人的相似度;3)LM采样时的多样性可能会导致推理过程中出现错误的结果,从而导致发音不自然和语音质量下降。为了缓解这些问题,我们提出了 LM-VC,这同样是一种两阶段的语言建模方法,它生成粗略的声学标记来恢复源语音的语言内容和目标说话人的音色,然后重建包含声学细节的精细声学标记最终得到转换后的语音。具体来说,为了增强语言内容的传递并促进更好的解耦,我们使用带有掩模预测策略的掩模前缀语言模型(Masked Prefix Language Model, MPLM)进行粗略声学建模。该模型被要求从周围上下文中恢复屏蔽的内容,并根据目标说话人的语音和损坏的语义标记来生成目标语音。此外,为了进一步减轻生成过程中的采样误差,我们引入了一个外部语言模型(External Language Model, ELM),它利用窗口注意力机制(Window Attention)来捕获局部的声学关系,通过浅层融合(Shallow Fusion)参与粗略的声学建模过程。最后,前缀语言模型(Prefix Language Model, PLM)以非自回归的方式从粗略的声学标记中重建精细的声学标记,并产生转换后的语音。实验表明,LM-VC 在语音自然度和说话人相似度方面优于对比系统。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用 的相关文章

随机推荐

  • mysql删除以什么开头的数据_Mysql如何删除以“#sql-”开头的临时表

    MySQL如何删除以 sql 开头的临时表 现象 在重建索引后 发现Mysql服务器的磁盘空间快满了 在用如下命令重建索引 mysql gt alter table skatetab add unique index id uid drop
  • java agentlib jdwp,JDWP无依赖攻击

    JDWP JDWP 是 Java Debug Wire Protocol 的缩写 在JPDA Java Platform Debugger Architecture 中 它定义了调试器 debugger 和被调试的 Java 虚拟机 tar
  • LevelHelper-NG

    LevelHelper 的克隆 放在 github上 自取 放一张谍照 Qt4 8 4 vs2010
  • 一些简单的变量以及C语言的基本格式

    一些比较关键的操作 枚举关键 enum MALE REMALE SECRET叫做枚举变量 scanf是C语言提供的 scanf 不是标准C语言提供的而是VS编译器提供的 尽量不要使用会使程序失去可移植性 define CRT SECURE
  • 空时自适应处理用于机载雷达——空时处理基础知识(Matla代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 2 1 机载阵列雷达信号环境 2 2 空时处理基础知识 2 3 元素空间空时自适应处理 2
  • 一文了解游戏美术开发流程,以及可能遇到的问题

    想了解典型的游戏资产开发工作流吗 一个团队的游戏美术流程取决于几个因素 包括游戏开发工作室类型 正在开发的游戏类型和开发团队成员的数量等 继续往下阅读 你能了解游戏美术开发流程 所使用的工具 以及可能出现的问题 什么是游戏资产工作流 游戏资
  • windows10内置的Ubuntu系统 开启浏览器界面,安装Xming

    1 安装Xming 2 安装完直接打开 Xming 即可 3 安装一个firefox测试 apt get install firefox 4 运行 在程序指令前加上 DISPLAY 0 DISPLAY 0 firefox 5 简化配置 每次
  • 利用栈来完成表达式求值

    利用栈来完成表达式求值 一个表达式要求值 分为操作数部分和运算符部分 求值的过程便是运算符对操作数进行操作 首先我们定义两个栈 一个栈存放运算符 先放个 进去 代表开始 然后记得结束最后一个字符也是 这样代表结束 然后建立一个栈存放操作数
  • 提车自检手册(3系,其他车辆类似)

    一 检查铭牌 1 检查铭牌车辆生产日期 大于半年pass 玻璃 大灯 轮胎的生产日期不得大于车辆生产日期 二 检查轮胎 1 是否全部为米其林轮胎 zp 4 防爆胎 2 检查全部轮胎日期 4个数字 后俩位年份 前俩位第几周 三 检查玻璃 1
  • 下载百度地图瓦片的方法

    为什么80 的码农都做不了架构师 gt gt gt 续上篇 Web版百度地图加载离线瓦片 本文贴出下载瓦片的简易程序 百度地图瓦片的下载其实很容易 拿到下载链接然后批量下载就行了 不过由于需要按照规则来存储 最好自己写个程序去下载这些链接
  • linux系统中的iscsi网络磁盘共享及其卸载

    什么是ISCSI ISCSI主要是透过TCP IP技术 将存储设备端透过iscsi target iscsi 目标端 功能 做成可以提供磁盘的服务器端 再透过iscsi initiator iscsi初始化用户 功能 做成能够挂载使用使用i
  • 前端学习之Ajax(二)

    1 核心方法 首先对知识进行一下回顾 1 创建一个XMLHttpRequest对象 2 准备发送请求的数据 URL 3 调用XMLHttpRequest对象的open方法 4 调用XMLHttpRequest对象的send方法 5 为XML
  • 用C++写一个简易的矩阵运算类

    前段时间做了一个机器人的仿真开发 需要用到矩阵运算 于是自己写了一套 分享出来 easyMat h class easyMat private uint16 t row uint16 t col public float data easy
  • html treedemo目录树默认打开,layui实现checkbox的目录树tree的例子

    废话不多说啦 我就直接上代码吧 需要的朋友可以过来参考下 layui use tree function layui jquery form layui form 获取节点数据 getTreeData function getTreeDat
  • 在CentOS系统中安装Nginx

    以下是在CentOS系统中安装Nginx的步骤 1 更新系统软件包 sudo yum update 2 安装EPEL存储库 sudo yum install epel release 3 安装Nginx sudo yum install n
  • __attribute__ ((at())绝对定位分析

    在学习STM32 IAP 时 遇到了关于数组存储空间绝对定位的问题 例如 u8 USART RX BUF USART REC LEN attribute at 0X20001000 首先我们先搞懂这里的两个关键字 1 attribute 是
  • linux lvm 扩大pv的大小,LVM管理:创建、容量调整

    一 LVM简介 LVM 是逻辑盘卷管理 Logical Volume Manager 的简称 最早是 IBM 为 AIX 研发的存储管理机制 LVM 通过在硬盘和分区之间建立一个逻辑层 可以让多个分区或者物理硬盘作为一个逻辑卷 相当于一个逻
  • 温度传感器工作原理

    参考文章 1 DS18B20传感器的原理 秀秀很久没写文章了的博客 CSDN博客 ds18b20工作原理 2 常见测温传感器及电路原理图 朽木白露的博客 CSDN博客 温度传感器原理图 3 温度传感器工作原理 知乎 温度传感器工作原理 温度
  • react父组件调用子组件方法

    前期我们说了父子组件互相通过props传递数据的方法 这个应该都可以理解 其实今天说的这个 父组件直接调用子组件方法 也类似 先看代码 比较直观 import React Component from react export defaul
  • 论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用

    近日 实验室三篇论文被语音研究顶级期刊IEEE ACM Transactions on Audio Speech and Language Processing TASLP 录用 一篇论文被重要期刊IEEE Signal Processin