语音去噪深度学习模型论文总结(大多基于transformer)

2023-10-31

深度学习模型:

​ 我总结了之前看的模型,并又寻找了基于transformer的模型,挑选了四个性能较好(评判标准是各种语音评价指标、该论文提出的模型与已有模型相比较得到的结果)的模型,其中前面三个是基于transformer的模型,最后一个是基于CRN网络的模型。每个论文的链接都在介绍后给出。

  • 《T-GSA: Transformer with Gaussian-Weighted Self-Attention for Speech Enhancement》该论文发表于2020.5的ICASSP上。提出了一种模型Transformer with Gaussian-weighted self-attention (T-GSA),其注意权重根据目标和上下文符号之间的距离衰减。与RNN不同,transformer可以并行处理输入序列。此外,可通过高斯方程计算注意权重解决上下文之间的长期依赖关系,其中衰减由高斯方程确定。

​ 该论文认为输入和输出序列之间的对其是不必要的,所以只使用transformer中的encoder(如图1)。首先输入含噪时域语音的STFT,通过encoder得到语音信号的时频掩码,这个掩码是通过缩放噪声预测的干净的语音序列,最后通过iSTFT获得增强后的时域信号。以上是T-GSA模型的实现机制。

在这里插入图片描述
​ 图1

​ 其中Gaussian-weighted self-attention如图2所示:

在这里插入图片描述
​ 图2

​ 实验结果表明,与传统的Transformer和RNN相比,所提出的自我注意方案显著提高了SDR和PESQ分数,T-GSA显著提高了语音增强性能,并优于以前(2020.5之前)的所有网络模型。

https://arxiv.org/pdf/1910.06762.pdf

  • 《TSTNN:TWO-STAGE TRANSFORMER BASED NEURAL NETWORK FOR SPEECH ENHANCEMENT IN THE TIME DOMAIN》发表于2021年5月的ICASSP,提出了一种用于时域端到端语音增强的两级变压器神经网络(TSTNN: two-stage transformer neural network)。

​ 最大的特点是该模型在编码器和解码器之间结合了TSTM来学习远程语音序列的局部和全局上下文信息。由的encoder、TSTM、masking module, decoder组成。后面将介绍该模型主要的两个特点。

​ 首先该模型在原有的transformer模型上进行改进:原有transformer结构由编码器和解码器组成。在该模型中,只使用编码器部分,原始transformer由三个重要模块组成:positional encoding, multi-head attention and position-wise feed-forward network。但是在改进的encoder中删除了位置编码部分,因为它不适用于声学序列。且前馈网络的第一个完全连接层被GRU层取代。改进后的transformer如图3所示。

在这里插入图片描述
​ 图3

​ 其次是 two-stage transformer block(图4),它基于改进的transformer,具有local transformer和global transformer,其分别提取局部和全局上下文信息。解决了长期依赖问题。

在这里插入图片描述
​ 图4

​ 接下来将介绍模型的运作机理,该模型首先利用encoder将语音信道数增加、帧大小减半,其次通过由四个堆叠的two-stage transformer block的TSTM学习局部和全局上下文特征,masking module利用该特征来获得用于去噪的mask,最后通过encoder重建增强后的语音信号。

在这里插入图片描述
​ 图5

​ 模型在时域模型中表现最好,且有最小的参数量(0.92Mb),在TF也优于大多数模型。

在这里插入图片描述
​ 图6

https://arxiv.org/ftp/arxiv/papers/2103/2103.09963.pdf

  • 《Lightweight Causal Transformer with Local Self-Attention for Real-Time Speech Enhancement》该论文发表于2021.9的ISCA上。描述了一种新的语音增强transformer结构。该模型使用local causal self-attention,这使得它轻量级,因此特别适合于计算资源有限的环境中的实时语音增强。

​ 引入local attention机制解决transformer禁止长序列输入的问题,因为语音目标的时间范围大致在几秒钟,这一时间范围已经包含足够的信息,因此结合local attention是很有必要的。并且使用 four-module transformer模型,具有local causal self-attention,对语音序列进行实时的增强。解决传统transformer不是因果关系的问题。

​ 该模型做了销蚀实验得到的最优结构,与LSTM和CNN模型作比较,模型的参数量分别仅为LSTM和CNN的28%和44%。在所有语音质量和可懂度方面都优于LSTM和CNN模型,只需模型复杂度的一小部分。

在这里插入图片描述
图7

http://staff.ustc.edu.cn/~jundu/Publications/publications/oostermeijer21_interspeech.pdf

  • 《DPCRN: Dual-Path Convolution Recurrent Network for Single Channel Speech Enhancement》该论文在2021.7发表于ISCA(国际语音通讯会议).

​ DPRNN被提出来,以便更有效地对时域中的极长序列进行语音增强。通过将长序列分割成较小的块,并应用块内和块间的RNN。在该论文中,将DPRNN模块与CRN相结合,设计了一个名为双路径卷积递归网络(DPCRN)的模型,用于时频域的语音增强。用DPRNN模块取代了CRN中的RNN,其中块内RNN被用来模拟单帧的频谱模式,块间RNN被用来模拟连续帧之间的依赖。

​ 该模型由encoder、双路径RNN模块、decoder构成,其中编码器、解码器的结构类似于CRN。编码器先对语音序列提取信号特征,然后由双路径RNN将长的序列特征被分割成较小的块,由块内和块间的RNN迭代处理,减少每个RNN要处理的序列长度。最后由编码器重建增强后的语音信号。
在这里插入图片描述
​ 图8

​ 仅凭0.8M的参数,提交的DPCRN模型在Interspeech 2021年深度噪声抑制(DNS)挑战赛的赛道上取得了3.57的总体平均意见得分(MOS)。并且在MOS得分方面优于DTLN、DCCRN模型。
在这里插入图片描述
​ 图9

​ 实验结果表明,与传统的Transformer和RNN相比,所提出的自我注意方案显著提高了SDR和PESQ分数,T-GSA显著提高了语音增强性能,并优于以前(2020.5之前)的所有网络模型。

https://arxiv.org/pdf/2107.05429.pdf

​ 下表是这四个模型的部分性能参数

PESQ SSNR COVL
T-GSA 3.06 10.78 3.62
TSTNN 2.96 9.7 3.67
LCT 3.35
DPCRN 2.46
  | **3.67** |

| LCT | 3.35 | | |
| DPCRN | 2.46 | | |

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

语音去噪深度学习模型论文总结(大多基于transformer) 的相关文章

随机推荐

  • JavaScript数据结构之栈

    JavaScript 数据结构之栈思维导图 JavaScript 数据结构之栈源码
  • MUI蓝牙打印(Android)

    MUI蓝牙打印 Android 使用MUI开发手机APP时使用蓝牙打印功能可能较少使用 MUI官方并为集成蓝牙打印功能 而且似乎对iPhone蓝牙打印的类库支持也不够完善 忙完一阶段后回顾下之前的工作 想想蓝牙打印功能折腾了够长时间了 写这
  • Django数据库orm操作以list形式获取数据库中某列所有值

    文章目录 问题 解决办法 方式一 方式二 方式三 写在最后 问题 如图所示 Django数据库中存储如下字段 这是在前端渲染出的数据 现在的需求是 要把factory这一列数据从后端数据库提取出来得到一个list方便后续的 select o
  • 几何画笔

    在看书时看到了这个概念 画笔可以分为几何画笔和装饰画笔 目前从CSDN以及MSDN上大致看了一下几何画笔的用法 代码如下 HPEN hPen NULL DWORD dwStyle PS GEOMETRIC PS DASHDOT PS END
  • HIT SC ADT and OOP

    ADT Abstract Data Types 在上学期的数据结构中我们已经接触过ADT 抽象数据型 抽象数据型是一个数学模型和在该模型上定义的操作的集合 在软件构造中ADT概念也类似 不过多了些值得注意的点 首先看一下MIT官网列出的几个
  • metasploit

    概念 Metasploit是一款开源的安全漏洞检测工具 可以帮助安全和IT专业人士识别安全性问题 验证漏洞的缓解措施 并管理专家驱动的安全性进行评估 提供真正的安全风险情报 这些功能包括智能开发 代码审计 Web应用程序扫描 社会工程 团队
  • 为什么重写equals还要重写hashcode

    为什么重写equals还要重写hashcode 1 简介 equals和hashcode都属于Object类的方法 其中hashcode为本地方法 object中equals是比较是否为同一对象 public boolean equals
  • Java集成微信小程序生成二维码传回前端,提供下载按钮

    1 后端调用方法获取AccessToken的工具类 import com alibaba fastjson2 JSON import com alibaba fastjson2 JSONObject import org springfra
  • 《数据结构初阶》用队列实现栈&&用栈实现队列的细致解析

    纵有千古 横有八方 目录 一 本章重点 二 队列实现栈 三 栈实现队列 四 解题思路总结 一 本章重点 用两个队列实现栈 用两个栈实现队列 解题思路总结 二 队列实现栈 我们有两个队列 入栈数据1 2 3 可以将数据入队列至队列一或者队列二
  • 如何让微pe上网_如何用U盘重装系统

    现如今电脑普及程度已经涉及到我们生活中的方方面面 日常生活和工作都离不开电脑 作为一个Window使用者 遇到问题时 能自己独立重装操作系统 是一件很有成就的事情 U盘重装系统是目前比较流行和简单的方法 比过去的使用光盘更加简易 小白也能轻
  • JavaScript-运算符篇

    目录 一 算数运算符 二 递增和递减运算符 1 前置递增 2 后置递增 三 比较运算符 四 逻辑运算符 1 逻辑与 2 逻辑或 3 逻辑非 5 短路运算 逻辑中断 6 赋值运算符 7 运算符优先级 8 流程控制 1 顺序机构 2 分支结构
  • 小朋友高矮排列-华为OD

    题目描述 现在有一队小朋友 他们高矮不同 我们以正整数数组表示这一队小朋友的身高 如数组 5 3 1 2 3 我们现在希望小朋友排队 以 高 矮 高 矮 顺序排列 每一个 高 位置的小朋友要比相邻的位置高或者相等 每一个 矮 位置的小朋友要
  • java.sql.SQLException: Access denied for user ‘root‘@‘localhost‘ (using password: YES)

    错误如下所示 查了一下发现是配置文件中的数据库密码错了 并且在代码生成器中 也要修改数据库 在查资料时发现 如果出现的错误是using password YES 那么应该是密码输错了 java sql SQLException Access
  • 深度学习实战12(进阶版)-利用Dewarp实现文本扭曲矫正

    大家好 我是微学AI 今天给大家介绍一下深度学习实战12 进阶版 利用Dewarp实现文本扭曲矫正 我们在生活中会看到一些拍摄扭曲的图片 我们在通过OCR识别的时候 因为扭曲的厉害 而无法识别 我们需要对图片进行处理 文件图像的变形有扭曲
  • HarmonyOS学习路之开发篇—多媒体开发(媒体数据管理开发)

    一 媒体数据管理开发概述 HarmonyOS媒体数据管理模块支持多媒体数据管理相关的功能开发 常见操作如 获取媒体元数据 截取帧数据等 在进行应用的开发前 开发者应了解以下基本概念 PixelMap PixelMap是图像解码后无压缩的位图
  • Javascirp异步编程

    在上一篇彻底弄清Javascirpt中的同步和异步一问当中 介绍了Javascirp代码执行的概念 同步和异步的原理 学习过Javascript语言的同学都知道 从Javascript诞生之日起 就是一门单线程 非阻塞的脚本语言 Javas
  • ArcGIS Server开发Web GIS新手体验

    原创作者 lt 不详 gt 一 前述 原创作品网址 http www vscodes com article 3 2379 html 以下针对于windows操作系统 net开发环境 ArcGIS Server是ESRI公司最新推出的服务器
  • java一行代码实现集合写入Excel表格生成数据

    这里使用maven构建项目 导入依赖
  • 高精度加法c++

    介绍 当我们加出来是一个特别大的数 开了long long都会爆的时候 我们就会用到高精度加法了 原题链接 讲解 其实高精度加法就是模拟的竖式运算 竖式运算会出现进位的情况 比如说最高位的这个1是进位 比原来的3位还多出1位 那么我们就应该
  • 语音去噪深度学习模型论文总结(大多基于transformer)

    深度学习模型 我总结了之前看的模型 并又寻找了基于transformer的模型 挑选了四个性能较好 评判标准是各种语音评价指标 该论文提出的模型与已有模型相比较得到的结果 的模型 其中前面三个是基于transformer的模型 最后一个是基