语音去噪深度学习模型论文总结（大多基于transformer）

2023-10-31

深度学习模型：

我总结了之前看的模型，并又寻找了基于transformer的模型，挑选了四个性能较好（评判标准是各种语音评价指标、该论文提出的模型与已有模型相比较得到的结果）的模型，其中前面三个是基于transformer的模型，最后一个是基于CRN网络的模型。每个论文的链接都在介绍后给出。

《T-GSA: Transformer with Gaussian-Weighted Self-Attention for Speech Enhancement》该论文发表于2020.5的ICASSP上。提出了一种模型Transformer with Gaussian-weighted self-attention （T-GSA），其注意权重根据目标和上下文符号之间的距离衰减。与RNN不同，transformer可以并行处理输入序列。此外，可通过高斯方程计算注意权重解决上下文之间的长期依赖关系，其中衰减由高斯方程确定。

该论文认为输入和输出序列之间的对其是不必要的，所以只使用transformer中的encoder（如图1）。首先输入含噪时域语音的STFT，通过encoder得到语音信号的时频掩码，这个掩码是通过缩放噪声预测的干净的语音序列，最后通过iSTFT获得增强后的时域信号。以上是T-GSA模型的实现机制。

在这里插入图片描述
图1

其中Gaussian-weighted self-attention如图2所示：

在这里插入图片描述
图2

实验结果表明，与传统的Transformer和RNN相比，所提出的自我注意方案显著提高了SDR和PESQ分数，T-GSA显著提高了语音增强性能，并优于以前（2020.5之前）的所有网络模型。

https://arxiv.org/pdf/1910.06762.pdf

《TSTNN:TWO-STAGE TRANSFORMER BASED NEURAL NETWORK FOR SPEECH ENHANCEMENT IN THE TIME DOMAIN》发表于2021年5月的ICASSP,提出了一种用于时域端到端语音增强的两级变压器神经网络（TSTNN： two-stage transformer neural network）。

最大的特点是该模型在编码器和解码器之间结合了TSTM来学习远程语音序列的局部和全局上下文信息。由的encoder、TSTM、masking module, decoder组成。后面将介绍该模型主要的两个特点。

首先该模型在原有的transformer模型上进行改进：原有transformer结构由编码器和解码器组成。在该模型中，只使用编码器部分，原始transformer由三个重要模块组成：positional encoding, multi-head attention and position-wise feed-forward network。但是在改进的encoder中删除了位置编码部分，因为它不适用于声学序列。且前馈网络的第一个完全连接层被GRU层取代。改进后的transformer如图3所示。

在这里插入图片描述
图3

其次是 two-stage transformer block（图4），它基于改进的transformer，具有local transformer和global transformer，其分别提取局部和全局上下文信息。解决了长期依赖问题。

在这里插入图片描述
图4

接下来将介绍模型的运作机理，该模型首先利用encoder将语音信道数增加、帧大小减半，其次通过由四个堆叠的two-stage transformer block的TSTM学习局部和全局上下文特征，masking module利用该特征来获得用于去噪的mask，最后通过encoder重建增强后的语音信号。

在这里插入图片描述
图5

模型在时域模型中表现最好，且有最小的参数量（0.92Mb)，在TF也优于大多数模型。

在这里插入图片描述
图6

https://arxiv.org/ftp/arxiv/papers/2103/2103.09963.pdf

《Lightweight Causal Transformer with Local Self-Attention for Real-Time Speech Enhancement》该论文发表于2021.9的ISCA上。描述了一种新的语音增强transformer结构。该模型使用local causal self-attention，这使得它轻量级，因此特别适合于计算资源有限的环境中的实时语音增强。

引入local attention机制解决transformer禁止长序列输入的问题，因为语音目标的时间范围大致在几秒钟，这一时间范围已经包含足够的信息，因此结合local attention是很有必要的。并且使用 four-module transformer模型，具有local causal self-attention，对语音序列进行实时的增强。解决传统transformer不是因果关系的问题。

该模型做了销蚀实验得到的最优结构，与LSTM和CNN模型作比较，模型的参数量分别仅为LSTM和CNN的28%和44%。在所有语音质量和可懂度方面都优于LSTM和CNN模型，只需模型复杂度的一小部分。

在这里插入图片描述
图7

http://staff.ustc.edu.cn/~jundu/Publications/publications/oostermeijer21_interspeech.pdf

《DPCRN: Dual-Path Convolution Recurrent Network for Single Channel Speech Enhancement》该论文在2021.7发表于ISCA(国际语音通讯会议).

DPRNN被提出来，以便更有效地对时域中的极长序列进行语音增强。通过将长序列分割成较小的块，并应用块内和块间的RNN。在该论文中，将DPRNN模块与CRN相结合，设计了一个名为双路径卷积递归网络（DPCRN）的模型，用于时频域的语音增强。用DPRNN模块取代了CRN中的RNN，其中块内RNN被用来模拟单帧的频谱模式，块间RNN被用来模拟连续帧之间的依赖。

该模型由encoder、双路径RNN模块、decoder构成，其中编码器、解码器的结构类似于CRN。编码器先对语音序列提取信号特征，然后由双路径RNN将长的序列特征被分割成较小的块，由块内和块间的RNN迭代处理，减少每个RNN要处理的序列长度。最后由编码器重建增强后的语音信号。
在这里插入图片描述
图8

仅凭0.8M的参数，提交的DPCRN模型在Interspeech 2021年深度噪声抑制（DNS）挑战赛的赛道上取得了3.57的总体平均意见得分（MOS）。并且在MOS得分方面优于DTLN、DCCRN模型。
在这里插入图片描述
图9

https://arxiv.org/pdf/2107.05429.pdf

下表是这四个模型的部分性能参数

	PESQ	SSNR	COVL
T-GSA	3.06	10.78	3.62
TSTNN	2.96	9.7	3.67
LCT	3.35
DPCRN	2.46

  | **3.67** |

| LCT | 3.35 | | |
| DPCRN | 2.46 | | |

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

语音去噪深度学习模型论文总结（大多基于transformer）的相关文章

【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
15天学会Python深度学习，我是如何办到的？

陆陆续续有同学向我们咨询 Python编程如何上手深度学习怎么学习如果有人能手把手一对一帮帮我就好了我们非常理解初学者的茫然和困惑大量视频书籍广告干扰了大家的判断学习Python和人工智能成为内行人不难为此我们推出了
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩

随机推荐

JavaScript数据结构之栈

JavaScript 数据结构之栈思维导图 JavaScript 数据结构之栈源码
MUI蓝牙打印（Android）

MUI蓝牙打印 Android 使用MUI开发手机APP时使用蓝牙打印功能可能较少使用 MUI官方并为集成蓝牙打印功能而且似乎对iPhone蓝牙打印的类库支持也不够完善忙完一阶段后回顾下之前的工作想想蓝牙打印功能折腾了够长时间了写这
Django数据库orm操作以list形式获取数据库中某列所有值

文章目录问题解决办法方式一方式二方式三写在最后问题如图所示 Django数据库中存储如下字段这是在前端渲染出的数据现在的需求是要把factory这一列数据从后端数据库提取出来得到一个list方便后续的 select o
几何画笔

在看书时看到了这个概念画笔可以分为几何画笔和装饰画笔目前从CSDN以及MSDN上大致看了一下几何画笔的用法代码如下 HPEN hPen NULL DWORD dwStyle PS GEOMETRIC PS DASHDOT PS END
HIT SC ADT and OOP

ADT Abstract Data Types 在上学期的数据结构中我们已经接触过ADT 抽象数据型抽象数据型是一个数学模型和在该模型上定义的操作的集合在软件构造中ADT概念也类似不过多了些值得注意的点首先看一下MIT官网列出的几个
metasploit

概念 Metasploit是一款开源的安全漏洞检测工具可以帮助安全和IT专业人士识别安全性问题验证漏洞的缓解措施并管理专家驱动的安全性进行评估提供真正的安全风险情报这些功能包括智能开发代码审计 Web应用程序扫描社会工程团队
为什么重写equals还要重写hashcode

为什么重写equals还要重写hashcode 1 简介 equals和hashcode都属于Object类的方法其中hashcode为本地方法 object中equals是比较是否为同一对象 public boolean equals
Java集成微信小程序生成二维码传回前端，提供下载按钮

1 后端调用方法获取AccessToken的工具类 import com alibaba fastjson2 JSON import com alibaba fastjson2 JSONObject import org springfra
《数据结构初阶》用队列实现栈&&用栈实现队列的细致解析

纵有千古横有八方目录一本章重点二队列实现栈三栈实现队列四解题思路总结一本章重点用两个队列实现栈用两个栈实现队列解题思路总结二队列实现栈我们有两个队列入栈数据1 2 3 可以将数据入队列至队列一或者队列二
如何让微pe上网_如何用U盘重装系统

现如今电脑普及程度已经涉及到我们生活中的方方面面日常生活和工作都离不开电脑作为一个Window使用者遇到问题时能自己独立重装操作系统是一件很有成就的事情 U盘重装系统是目前比较流行和简单的方法比过去的使用光盘更加简易小白也能轻
JavaScript-运算符篇

目录一算数运算符二递增和递减运算符 1 前置递增 2 后置递增三比较运算符四逻辑运算符 1 逻辑与 2 逻辑或 3 逻辑非 5 短路运算逻辑中断 6 赋值运算符 7 运算符优先级 8 流程控制 1 顺序机构 2 分支结构
小朋友高矮排列-华为OD

题目描述现在有一队小朋友他们高矮不同我们以正整数数组表示这一队小朋友的身高如数组 5 3 1 2 3 我们现在希望小朋友排队以高矮高矮顺序排列每一个高位置的小朋友要比相邻的位置高或者相等每一个矮位置的小朋友要
java.sql.SQLException: Access denied for user ‘root‘@‘localhost‘ (using password: YES)

错误如下所示查了一下发现是配置文件中的数据库密码错了并且在代码生成器中也要修改数据库在查资料时发现如果出现的错误是using password YES 那么应该是密码输错了 java sql SQLException Access
深度学习实战12(进阶版)-利用Dewarp实现文本扭曲矫正

大家好我是微学AI 今天给大家介绍一下深度学习实战12 进阶版利用Dewarp实现文本扭曲矫正我们在生活中会看到一些拍摄扭曲的图片我们在通过OCR识别的时候因为扭曲的厉害而无法识别我们需要对图片进行处理文件图像的变形有扭曲
HarmonyOS学习路之开发篇—多媒体开发（媒体数据管理开发）

一媒体数据管理开发概述 HarmonyOS媒体数据管理模块支持多媒体数据管理相关的功能开发常见操作如获取媒体元数据截取帧数据等在进行应用的开发前开发者应了解以下基本概念 PixelMap PixelMap是图像解码后无压缩的位图
Javascirp异步编程

在上一篇彻底弄清Javascirpt中的同步和异步一问当中介绍了Javascirp代码执行的概念同步和异步的原理学习过Javascript语言的同学都知道从Javascript诞生之日起就是一门单线程非阻塞的脚本语言 Javas
ArcGIS Server开发Web GIS新手体验

原创作者 lt 不详 gt 一前述原创作品网址 http www vscodes com article 3 2379 html 以下针对于windows操作系统 net开发环境 ArcGIS Server是ESRI公司最新推出的服务器
java一行代码实现集合写入Excel表格生成数据

这里使用maven构建项目导入依赖
高精度加法c++

介绍当我们加出来是一个特别大的数开了long long都会爆的时候我们就会用到高精度加法了原题链接讲解其实高精度加法就是模拟的竖式运算竖式运算会出现进位的情况比如说最高位的这个1是进位比原来的3位还多出1位那么我们就应该
语音去噪深度学习模型论文总结（大多基于transformer）

深度学习模型我总结了之前看的模型并又寻找了基于transformer的模型挑选了四个性能较好评判标准是各种语音评价指标该论文提出的模型与已有模型相比较得到的结果的模型其中前面三个是基于transformer的模型最后一个是基

语音去噪深度学习模型论文总结（大多基于transformer）

深度学习模型：

语音去噪深度学习模型论文总结（大多基于transformer） 的相关文章

随机推荐

热门标签

语音去噪深度学习模型论文总结（大多基于transformer）的相关文章