语音的基础知识

2023-11-04

1  语音信号的处理基础

(1) 语音信号的产生模型

        语音是由发生器官产生的。肺呼进空气,由气管呼出形成气流,气流经由声门,使声带振动,产生一系列离散脉冲,再经由咽腔和口腔,有时还经由鼻腔。随着发音的不同,口的张合程度不同,舌在口中位置的不同,气流经过各容积不断变化的空腔时产生许多共振,最后从口和鼻以声波的形式辐射出来。

        因此,可将语音的频谱写成 F(w) = S(w) * V(w) * R(w),其中,F(w)是语音波f(t)的傅里叶变换;S(w)是激励源s(t)的傅里叶变换;V(w)是声道脉冲响应v(t)的傅里叶变换;R(w)是口的声辐射特性r(t)的傅里叶变换。据此构造出模拟人产生语音的“激励源/滤波器”模型,它由激励源、声道模型和辐射模型组成。当激励源为周期性脉冲时,产生浊音;当激励源是随机噪声时,产生清音。因此,我们就可以用激励源的线性或非线性组合通过声道和辐射模型来产生模拟语音。

(2) 语音信号的主要特性

        声调是语音的基频随时间而高低升降的变化。汉语普通话在一个音节中就有四种变化:阴平,基频高而平;阳平,基频由中到高;上声,基频开始由中降至低,然后由低再升高;去声,基频先逐渐升到最高,再由最高降至最低。

        汉语普通话四声,基频覆盖范围约为1.2~1.6个倍频程。男声基频约为100~300Hz,女声基频约为160~400Hz。

        语音信号是一个瞬变的过程,是时变非平稳的。在一段很短的时间内(5-50ms),人的声带相对稳定,可近似认为这一小段时间内语音信号特征是平稳不变的。语音的频率范围约为340Hz~4kHz,让语音信号通过一个特定的时间窗,然后做短时傅里叶变换,得到短时频谱。

        语音信号的统计特性可由它的概率密度函数来表示。通过对大量语音材料的分析统计,绘制出振幅直方图,然后估算出近似的语音概率密度函数。通常有三种常用的近似函数,一种是修正的伽马分布概率密度函数P(x)=(√k e^(-k|x| ))/(2√π √(|x| ))  ,其中k是一个常数,它与标准差σ x 有关k=√3/(2σx)。

        另一种是拉普拉斯分布概率密度函数P(x)=0.5αe^(-α|x|),其中α是一个由标准差σx决定的常数α=√2/σx。

        第三种就是高斯分布,此时概率密度函数是均值为零、方差变化的高斯随机变量。在这三种概率密度函数分布中,伽马分布逼近效果最好,拉普拉斯分布次之,而高斯分布逼近效果最差。

(3) 人耳的听觉特性

        人耳是最灵敏的器官之一,正常人听觉的强度范围为0dB~140dB。当声音减弱到人耳刚刚可以听见时,声音强度称为“听阈”;当声音增强到使人耳感到疼痛时,这个阈值称为“痛域”。

        人耳存在“掩蔽效应”,即一个较弱的声音(被掩蔽声)的听觉感受被另一个较强的声音(掩蔽声)影响的现象。根据掩蔽声和被掩蔽声发生作用的时间相同与否“掩蔽效应”又可分为同时掩蔽和异时掩蔽,同时掩蔽又称频域掩蔽,异时掩蔽又称时域掩蔽。

        人可以凭借双耳判断声源的方向和位置,称为双耳定位。相对而言,人耳对声源远近的确定程度差于对方向的确定程度。双耳定位主要依据声音到达两耳的时间差和强度差。用麦克风阵列实现声源定位就是利用声源到达各麦克风阵元的时间差来实现的。

2  室内声场

(1) 室内环境

        家居环境是一个室内声场,房间对声音的影响主要有:由于四周封闭而引起的反射声;改变声音的音质;由于简正振动的激发,增加声能密度;使声音在空间的分布发生变化。

        声音传入房间的途径有两种:一种是空气传声,即空气声沿空气路线透射;另一种是结构声,即由冲击引起固体振动产生空气声。一般家居环境允许噪声级35dB~40dB,在室内,相距5m大声谈话的噪声级约为70dB~75dB,一般谈话的噪声级约为60dB~70dB。

        通常用声压和质点速度表征室内声场。当声波传到墙上时,部分能量被吸收,部分能量被反射。反射的声音会形成回声、声焦点、死点和室内颤动回声等现象,导致音质缺陷。

        在室内,声波经过反射到达人耳的路程一般大于直达声,如两路程差大于17m,相当于0.05s的时间差,则人耳就能感觉到回声。如果室内存在凹面,则会使室内声级分布不均匀,形成凹面聚焦,导致音质不良,即声焦点现象。而由于凹面聚焦的影响,室内声音集中,使其他处感到反射声不足,此时这些区域就形成死点。一般室内壁面总是平行相对的,所以若发出一个单脉冲声,比如掌声,将会在这相对的两面墙之间来回反射,从而会产生颤动回声。

(2) 混响

        当声源在房间内停止发声后,残余声能在房间内往复反射,产生混响。通常用混响时间T,即声能密度下降为原来的百万分之一所需的时间,或者说声能密度衰减60dB所需的时间来衡量房间的混响效果。

        混响时间的计算有两个常用公式:赛宾公式或赛宾-耶格公式:T=0.163V/(αS),艾润公式:T=0.163V/(-Sln(1-α)),式中,T为混响时间(s);S为房间内总表面积(m2);V为房间的总容积(m3);α为房间内表面的平均吸声系数。

        一般说来,混响时间太短,声音变得沉闷枯燥;混响时间太长,则会使声音混淆不清。一般剧场的混响时间约为1s~3s;一般会议厅的混响时间约为0.8s~1.2s;一般家居环境的混响时间约为0.1s~0.3s。

3  语音增强评价准则

        语音增强的目的是要尽可能的衰减我们不需要的噪声,同时尽可能保持期望语音不衰减不失真。麦克风阵列语音增强的方法很多,为了衡量一种方法的优劣,就需要一些评价准则。

(1) 主观评价方法

        主观评价方法是人在听到语音后对语音质量的主观感受,是最基本的评价方法,主要包括:平均评价评方法(MeanOpinion Score,MOS),诊断性押韵测试法(Diagnostic-

Rhyme Test,DRT),改进的押韵测试法(ModifiedRhyme Test,MRT)。

        MOS法是CCITT推荐的,是目前使用最广泛的主观评价方法。这种评分法对听音人的要求较高,最好是有经验的听音专家来参与评分。听音人根据语音的总体印象,从拟人性、连贯性、韵律感等方面,用优、良、中、差、劣五级计分来评价。在用MOS法评分时,可以先把好的语音和坏的语音让听音人听一下,再开始测试打分,保证评价的准确性。

        DRT法是用来测试语音音节的清晰度。每个系统一般使用两张DRT音节表,三个音节为一组,每个组为一个文本文件。测试时的输入语音应为3~4音节/秒,不应太慢,然后统计全体实验者对输出语音音节判断正确的百分比。

        MRT法是DRT法的改进,在DRT中每组可测三个汉字的读音,而在MRT中每组只测一个汉字的读音。

        主观评价方法以人的主观感受为主,对于人机交互来说显然不足,因为机器不可能达到大脑的智能程度。在数字信号处理时,就需要将这种主观感受量化,以数学的形式表现出来,从而人们提出了客观评价方法。

(2) 客观评价方法

        客观评价法是根据增强语音的时域波形或频域波形,给出客观的数值度量。其特点是计算简单,不用花费大量人力物力,但并不能完全反映人的主观感受。

        这里简要介绍信噪比(Signal-to-Noise Ratio)、噪声衰减系数(Noise-Reducti-on Factor)、语音失真指数(Speech-DistortionIndex)、语音衰减系数(Speech-Reduction Factor)。

1) 信噪比

        信噪比是噪声抑制方面最重要的评价标准,分为输入信噪比和输出信噪比。输入信噪比就是期望信号强度与背景噪声强度的比值,即iSNR=E[x(k)^2 ]/E[v(k)^2 ] ,其中E[x2(k)]和E[v2(k)]分别为信号x(k)和噪声v(k)的方差。

        输出信噪比就是语音增强后信号强度与噪声强度的比值,即oSNR(H)=tr(HRxH^T )/tr(HRvH^T ) ,式中tr表示方阵的迹;H为滤波器系数;Rx为信号的自相关矩阵;Rv为噪声的自相关矩阵;T表示转置。

        一般常用信噪比增益来表示语音增强系统的性能,即用输出信噪比减去输入信噪比: ΔSNR=oSNR-iSNR  。

2) 噪声衰减系数

        噪声衰减系数是对系统衰减的噪声的量化,在时域可定义为ξnr(H)=tr(Rv)/tr(HRvH^T ) 。

3) 语音失真指数

        语音在经过滤波器后不可避免的会失真,语音失真指数就是为了度量语音失真程度,定义为vsd(H)=tr[(H-I)Rx(H-I)^T ]/tr(Rx) ,式中I是单位矩阵。
4) 语音衰减系数

        语音衰减系数类似于噪声衰减系数,因为输入信号是期望语音和噪声的混合,经过滤波器后,不仅衰减了噪声,期望语音不可避免的也要受到一定的衰减。一般的,语音衰减暗示着语音失真。

        语音衰减系数表示为ξsr(H)=tr(Rx)/tr(HRxH^T ) 。

        以上几种语音增强的客观评价方法,信噪比显然是一种非常重要的评价准则。实际上,人耳能很好的分辨不同信噪比的含噪语音。

        噪声衰减系数是一种相对的评价准则,因为它不依靠期望信号的失真或衰减。在有些情况下噪声衰减系数可能远大于1,而信噪比却没有增加。语音失真指数和语音衰减系数非常粗糙的评价标准。四种评价标准之间有如下关系:(oSNR(H))/iSNR=(ξnr(H))/(ξsr(H))。


注:http://blog.csdn.net/yjjat1989/article/details/21526553


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

语音的基础知识 的相关文章

  • OpenMV颜色阈值设置

    OpenMV提供了两者阈值设置方案 分别是阈值编译器和直方图的方式选择阈值 阈值编译器 优点 所寻找到的目标颜色更加合理 其他相似颜色区域的干扰比较小 缺点 调节LAB的最大最小值比较花费时间 直立方图恰好相反 他很容易找到LAB的最大最小
  • 分库分表实战(8):激流勇进 — 千万级数据优化之加缓存

    V X ruyuanhadeng获得600 页原创精品文章汇总PDF 前 言 经过前面索引和sql的优化后 现在查询速度快的飞起 然后 我们继续回归到了日常需求的开发中 3个月过后 订单表的数据已经达到5000万了 不过sql一次查询的时间
  • 操作系统内存管理详细总结

    1 内存管理的概念 内存管理 Memory Management 是操作系统设计中最重要和最复杂的内容之一 虽然计算机硬件一直在飞速发展 内存容量也在不断增长 但是仍然不可能将所有用户进程和系统所需要的全部程序和数据放入主存中 所以操作系统
  • github镜像站【转载】

    GitHub 在国内经常会出现无法访问的情况 下面分享几个 GitHub 镜像站供大家使用 全局加速 可直接访问站点 查看代码等操作 支持Git clone 网页或命令行下载zip Releases等 链接 https help kgith
  • Uncaught TypeError: Illegal invocation

    今天使用JavaScript的setTimeout遇到一个问题 如下是原代码 setTimeout raiseEle setCustomValidity 1000 raiseEle是一个HTMLInputElement 标题错误是在Chro
  • C#获取(友好)串口名称

    每次使用串口都要进去设备管理器找到对应的串口号 不管你们烦不烦 反正我很暴躁 于是就有了自己做一个串口助手的想法 那C 怎么来自动获取 友好 串口名称 拒绝打开设备管理器呢 通过读取设备管理器里的条目来实现 下面的代码解决问题 获取可用端口
  • LeetCode 217. 存在重复元素

    题目链接 点击这里 class Solution public bool containsDuplicate vector
  • 基于python的数字图像处理--学习笔记(一)

    基于python的数字图像处理 学习笔记 一 图像处理python常用库和函数 1 opencv python库 2 opencv python常用函数 图像处理python常用库和函数 使用opencv python读取图片数据 并使用n
  • 解决WinXP系统无法打开网上邻居方法

    在网络维护中 经常会遇到打不开网上邻居的问题 现整理了打不开网上邻居的处理方法 供大家在遇到此问题时参考 下面是打不开网上邻居的处理方法 1 安装NWlinkIPX SPX NetBIOSCompatibleTransportProtoco
  • 友元函数的定义和使用

    下面是友元函数的定义和使用 学生姓名 成绩 include
  • shell 的here document 用法、输入/输出重定向

    前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 忍不住分享一下给大家 点击跳转到教程 什么是Here Document Here Document 是在Linux Shell 中的一种特殊的重定向方式 它的基本的形式如下 cmd
  • Python控制命令行打印的方法

    禁止结果打印 import sys def block print sys stdout open os devnull w 继续结果打印 import sys def enable print sys stdout sys stdout
  • 【ssh】ssh远程登录:no hostkey alg报错处理

    背景 centos系统 在ssh远程登录出现no hostkey alg 的报错 查询资料是因为ssh版本高低连接的原因 解决办法 一 通过重启sshd重新生成key rm rf etc ssh ssh key systemctl rest
  • 基于TF-Agent的回合策略梯度算法模型训练Atari游戏

    在上一篇博客中 我用Tensorflow的Agent库的DQN模型来对Atari的PONG游戏进行训练 效果很好 这次我打算测试一下回合策略梯度模型 看是否也能取得相同的效果 关于回合策略梯度算法的介绍 可以见我之前的另一篇博客强化学习笔记
  • Python+uiautomator2手机UI自动化测试实战 --1. 环境搭建

    转自 https blog csdn net ricky yangrui article details 81414870 一 简介 uiautomator2是一个python库 用于Android的UI自动化测试 其底层基于Google
  • Python POST实现发送Ajax的两个坑

    今天给写的应用做测试 服务器单元测试搞定了 要做功能测试和验收测试 功能测试需要模拟Ajax 验收测试需要Selenium 我之前的Selenium都是用Python 一想的话那就都用Pyhton了 结果一上来就掉到了Python的坑里 g
  • 蓝桥杯算法提高VIP-棋盘多项式

    题目 题目链接 题解 DFS 整体思路 横向分块 如下 我们只需要按连通块的序号去深搜即可 对于每个连通块 我们可以选择其中的任何一个空格作为放 車 的位置 或者选择不在这个连通块中放 車 因此 我们的问题转化为在dfs中如何确定连通块 如

随机推荐

  • Java Socket网络编程的经典例子(转)

    事实上网络编程简单的理解就是两台计算机相互通讯数据而已 对于程序员而言 去掌握一种编程接口并使用一种编程模型相对就会显得简单的多了 Java SDK提供一些相对简单的Api来完成这些工作 Socket就是其中之一 对于Java而言 这些Ap
  • go-libp2p中文文档

    GO LIBP2P入门 这是有关使用libp2p的Go实现go libp2p的一系列教程中的第一篇 我们将介绍安装Go 设置新的Go模块 启动libp2p节点以及在它们之间发送ping消息 安装Go go libp2p建议使用包含模块功能的
  • java实现金钱数字转大写

    private static final char ChineseNum 零 壹 贰 叁 肆 伍 陆 柒 捌 玖 private static final char ChineseUnit 里 分 角 元 拾 佰 仟 万 拾 佰 仟 亿 拾
  • Java学习笔记(十五)

    字符串操作 一 Java 中操作字符串都有哪些类 它们之间有什么区别 String StringBuffer StringBuilder String final修饰 是不可变的 所以线程安全 String类的方法都是返回new Strin
  • 刷脸掀起一场新技术变革解决焦虑良药

    对于对手机操作不熟练 特别是不方便拿手机的人而言 刷脸支付简直不能更方便 支付行业一直是红海市场 而随着智能刷脸支付的推广 支付被推向风口 支付行业正迎来一次新的革命 一方面 正是因为市场火热 支付行业的宏观监管日趋严格 新兴的人工智能技术
  • 国内服务器内存缓冲芯片,服务器内存拆芯片用

    服务器内存拆芯片用 内容精选 换一换 本次Ceph集群使用TaiShan服务器部署 三个Ceph节点采用三台为TaiShan 200服务器 型号2280 K8s节点两台均采用TaiShan 200服务器 型号2280 每台服务器配备4个SA
  • 国密SM2非对称加密算法(对本地文件的加解密)代码展示

    代码 package com example demo MIMAXUE SM import java io import java math BigInteger import java security SecureRandom impo
  • springboot 提示The hierarchy of the type ** is inconsistent

    SpringBoot 启动提示 The hierarchy of the type is inconsistent 原因 该类或其父类所在的jar包没有被引入 建议解决方案 从该类的父类开始跟踪源码 找到其所在的jar包并引入项目中 一般是
  • 【学习笔记】使用PicGo+Gitee实现md文档图片上传

    使用PicGo Gitee实现md文档图片上传 本笔记参考于Markdown Typora使用教程 前言 使用md文档进行记录的时候 经常需要在文档中放入图片 由于文档中的图片基本是放到本地的文件夹中 所以当我们需要将文档发给别人或者发布到
  • qt打开html如何使用http服务,Qt通过HTTP POST上传文件(示例代码)

    本文使用Qt Creator用HTTP POST的方法上传文件 并给出一个上传文件的例程 本文主要客户端 所以对于服务器端程序编写的描述会比较简略 服务器使用Django编写 django服务器接收文件的方法在文章http www cnbl
  • crm虚拟服务器搭建,搭建CRM服务器

    1 在windows下安装3 windows installer exe软件 默认安装 手动指定安装位置 比如 d crm 2 访问一下看看是否好用 3 进入d crm 拷贝D crm htdocs文件夹 到linux服务器下的网站默认文件
  • gensim中的word2vec的使用

    本着尊重原著的想法 我们先把一些引用的文章贴上来 供大家参考 word2vec的理论知识 这个真的蛮详细的 我表示没有耐心全部搞透啊 https blog csdn net itplus article details 37969519 苏
  • 【开发工具】 windows10使用adobe傻瓜式教程 真的太爽了吧!!

    个人主页 极客小俊 作者简介 web开发者 设计师 技术分享博主 希望大家多多支持一下 我们一起进步 如果文章对你有帮助的话 欢迎评论 点赞 收藏 加关注 其中包含了 你懂的 我不说啦 系统与硬件需求 操作系统 软件版本越高 对电脑系统要求
  • 矩阵篇(三)-- 矩阵的普通乘积、Hadamard 积、Kronecker 积及其性质

    1 普通乘积 matmul product 若 A pmb A AA 是 m n m times n m n 矩阵
  • CSS格式化代码(国内各大网站)

    京东格式化CSS代码 京东格式化CSS代码 把所有标签的默认内外边距清零 margin 0 padding 0 em 和 i 斜体文字不倾斜 em i font style normal 去掉li的小圆点 li list style non
  • hdfs删除和上传文件命令参考

    删除hadfs文件 export HADOOP USER NAME hdfs hadoop fs rm r skipTrash datafs 5gmr parameter neighborhood export HADOOP USER NA
  • 数字图像处理,经典对比度增强算法

    关于图像增强必须清楚的基本概念 1 图像增强的目的 1 改善图像的视觉效果 2 转换为更适合于人或机器分析处理的形式 3 突出对人或机器分析有意义的信息 4 抑制无用信息 提高图像的使用价值 5 增强后的图像并不一定保真 2 图像增强的方法
  • select函数的分析

    select函数位于头文件 include
  • 索引合并Intersection、union (3)--单表访问方法(三十八)

    上篇文章我们说了 使用索引的注意事项 前面我们总结了查询数据库的方式有const ref ref or null range index all 而使用时候需要注意 当where语句后面全是索引查询 当where语句后面跟着非索引的时候 当
  • 语音的基础知识

    1 语音信号的处理基础 1 语音信号的产生模型 语音是由发生器官产生的 肺呼进空气 由气管呼出形成气流 气流经由声门 使声带振动 产生一系列离散脉冲 再经由咽腔和口腔 有时还经由鼻腔 随着发音的不同 口的张合程度不同 舌在口中位置的不同 气