1 语音信号的处理基础
(1) 语音信号的产生模型
语音是由发生器官产生的。肺呼进空气,由气管呼出形成气流,气流经由声门,使声带振动,产生一系列离散脉冲,再经由咽腔和口腔,有时还经由鼻腔。随着发音的不同,口的张合程度不同,舌在口中位置的不同,气流经过各容积不断变化的空腔时产生许多共振,最后从口和鼻以声波的形式辐射出来。
因此,可将语音的频谱写成 F(w) = S(w) * V(w) * R(w),其中,F(w)是语音波f(t)的傅里叶变换;S(w)是激励源s(t)的傅里叶变换;V(w)是声道脉冲响应v(t)的傅里叶变换;R(w)是口的声辐射特性r(t)的傅里叶变换。据此构造出模拟人产生语音的“激励源/滤波器”模型,它由激励源、声道模型和辐射模型组成。当激励源为周期性脉冲时,产生浊音;当激励源是随机噪声时,产生清音。因此,我们就可以用激励源的线性或非线性组合通过声道和辐射模型来产生模拟语音。
(2) 语音信号的主要特性
声调是语音的基频随时间而高低升降的变化。汉语普通话在一个音节中就有四种变化:阴平,基频高而平;阳平,基频由中到高;上声,基频开始由中降至低,然后由低再升高;去声,基频先逐渐升到最高,再由最高降至最低。
汉语普通话四声,基频覆盖范围约为1.2~1.6个倍频程。男声基频约为100~300Hz,女声基频约为160~400Hz。
语音信号是一个瞬变的过程,是时变非平稳的。在一段很短的时间内(5-50ms),人的声带相对稳定,可近似认为这一小段时间内语音信号特征是平稳不变的。语音的频率范围约为340Hz~4kHz,让语音信号通过一个特定的时间窗,然后做短时傅里叶变换,得到短时频谱。
语音信号的统计特性可由它的概率密度函数来表示。通过对大量语音材料的分析统计,绘制出振幅直方图,然后估算出近似的语音概率密度函数。通常有三种常用的近似函数,一种是修正的伽马分布概率密度函数P(x)=(√k e^(-k|x| ))/(2√π √(|x| )) ,其中k是一个常数,它与标准差σ
x
有关k=√3/(2σx)。
另一种是拉普拉斯分布概率密度函数P(x)=0.5αe^(-α|x|),其中α是一个由标准差σx决定的常数α=√2/σx。
第三种就是高斯分布,此时概率密度函数是均值为零、方差变化的高斯随机变量。在这三种概率密度函数分布中,伽马分布逼近效果最好,拉普拉斯分布次之,而高斯分布逼近效果最差。
(3) 人耳的听觉特性
人耳是最灵敏的器官之一,正常人听觉的强度范围为0dB~140dB。当声音减弱到人耳刚刚可以听见时,声音强度称为“听阈”;当声音增强到使人耳感到疼痛时,这个阈值称为“痛域”。
人耳存在“掩蔽效应”,即一个较弱的声音(被掩蔽声)的听觉感受被另一个较强的声音(掩蔽声)影响的现象。根据掩蔽声和被掩蔽声发生作用的时间相同与否“掩蔽效应”又可分为同时掩蔽和异时掩蔽,同时掩蔽又称频域掩蔽,异时掩蔽又称时域掩蔽。
人可以凭借双耳判断声源的方向和位置,称为双耳定位。相对而言,人耳对声源远近的确定程度差于对方向的确定程度。双耳定位主要依据声音到达两耳的时间差和强度差。用麦克风阵列实现声源定位就是利用声源到达各麦克风阵元的时间差来实现的。
2 室内声场
(1) 室内环境
家居环境是一个室内声场,房间对声音的影响主要有:由于四周封闭而引起的反射声;改变声音的音质;由于简正振动的激发,增加声能密度;使声音在空间的分布发生变化。
声音传入房间的途径有两种:一种是空气传声,即空气声沿空气路线透射;另一种是结构声,即由冲击引起固体振动产生空气声。一般家居环境允许噪声级35dB~40dB,在室内,相距5m大声谈话的噪声级约为70dB~75dB,一般谈话的噪声级约为60dB~70dB。
通常用声压和质点速度表征室内声场。当声波传到墙上时,部分能量被吸收,部分能量被反射。反射的声音会形成回声、声焦点、死点和室内颤动回声等现象,导致音质缺陷。
在室内,声波经过反射到达人耳的路程一般大于直达声,如两路程差大于17m,相当于0.05s的时间差,则人耳就能感觉到回声。如果室内存在凹面,则会使室内声级分布不均匀,形成凹面聚焦,导致音质不良,即声焦点现象。而由于凹面聚焦的影响,室内声音集中,使其他处感到反射声不足,此时这些区域就形成死点。一般室内壁面总是平行相对的,所以若发出一个单脉冲声,比如掌声,将会在这相对的两面墙之间来回反射,从而会产生颤动回声。
(2) 混响
当声源在房间内停止发声后,残余声能在房间内往复反射,产生混响。通常用混响时间T,即声能密度下降为原来的百万分之一所需的时间,或者说声能密度衰减60dB所需的时间来衡量房间的混响效果。
混响时间的计算有两个常用公式:赛宾公式或赛宾-耶格公式:T=0.163V/(αS),艾润公式:T=0.163V/(-Sln(1-α)),式中,T为混响时间(s);S为房间内总表面积(m2);V为房间的总容积(m3);α为房间内表面的平均吸声系数。
一般说来,混响时间太短,声音变得沉闷枯燥;混响时间太长,则会使声音混淆不清。一般剧场的混响时间约为1s~3s;一般会议厅的混响时间约为0.8s~1.2s;一般家居环境的混响时间约为0.1s~0.3s。
3 语音增强评价准则
语音增强的目的是要尽可能的衰减我们不需要的噪声,同时尽可能保持期望语音不衰减不失真。麦克风阵列语音增强的方法很多,为了衡量一种方法的优劣,就需要一些评价准则。
(1) 主观评价方法
主观评价方法是人在听到语音后对语音质量的主观感受,是最基本的评价方法,主要包括:平均评价评方法(MeanOpinion Score,MOS),诊断性押韵测试法(Diagnostic-
Rhyme Test,DRT),改进的押韵测试法(ModifiedRhyme Test,MRT)。
MOS法是CCITT推荐的,是目前使用最广泛的主观评价方法。这种评分法对听音人的要求较高,最好是有经验的听音专家来参与评分。听音人根据语音的总体印象,从拟人性、连贯性、韵律感等方面,用优、良、中、差、劣五级计分来评价。在用MOS法评分时,可以先把好的语音和坏的语音让听音人听一下,再开始测试打分,保证评价的准确性。
DRT法是用来测试语音音节的清晰度。每个系统一般使用两张DRT音节表,三个音节为一组,每个组为一个文本文件。测试时的输入语音应为3~4音节/秒,不应太慢,然后统计全体实验者对输出语音音节判断正确的百分比。
MRT法是DRT法的改进,在DRT中每组可测三个汉字的读音,而在MRT中每组只测一个汉字的读音。
主观评价方法以人的主观感受为主,对于人机交互来说显然不足,因为机器不可能达到大脑的智能程度。在数字信号处理时,就需要将这种主观感受量化,以数学的形式表现出来,从而人们提出了客观评价方法。
(2) 客观评价方法
客观评价法是根据增强语音的时域波形或频域波形,给出客观的数值度量。其特点是计算简单,不用花费大量人力物力,但并不能完全反映人的主观感受。
这里简要介绍信噪比(Signal-to-Noise Ratio)、噪声衰减系数(Noise-Reducti-on Factor)、语音失真指数(Speech-DistortionIndex)、语音衰减系数(Speech-Reduction Factor)。
1) 信噪比
信噪比是噪声抑制方面最重要的评价标准,分为输入信噪比和输出信噪比。输入信噪比就是期望信号强度与背景噪声强度的比值,即iSNR=E[x(k)^2 ]/E[v(k)^2 ] ,其中E[x2(k)]和E[v2(k)]分别为信号x(k)和噪声v(k)的方差。
输出信噪比就是语音增强后信号强度与噪声强度的比值,即oSNR(H)=tr(HRxH^T )/tr(HRvH^T ) ,式中tr表示方阵的迹;H为滤波器系数;Rx为信号的自相关矩阵;Rv为噪声的自相关矩阵;T表示转置。
一般常用信噪比增益来表示语音增强系统的性能,即用输出信噪比减去输入信噪比: ΔSNR=oSNR-iSNR 。
2) 噪声衰减系数
噪声衰减系数是对系统衰减的噪声的量化,在时域可定义为ξnr(H)=tr(Rv)/tr(HRvH^T ) 。
3) 语音失真指数
语音在经过滤波器后不可避免的会失真,语音失真指数就是为了度量语音失真程度,定义为vsd(H)=tr[(H-I)Rx(H-I)^T ]/tr(Rx) ,式中I是单位矩阵。
4) 语音衰减系数
语音衰减系数类似于噪声衰减系数,因为输入信号是期望语音和噪声的混合,经过滤波器后,不仅衰减了噪声,期望语音不可避免的也要受到一定的衰减。一般的,语音衰减暗示着语音失真。
语音衰减系数表示为ξsr(H)=tr(Rx)/tr(HRxH^T ) 。
以上几种语音增强的客观评价方法,信噪比显然是一种非常重要的评价准则。实际上,人耳能很好的分辨不同信噪比的含噪语音。
噪声衰减系数是一种相对的评价准则,因为它不依靠期望信号的失真或衰减。在有些情况下噪声衰减系数可能远大于1,而信噪比却没有增加。语音失真指数和语音衰减系数非常粗糙的评价标准。四种评价标准之间有如下关系:(oSNR(H))/iSNR=(ξnr(H))/(ξsr(H))。
注:http://blog.csdn.net/yjjat1989/article/details/21526553