信号处理——梅尔滤波器（MFCC）

2023-11-18

信号处理——梅尔滤波器（MFCC）

一、概述

在语音识别（Speech Recognition）和话者识别（Speaker Recognition）方面，最常用到的语音特征就是梅尔倒谱系数（Mel-scale FrequencyCepstral Coefficients，简称MFCC）。

梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，它与频率的关系可用下式近似表示：

Mel(f)=2595∗lg(1+f/700)Mel(f)=2595∗lg⁡(1+f/700)

式中f为频率，单位为Hz。下图为Mel频率与线性频率的关系：
在这里插入图片描述

二、基本流程

在这里插入图片描述

1. 预加重

预加重处理其实是将语音信号通过一个高通滤波器：
在这里插入图片描述
式中的值介于0.9-1.0之间，我们通常取0.97。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

2. 分帧

先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000 1000=32ms。

3. 加窗

将信号分帧后,我们将每一帧代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续性（即谱泄露 spectral leakage）。常用的窗函数有方窗、汉明窗和汉宁窗等，根据窗函数的频域特性，常采用汉明窗（hamming window）。

加窗操作：
在这里插入图片描述
窗函数（汉明窗）：

其中a=0.46，N为每一帧的长度。

4. 傅里叶变换FFT

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

设语音信号的DFT为：
在这里插入图片描述

5. 梅尔滤波器组

首先要讲一下什么是梅尔值，这是一个新的量度，相比于正常的频率机制，梅尔值更加接近于人耳的听觉机制，其在低频范围内增长速度很快，但在高频范围内，梅尔值的增长速度很慢。每一个频率值都对应着一个梅尔值，其对应关系如下：
在这里插入图片描述
将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组（滤波器的个数和临界带的个数相近），采用的滤波器为三角滤波器。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽，如图所示：
在这里插入图片描述
三角滤波器的频率响应定义为:

三角带通滤波器有两个主要目的：

对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。（因此一段语音的音调或音高，是不会呈现在MFCC 参数内，换句话说，以MFCC 为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响）
降低运算量。

6. 对数运算

计算每个滤波器组输出的对数能量为：
在这里插入图片描述

7. 离散余弦变换

经离散余弦变换（DCT）得到MFCC系数：
在这里插入图片描述
将上述的对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数，通常取12-16。这里M是三角滤波器个数。

8. 动态差分参数提取

标准的倒谱参数MFCC只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述。实验证明：把动、静态特征结合起来才能有效提高系统的识别性能。差分参数的计算可以采用下面的公式：

在这里插入图片描述
式中,dt表示第t个一阶差分；Ct表示第t个倒谱系数；Q表示倒谱系数的阶数；K表示一阶导数的时间差，可取1或2。将上式中结果再代入就可以得到二阶差分的参数。

总结

因此，MFCC的全部组成其实是由：

N维MFCC参数（N/3MFCC系数+ N/3一阶差分参数+ N/3二阶差分参数）+帧能量（此项可根据需求替换）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)