语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
语音识别原理:
语音识别系统本质上是一种多维模式识别系统。它与一般的模式识别系统类似,包括语音预处理、语音特征提取、语音模式库和语音模式匹配等基本单元,如图1所示。
1)语音预处理:包括预加重、反混叠滤波、端点检测、噪声滤波等处理过程,用以去除声门激励、口鼻辐射、高于1/2 采样频率的高频和噪声信号的影响,实现语音信号的数字化。
2)语音特征提取:对经过预处理后的语音信号进行特征参数分析。该过程就是从原始语音信号中抽取出能够反映语音本质的特征参数,形成特征矢量序列。可选择的语音特征参数包括: 时域参数、频域参数、声道的形状函数、随机模型的概率函数、量化矢量和超音段信息函数等。
3)语音模式库:即声学参数模板,它是用聚类分析等方法,从一个讲话者或多个讲话者多次重复的语音参数中经过长时间训练得到的。
4)语音模式匹配:将输入语音的特征参数同训练得到的语音模式库进行比较分析,从而得到识别结果。
随着信息技术的飞速发展,