我想问一下HMM中3态电话模型的含义。本案例基于语音识别系统中的HMM理论。因此,该示例基于 HMM 中语音的声学建模。
我从期刊论文中得到了这张示例图片:http://www.intechopen.com/source/html/41188/media/image8_w.jpg http://www.intechopen.com/source/html/41188/media/image8_w.jpg
图 1:声音 /s/ 的三态 HMM
所以,我的问题是:
- 3状态是什么意思?
- S1、S2、S3到底是什么意思? (我知道这是状态,但它代表什么?)
- 在这个HMM状态下如何表示/s/声音?
- 为什么是3?如果我们有 4 个、5 个或更多状态会发生什么?
- 如果/s/的发音只是一个简单的辅音“s/”的发音,那么状态和转移代表有什么用呢?
你们有这个理论的例子(图形类比)的简单解释吗?
谢谢
Nick
3状态是什么意思?
描述电话 S 的模型由树状态组成 - S1、S2 和 S3。
S1、S2、S3到底是什么意思? (我知道这是状态,但它代表什么?)
S1表示音素S开头的特征向量的概率分布,中间是S2,结尾是S3。概率分布本质上是特征向量(电话的这部分听起来如何)和变化(变化的范围)的最可能值。
在这个HMM状态下如何表示/s/声音?
S 声音由整个 HMM 表示,而不仅仅是单个状态。
为什么是3?如果我们有 4 个、5 个或更多状态会发生什么?
在连续语音识别中,电话声学受到前面音素和后面音素的影响。因此,将每部手机分为 3 个部分更为精确:一开始从上一部手机过渡,中间稳定,最后过渡到下一部手机。如果电话被隔离且稳定,1 个状态就足够了。也可以在连续语音中使用单个音素的 5 种状态,但这并不能大大提高准确性。
如果/s/的发音只是一个简单的辅音“s/”的发音,那么状态和转移代表有什么用呢?
往上看。转换表示从一种状态转移到另一种状态的概率,本质上它模拟了手机的长度。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)