是的,我知道语音识别相当复杂(轻描淡写)。我正在寻找的是一种区分的方法maybe20-30 个短语。分割单词的能力(离散语音很好)会很好,但不是必需的。该软件将取决于用户(即供我使用)。我不是在寻找现有的软件,而是在寻找一种自己做这件事的好方法。我研究了各种现有的方法,似乎将声音分成音素虽然很常见,但对于我的需求来说有点过度。
对于某些情况,我只是在寻找一种通过一些简单的语音命令来控制计算机某些方面的方法。我知道 Windows 已经有语音识别软件,但我想自己尝试一下这个软件作为学习练习。命令很简单,例如“打开 Google”或“静音”。我的想法(不确定这是否是个好主意)是某些命令是复合的。所以“静音”就只是“静音”。而“打开”命令可以单独识别,然后有其后缀(Google、Photoshop 等)。被另一个网络/模型/其他东西识别。但我不确定以这种方式查找前缀/断词是否会比处理数量增加的单个命令产生更好的结果。
我一直在研究感知器、hopfield 网络(尽管根据我的理解,它们有些过时)和 HMM,虽然我理解这些背后的想法(我之前已经实现了 ANN),但我真的不知道哪个是最适合这项任务。我假设线性矢量量化模型也是合适的,但我实际上找不到太多这方面的文献。任何指导/资源将不胜感激。
语音识别方面有一些开源项目:
- HTK(隐马尔可夫模型工具包)
- Sphinx
两者都有解码器、训练、语言模型工具包。构建一个完整且强大的语音识别器的一切。
Voxforge 拥有适用于两个开源语音识别工具包的声学和语言模型。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)