我想将语音录音与已知文本同步。是否有一个语音到文本/自然语言处理库可以促进这一点?我想我想要检测单词边界并计算字典中的候选匹配项。我在 SO 上发现的大多数问题都与书面语言有关。
期望但不是必需的:
编辑:我意识到这是一个非常广泛,甚至天真的问题,所以提前感谢您的指导。
到目前为止我发现了什么:
-
OpenEars http://www.politepix.com/openears/(iOS Sphinx/Flite 包装器)
强制对齐
听起来你想做强制对齐 http://www.isip.piconepress.com/projects/speech/software/tutorials/production/fundamentals/v1.0/section_04/s04_04_p01.html在您的音频和已知文本之间。
几乎所有研究/工业级语音识别系统都能够做到这一点,因为强制对齐是在没有数据的情况下训练识别系统的重要部分。phone http://en.wikipedia.org/wiki/Phoneme音频和文字记录之间的电平对齐。
对齐 CMUSphinx
The Sphinx4-1.0 beta 5 发布 http://cmusphinx.sourceforge.net/2010/09/sphinx4-1-0-beta-4-released-2/卡耐基梅隆大学的开源语音识别系统现在包括一个有关如何在文字记录和长语音录音之间进行对齐的演示。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)