从头开始简单的语音识别

2023-12-21

我发现与我的问题相关的最相似的问题是（简单的语音识别方法 https://stackoverflow.com/questions/8467589/simple-speech-recognition-methods）但是三年过去了，答案还不够，我会问。

我想从头开始计算一个简单的语音识别系统，我只需要识别五个单词。据我所知，该应用中使用较多的音频特征是MFCC和用于分类的HMM。

我能够从音频中提取 MFCC，但我仍然对如何使用这些特征通过 HMM 生成模型然后执行分类有一些疑问。

据我了解，我必须执行矢量量化。首先，我需要一堆 MFCC 向量，然后应用聚类算法来获取质心。然后，使用质心进行矢量量化，这意味着我必须比较每个 MFCC 向量并用最相似的质心名称来标记它。

那么，质心就是 HMM 中的“可观察符号”。我必须将单词引入训练算法并为每个单词创建一个 HMM 模型。然后，给定一个音频查询，我与所有模型进行比较，我说这是概率最高的单词。

首先，这个程序正确吗? Then, 我如何处理不同大小的单词。我的意思是，如果我训练了 500 毫秒和 300 毫秒的单词，我需要引入多少个可观察符号来与所有模型进行比较？

注意：我不想使用 sphinx、android API、microsoft API 或其他库。

注2：如果您能分享更多最新信息以获得更好的技术，我将不胜感激。

首先，这个程序正确吗？

矢量量化部分还可以，但现在很少使用。您描述了所谓的离散 HMM，没有人将其用于语音。如果您想要使用 GMM 的连续 HMM 作为排放的概率分布，则不需要矢量量化。

然后，您专注于不太重要的步骤，例如 MFCC 提取，但跳过了最重要的部分，例如使用 Baum-Welch 进行 HMM 训练和使用 Viterbi 进行 HMM 解码，这些训练部分比使用矢量量化对状态进行初始估计要复杂得多。

那么，如何处理不同大小的单词。我的意思是，如果我训练了 500 毫秒和 300 毫秒的单词，我需要引入多少个可观察符号来与所有模型进行比较？

如果您解码语音，您通常会选择与人类感知的音素部分相对应的符号。传统上每个音素采用 3 个符号。例如，单词“一”应该有 3 个音素的 9 个状态，而单词“七”应该有 5 个音素的 15 个状态。这种做法被证明是有效的。当然，您可以稍微改变这个估计。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从头开始简单的语音识别的相关文章

同步文本和音频。有 NLP/语音转文本库可以做到这一点吗？

我想将语音录音与已知文本同步是否有一个语音到文本自然语言处理库可以促进这一点我想我想要检测单词边界并计算字典中的候选匹配项我在 SO 上发现的大多数问题都与书面语言有关期望但不是必需的开源开箱即用兼容美式英语跨平台详尽记
Delphi 中的 Vista 语音识别

我希望能够使用 Microsoft Vista 的语音识别功能对我的 Delphi 应用程序进行口授然而当尝试听写 TMemo 时它根本不起作用我注意到 Firefox 3 0 也有同样的问题在他们联系微软解决这个问题后他们告诉
如何使用 Python 模块 Dragonfly 识别语音？

我一直在试图弄清楚如何使用 Dragonfly 模块我查看了文档但似乎不知道如何使用它我只想能够识别一些短语并根据这些短语采取行动是的这个例子将终止我已经看过这个特定的例子很多了它缺少一些关键功能首先是 pythoncom
在 PyQt 中使用 pyttsx

我正在 pyqt 中为我的聊天机器人制作 Gui 但我在这方面的代码中遇到了一些问题 def init self super Window self init self setGeometry 50 50 500 300 self setW
Android 离线语音识别只显示一个结果？

我已经设置了语音识别服务如本文所示Android 语音识别作为 Android 4 1 和 4 2 上的服务 https stackoverflow com questions 14940657 android speech recogn
语音识别在 Unity Hololens 项目中不起作用

我正在尝试在 Hololens 中创建自己的具有语音识别功能的 Unity 项目我复制粘贴了来自的说明tutorial https developer microsoft com en us windows holographic hol
Android PocketSphinx：系统如何知道调用了哪个识别器？

我正在研究源码TestPocketSphinxAndAndroidASR java https github com mistrykajal16 AndroidPocketSphinx blob master src ca ilanguag
Android 上的关键字激活语音识别

是否可以在您自己的应用程序中使用 google now 这个很酷的语音激活功能所以我想要的是用户不必通过按下按钮或其他东西来触发激活像那样我宁愿有一个由关键字激活的自动语音识别功能例如当 google now 打开时您只需说 g
用于语音检测和辨别的开源代码

我有 15 盘录音带我相信其中一盘包含我祖母和我谈话的旧录音快速尝试找到合适的地方并没有找到我不想听20个小时的磁带才能找到它该位置可能不在其中一盘磁带的开头大多数内容似乎分为三类按照总长度的顺序最长的在前沉默语音广播和音
使用 Flash 或 Silverlight 进行语音识别

我正在开发一个网络用户界面来输入一些不是很复杂但需要实时加载的信息我认为该应用程序可以利用语音识别来促进任务该界面的核心是使用 Javascript 和 jQuery 构建的但可以轻松包含 flash 或 silverlight 组件
语音转文本在 apk 中包含语音引擎

我的应用程序中需要为真正的非极客提供语音转文本功能有没有办法在编译时为各种平板电脑包含语音引擎您可以包含自己的引擎例如 CMU Sphinx 引擎这还具有无需数据连接即可工作的优点看到这个post http cmusphinx s
如何在通话过程中将语音转换为文本，并为呼叫者和呼叫接收者提供不同的文本颜色？

我想在通话期间将语音转换为文本我还希望文本以不同的颜色显示呼叫发起者为红色呼叫接收者为绿色在测试期间我在通话期间将语音转换为文本但无法区分呼叫发起者的声音和呼叫接收者的声音提前致谢请帮帮我 None
如何将人声转换为数字格式？

我正在开展一个使用生物识别系统来保护系统的项目我们计划使用人声来保护系统想法是让人们说出一些单词或句子系统将以数字格式存储该语音下次人们想要进入系统时他她必须说出一些单词这些单词可能与之前使用的单词不同也可能没有不同我们不
如何跟踪语速

我正在开发一个跟踪语速的 iPhone 应用程序并希望使用 Nuance Speechkit https developer nuance com public Help DragonMobileSDKReference iOS Spee
使用 tsfresh 仅选择一定数量的顶级特征

如何使用 tsfresh 选择时间序列的前 n 个特征我可以决定要提取的主要特征的数量吗基于 Chaitra 的上述评论和这个答案 https stackoverflow com questions 62991201 tsfresh g
Android 语音识别服务在 <= Ice Cream Sandwich 上速度慢得多

我有一个正在实现 RecognitionListener 的服务如下所示 Android 语音识别作为 Android 4 1 和 4 2 上的服务 https stackoverflow com questions 14940657 a
Google 语音转文本：额外语言设置为“打开”但不起作用

我正在尝试使用卡纳达语的 Google Speech to Text API 并且我将 EXTRA LANGUAGE 设置为 kn 但它不起作用下面是我正在使用的代码 Locale locale new Locale kn Locale
如何使用其他语言的语音识别 android

我有一个曾经有效的代码但由于某种原因它突然停止工作我正在尝试使用希伯来语语音识别但似乎从几天前开始它才开始英语语音识别这是我的代码 sr SpeechRecognizer createSpeechRecognizer getAppl
从 Google 语音识别中删除脏话审查

我正在尝试使用 Google 的语音到文本 API 在 iOS 应用程序中将语音转换为文本我只是将一些音频数据发送到 URL 并且它返回了我所说的大部分正确的单词但是它用替换了任何脏话我如何用实际的咒语替换只是一些附加信息
python中的语音识别持续时间设置问题

我有一个 Wav 格式的音频文件我想转录我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source

随机推荐

boost::chrono 纳秒 Windows 7

include
在 C++ 中将整数输入写入向量容器

同样我们在数组中做 for cin gt gt a i 我们如何使用向量来做到这一点我声明了一个整数向量 vector
ExpandableListView 与 ViewPager 组合作为其子项

UPDATE 添加了实验结果是否可以实现 ExpandableListView 来拥有 viewpager 子项我尝试将 viewpager 作为子项放在 ExpandableListView 中但它没有显示我也尝试将其添加到 Sc
如何在 SQL Server Express Edition 中每天运行存储过程？

如何在 SQL Server Express Edition 中每天的特定时间运行存储过程 Notes 这是截断审计表所必需的另一种方法是修改插入查询但这可能效率较低 SQL Server Express Edition 没有 SQL
jQuery 兄弟姐妹不选择 div 内的选项？

input group select change function var value this val alert input group select siblings select children option length th
在 Outlook 2016 的 Office 365 组日历中创建会议时加载项被禁用

我正在关注这个使用 Outlook 2016 在 Windows 10 上在 Office 365 组日历中创建新会议但使用组日历时所有加载项在 Outlook 2016 本机中都被禁用这些插件在 Web Outlook 中的组日历
如何检测桌子的水平线和垂直线并消除噪音？

I am trying to get the horizontal and vertical lines of the table in an image in order to extract the texts in cells Her
如何在 C++ 模板类中为单个方法创建专门化？

已经问了很多问题它们与我在这里要问的问题相似但我认为它们并不相同我有一个模板类 namespace app template
geom_raster() 的相对性能

我有一个R ggplot2似乎需要的用例geom raster 在 x y 位置具有 z 值的常规笛卡尔网格我一直在使用geom tile 并且我期望从切换到geom raster 但我好像没看到人这是一个玩具示例但大小合适使用ba
Rails 部分 rspec 中的 view.stub 给出“未定义的方法 view_context”

使用 Rails 3 2 11 我有几个视图 rspec 测试需要对 current user 调用进行存根我已经在常规视图测试中成功使用了它如下所示 require spec helper describe projects my
Git：如何从单个 .git 文件夹恢复存储库 [重复]

这个问题在这里已经有答案了我手上有一个 git来自崩溃的 GitLab 服务器的文件夹我需要从这个单独的仓库恢复这个仓库 git文件夹这可能吗只需从 git folder git clone git my repo
Firebase First Open 事件不正确

我已将 Firebase 集成到我的应用程序中并使用了一段时间直到两周前我才得到与 iTunesConnect 类似的首次开放结果两周来我得到了奇怪的分析即使我每天的新下载量约为 500 600 Firebase Analytics
如何使用 AngularJS 同步两个 div 的滚动位置？

我已经看到并使用 jQuery 进行同步滚动但对于我当前的项目我被迫尽可能寻找 Angular 解决方案不幸的是我没有运气找到解决这个问题的角度方式简而言之我需要顶部 div 表格标题与底部 div 表格主体同步水平滚动
使用 Geocoder 的近方法时收到错误 PG::UndefinedColumn: ERROR: column mymodels.distance 不存在

当使用此查询时与Railscasts 第 273 集 http railscasts com episodes 273 geocoder locations Location near params search 50 order gt
使用 proguard 混淆 Parcelable 类

我试图用 Proguard 混淆一个可分割的类在添加 Parcelable 部分之前类是 public class Foo private String value public String getValue return value
有没有办法找到嵌套列表中的所有并集，以便结果是一个嵌套列表，其中没有列表具有公共元素？

我有一个返回嵌套列表的函数例如 1 2 2 3 5 6 为了查找嵌套列表中的所有并集我尝试使用集合并集但我不确定如何在循环中进行过滤因为嵌套列表的大小不是恒定的有没有办法通过列表理解或嵌套 for 循环例子给定输入 1 2 2
Rails 重定向到 https，同时保留所有参数

我正在重定向到 https 如下所示 redirect to protocol gt https status gt moved permanently 然而参数并不是这样传递的我可以像这样传递特定参数 redirect to prot
在 SOAPUI 请求中的 EndpointDispatcher 处获取 AddressFilter 不匹配

如果我通过客户端应用程序使用它我的服务运行良好我使用相同的 wsdl 来加载 SOAPUI 它已成功为每种方法创建了样本测试我想发送一个请求它应该相应地生成响应我可以在请求属性中看到正确的端点地址它自动生成了 SOAP XML
主窗口内的 QDialog 全屏显示有时只能工作

在 Qt 4 8 和 Ubuntu 12 10 unity 上使用 C 进行测试我有一个显示 QDialog 的主窗口当我将对话框窗口全屏显示时即使它看起来是一个正确的窗口它似乎并不总是有效这意味着窗口可以全屏显示尽管只是有时
从头开始简单的语音识别

我发现与我的问题相关的最相似的问题是简单的语音识别方法 https stackoverflow com questions 8467589 simple speech recognition methods 但是三年过去了答案还不够我

从头开始简单的语音识别

从头开始简单的语音识别 的相关文章

随机推荐

热门标签

从头开始简单的语音识别的相关文章