隐马尔可夫模型 (HMM) 中的三态电话模型

2024-01-07

我想问一下HMM中3态电话模型的含义。本案例基于语音识别系统中的HMM理论。因此,该示例基于 HMM 中语音的声学建模。

我从期刊论文中得到了这张示例图片:http://www.intechopen.com/source/html/41188/media/image8_w.jpg http://www.intechopen.com/source/html/41188/media/image8_w.jpg

图 1:声音 /s/ 的三态 HMM

所以,我的问题是:

  1. 3状态是什么意思?
  2. S1、S2、S3到底是什么意思? (我知道这是状态,但它代表什么?)
  3. 在这个HMM状态下如何表示/s/声音?
  4. 为什么是3?如果我们有 4 个、5 个或更多状态会发生什么?
  5. 如果/s/的发音只是一个简单的辅音“s/”的发音,那么状态和转移代表有什么用呢?

你们有这个理论的例子(图形类比)的简单解释吗?

谢谢

Nick


3状态是什么意思?

描述电话 S 的模型由树状态组成 - S1、S2 和 S3。

S1、S2、S3到底是什么意思? (我知道这是状态,但它代表什么?)

S1表示音素S开头的特征向量的概率分布,中间是S2,结尾是S3。概率分布本质上是特征向量(电话的这部分听起来如何)和变化(变化的范围)的最可能值。

在这个HMM状态下如何表示/s/声音?

S 声音由整个 HMM 表示,而不仅仅是单个状态。

为什么是3?如果我们有 4 个、5 个或更多状态会发生什么?

在连续语音识别中,电话声学受到前面音素和后面音素的影响。因此,将每部手机分为 3 个部分更为精确:一开始从上一部手机过渡,中间稳定,最后过渡到下一部手机。如果电话被隔离且稳定,1 个状态就足够了。也可以在连续语音中使用单个音素的 5 种状态,但这并不能大大提高准确性。

如果/s/的发音只是一个简单的辅音“s/”的发音,那么状态和转移代表有什么用呢?

往上看。转换表示从一种状态转移到另一种状态的概率,本质上它模拟了手机的长度。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

隐马尔可夫模型 (HMM) 中的三态电话模型 的相关文章

  • 我可以在 Android 上获得英语以外语言的语音识别吗?

    我正在尝试构建一个应用程序 将使用印地语和其他区域语言 来获取语音命令 我的应用程序中还需要文本转语音功能 我想知道是否有什么方法可以在 Android 上获得语音识别库 我在 Google 上进行了快速搜索 并在互联网上找到了几个印地语库
  • 使用 Microsoft 认知语音 API 和非麦克风实时音频流进行语音识别

    Problem 我的项目由一个实时录制音频的桌面应用程序组成 我打算为此接收来自 API 的实时识别反馈 与一个麦克风 使用 Microsoft 新的 Speech to Text API 进行实时实现是微不足道的 我的场景与此的不同之处仅
  • 有限状态机和 FSM 间信令

    对具有本机 因此没有 FSM 生成工具 支持状态机开发的语言的建议执行以及消息 信号的传递 这适用于电信 例如实现这种复杂程度的 FSM 我考虑过 Erlang 但希望得到一些反馈 建议 教程指针 替代方案 特别是基于 Java 的框架 也
  • Android 离线语音识别只显示一个结果?

    我已经设置了语音识别服务 如本文所示Android 语音识别作为 Android 4 1 和 4 2 上的服务 https stackoverflow com questions 14940657 android speech recogn
  • iOS / C:检测音素的算法

    我正在寻找一种算法来确定实时音频输入是否与 144 个给定 且完全不同的 音素对之一匹配 最好是完成这项工作的最低级别 我正在为 iPhone iPad 开发激进 实验性音乐培训软件 我的音乐系统包含 12 个辅音音素和 12 个元音音素
  • Android 语音识别器未连接到识别服务

    我想在我的 Android 应用程序中引入永久语音识别功能 我知道语音识别在 Android 4 1 1 和 4 2 上有时会冻结 因此我建立了一个计时器 并且时不时地检查语音识别是否仍然存在 以及是否处于活动状态 不活着我停止它然后开始它
  • LL 自顶向下解析器,从 CST 到 AST

    我目前正在学习语法分析 尤其是自上而下的解析 我知道术语以及与自下而上的 LR 解析器的区别 并且由于自上而下的 LL 解析器更容易手动实现 所以我期待着制作自己的解析器 我见过两种方法 递归下降使用一组递归函数 基于堆栈和表驱动的自动机为
  • 带标点符号的实时语音识别

    使用自动标点符号实现语音识别 语音到文本 的方法是什么 我想用它来将讲座 45 分钟的演讲 转换为文本 并在可能的情况下动态更新视图 我尝试了 SpeechRecognizer 但它只给我没有标点符号的单词 并且在第一个单词后停止收听 您可
  • 为什么我们不能在 C# 中使用 Iterator StateMachine 属性?

    I did a Go To Definition F12 on a class I was trying to derive from and I noticed that one of the methods was marked wit
  • 使用 Phonegap 在 Android 上启动语音识别器

    目前我正在制作一个 Phonegap 应用程序 我想将增强现实与语音输入结合起来 Phonegap 有一个名为 SpeechRecognizer 的插件 但我无法让它工作 我的标题
  • 为什么 javascript 语音识别 api 在没有互联网的情况下无法工作?

    我正在使用 javascript 语音识别 api new webkitSpeechRecognition 我很惊讶为什么它在没有互联网的情况下无法工作 因为它是 javascript 代码 所以它应该可以离线工作 我检查了chrome开发
  • .NET 的状态机框架

    我工作中的系统基本上是一个消息驱动的状态机 它接收各种类型的消息 根据消息查找某些上下文 状态 然后根据消息和当前状态决定要做什么 通常结果是一条消息被发送到系统之外 有没有好的开源框架可以在 NET 中实现状态机 我研究了最新版本的 Wi
  • 生成随机确定性有限自动机的算法是什么?

    DFA 必须具有以下四个属性 DFA 有 N 个节点 每个节点有 2 个传出转换 每个节点都可以从其他每个节点访问 从所有可能性中以完全一致的随机性选择 DFA 这是我到目前为止所拥有的 从 N 个节点的集合开始 选择一个尚未选择的节点 将
  • 如何从音频文件中分离男声和女声(C++或Java)

    我想区分音频文件中的男声和女声并将它们分开 作为输出 我希望将两个声音分开 你能帮我一下吗 编码可以用java还是c 完成 这可能是一个非常复杂的问题 它类似于编写自己的语音识别 或识别 算法 您首先可以将音频转换为频域 这是使用快速傅立叶
  • Android 语音识别服务在 <= Ice Cream Sandwich 上速度慢得多

    我有一个正在实现 RecognitionListener 的服务 如下所示 Android 语音识别作为 Android 4 1 和 4 2 上的服务 https stackoverflow com questions 14940657 a
  • HMM 如何用于手写识别?

    这个问题与传统的手写识别有点不同 我有一个包含数千个以下内容的数据集 对于一个绘制的角色 我有几个连续的 x y 按下笔的坐标 所以 这是一个顺序 时间 问题 我希望能够根据这些数据对手写字符进行分类 并且希望实现 HMM 来实现学习目的
  • 为 google-cloud-speech 、Java 桌面应用程序定义 GOOGLE_APPLICATION_CREDENTIALS

    我是全新使用的谷歌云java https github com GoogleCloudPlatform google cloud java 尝试做一些Speech Recognition使用谷歌云语音 https github com Go
  • 如何从 JavaScript 使用 Opus 编解码器

    我想看看是否可以使用直接访问 OpusgetUserMedia或最新浏览器中的任何类似内容 我对此进行了很多研究 但没有取得好的结果 我知道 Opus 或 Speex 实际上用于webkitSpeechRecognitionAPI 我想做语
  • C# - 捕获 RTP 流并发送到语音识别

    我正在努力实现的目标 在 C 中捕获 RTP 流 将该流转发到 System Speech SpeechRecognitionEngine 我正在创建一个基于 Linux 的机器人 它将接受麦克风输入 将其发送给 Windows 机器 Wi
  • 使用pluginaweek的state_machine,我可以在事件期间引用activerecord对象吗?

    我正在尝试实现一个 挂起 事件 将对象转换为 挂起状态 但我需要能够 取消暂停 并返回到之前的状态 我向模型添加了 previous state 字段 但我看不到如何在事件块内访问它 这是我试图实现的基本逻辑 event suspend d

随机推荐