Kaldi HCLG 深入理解

2023-11-08

1. 相关部分包含的主要任务


1.1 WFST Key Concepts

  1. determinization
  2. minimization
  3. composition
  4. equivalent
  5. epsilon-free
  6. functional
  7. on-demand algorithm
  8. weight-pushing
  9. epsilon removal

1.2 HMM Key Concepts

  1. Markov Chain
  2. Hidden Markov Model
  3. Forward-backward algorithm
  4. Viterbi algorithm
  5. E-M for mixture of Gaussians
2. HCLG
L.fst: The Phonetic Dictionary FST
maps monophone sequences to words.
The file L.fst is the Finite State Transducer form of the lexicon with phone symbols on the input and word symbols on the output.
L_disambig.fst:The Phonetic Dictionary with Disambiguation Symbols FST

A lexicon with disambiguation symbols


G.fst:The Language Model FST

FSA grammar (can be built from an n-gram grammar).


C.fst:The Context FST

C maps triphone sequences to monophones.

Expands the phones into context-dependent phones.


H.fst:The HMM FST

H maps multiple HMM states (a.k.a. transition-ids in Kaldi-speak) to context-dependent triphones.

Expands out the HMMs. On the right are the context-dependent phones and on the left are the pdf-ids. 


HCLG.fst: final graph




总结一下:


构图过程 G -> L -> C -> H
          G: 作为 acceptor (输入 symbol 与输出相同),用于对grammar 或者 language model 进行编码
          L:Lexicon, 其输出 symbol 是 words, 输入 symbol 是 phones
          C:context-dependency 其输出 symbol 是 phones, 其输入 symbol 为表示context-dependency phones
              如: vector<int32> ctx_window = { 12, 15, 21 };
                      含义:id = 15 的 phone 为 中心 phone, left phone id = 12, right phone id = 21
          H: 包括HMM definitions,其输出 symbol 为 context-dependency phones, 其输入 symbol 为 transitions-ids(即 对 pdf-id 和 其它信息编码后的 id) 
 
            asl=="add-self-loops” 
          rds=="remove-disambiguation-symbols”, 
          and H' is H without the self-loops:
          HCLG = asl(min(rds(det(H' o min(det(C o min(det(L o G))))))))

转自:http://blog.csdn.net/dearwind153/article/details/70053704

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Kaldi HCLG 深入理解 的相关文章

  • 【C#】.Net 腾讯云一句话识别 【实例】

    腾讯云一句话识别实例 using System using System Threading Tasks using TencentCloud Common using TencentCloud Common Profile using T
  • MFCC特征值详解

    看了网上的很多MFCC 依然没能够学号MFCC 因此糊了一段时间详细的看了下MFCC的内容 现在也算是对于MFCC有了更深入的理解了 不管是语音识别还是其他的一系列的识别大体都分为三个步骤 1 输入信号的预处理2 特征值提取3 相关算法的识
  • 【离线文本转语音文件】java spring boot jacob实现文字转语音文件,离线文本转化语音,中英文生成语音,文字朗读,中文生成声音,文字生成声音文件,文字转语音文件,文字变声音。

    1 实现效果如下 输入文字 支持中英文 点击转换生成 wav文件 点击下载到本地就可 生成后的音频文件播放 时长1分8秒 2 实现代码 这次采用jacob实现 相比百度AI需要联网 本项目定位内网环境实现 所以最终采jacob 1 环境配置
  • cogmen: contextualized gnn based multimodal emotion recognition(2022)

    cogmen 基于语境gnn的多模式情感识别 摘要 情感是人类互动的固有部分 因此 开发理解和识别人类情感的人工智能系统势在必行 在涉及不同人群的对话中 一个人的情绪受到另一个说话者的话语以及他们自己在话语中的情绪状态的影响 在本文中 我们
  • 前端实现语音播放

    0 Web Speech API Web Speech API 使您能够将语音数据合并到 Web 应用程序中 Web Speech API 有两个部分 SpeechSynthesis 语音合成 文本到语音 TTS 和 SpeechRecog
  • GMM-HMM在语音识别中的应用

    1 语音识别系统的基本结构 2 涉及算法 3 GMM高斯混合模型 3 1高斯混合模型的基本概念 高斯混合模型是指具有如下形式的概率分布模型 p y k 1k k y k p y arrowvert theta sum k 1 k alpha
  • 语音识别入门 --各个模型的整理

    语音识别入门 前期知识储备 结构图 语音特征提取 各个模型的尝试 ASRT DeepSpeechRecognition end2end chinese speech recognition Wenet whisper 语音纠错 TTS 文本
  • Java文字转语音

    注意 只能在windows上使用 import com jacob activeX ActiveXComponent import com jacob com Dispatch import com jacob com Variant 文字
  • 【C#实现文字转语音功能】

    本文实例为大家分享了C 实现文字转语音的具体代码 供大家参考 具体内容如下 客户提出要求 将文字内容转为语音 因为内网环境 没办法采用联网 在线这种方式 灵机一动 能否写一个简单的例子呢 搜索相关资料还真行 话不多说 有图有真相 关键是 c
  • 微软晓晓朗读录音工具windows-文字转语音

    微软Edge的 大声朗读 功能大家都用过吧 这个功能非常好用 但是美中不足的是它不能保存语音文件 所以就有大神提取了edge的功能和接口作了这个软件 使用很简单 直接输入文字 然后点击 朗读 软件就会识别文字 然后自动播放语音 在下方的设置
  • ICLR 2023

    PaperWeekly 原创 作者 黄融杰 单位 浙江大学 研究方向 语音翻译 语音到语音翻译 S2ST 对于打破语言壁垒与沟通障碍非常有益 传统的 S2ST 系统通常由语音识别 ASR 机器翻译 MT 和语音合成 TTS 三部分组成 与这
  • 路由协议—基于深度路由协议DBR: Depth-Based Routing for Underwater Sensor Networks

    初稿 标题 0 标题 1 标题 2 3 基于深度路由协议Depth Based Routing Protocol 在这一章节中 我们详细介绍了DBR路由协议 3 1 网络架构 如前所述 DBR是可以有效利用多接收器的水下传感器网络架构 图1
  • 2023 年最常见的人工智能面试问题

    人工智能面试问题 自从我们意识到人工智能如何对市场产生积极影响以来 几乎每个大型企业都在寻找人工智能专业人士来帮助他们实现愿景 在这个人工智能面试问题博客中 我收集了面试官最常问的问题 人工智能 AI 面试问答 人工智能面试准备 此 Edu
  • 一个将XM音频导入小宇宙的工具

    这个喜马拉雅语音导出工具 能够帮助你导出喜马拉雅中的音频节目 下载后的音频文件 可以复制到小宇宙设备文件夹里面 这样我们就可以用小宇宙播放我们导入的音频文件啦 windows电脑版 https jscs lanzouw com imVZ40
  • 《Graph Neural Networks Foundations,Frontiers and Applications》第一部分第一章第1.2.2节翻译和解读

    书名 Graph Neural Networks Foundations Frontiers and Applications 图神经网络的基础 前沿和应用 出版社 Springer Berlin Heidelberg 作者 Lingfei
  • 求救,在频域分析语音信号谐波成分的方法有哪些

    求救 在频域分析语音信号谐波成分的方法有哪些 有一段语音信号 经过FFT之后变换到频域 目前想在频域分析其谐波成分 并找到谐波能量最大的K次谐波 matlab里可以用仿真powergui生成仿真的信号 然后FFT分析得到各谐波成分及能量 但
  • iOS系统语音识别

    iOS10语音识别框架Speech 项目中用到语音识别功能 这里简单的进行了一下封装 大概实现了系统语音识别的功能 还没测试 应该会有很多坑 语音识别功能封装 系统的语音识别 外部语音输入 实现语音转文字功能 项目地址 https gith
  • 利用百度AI 合成语音2

    文字合成语音 coding UTF 8 from aip import AipSpeech from playsound import playsound 你的 APPID AK SK APP ID 20232679 API KEY bZc
  • 基于MATLAB GUI的LSB语音信号数字水印

    基于MATLAB GUI的LSB语音信号数字水印 数字水印是一种在数字媒体中嵌入信息的技术 它可以用于版权保护 身份验证以及数据完整性验证等应用 在本文中 我们将介绍如何使用MATLAB GUI和最低有效位 Least Significan
  • python离线语音转文字

    1 安装SpeechRecognition第三方库 pip install SpeechRecognition 2 安装pocketsphinx第三方库 安装时 可能会报错error command swig exe failed No s

随机推荐

  • Java复制文件夹及文件到指定位置

    Java实现复制文件夹及文件 思路 1 首先创建一个复制文件夹的方法 复制文件夹并做判断 2 其次是创建一个复制文件夹中文件的方法 首先复制文件夹 判断是否是文件夹 再判断是否存在 不存在的要创建 复制文件夹 param file 原文件夹
  • wazuh-app RESTful API归纳总结

    Active Response 动态入侵规避 指定终端 发送可执行命令 进行终端控制或检测 PUT active response agent id Agent 模块 agent的添加与删除 POST agents POST agents
  • 怎么把图片转换成表格?这三种办法值得收藏

    不知道大家有没有遇到过 领导或者同事需要你帮忙处理excel 但却是用截图的方式发送过来的 如果我们根据图片重新制作一份excel 实在是有些费时费力 其实我们可以使用一些软件 就能够实现图片转excel 那怎么把手机图片转excel表格呢
  • 2022年陕西省中等职业学校技能大赛网络搭建与应用赛项《 服务器配置及应用竞赛报告单 》

    2022年陕西省中等职业学校技能大赛 网络搭建与应用赛项 服务器配置及应用竞赛报告单 网络搭建与应用赛项执委会及专家组 2022年5月20月
  • 爬虫 — Js 逆向案例三凡科网登录

    目标网站 https i fkw com ta 3 需求 找到密码加密的过程 进行加密 案例分析 1 抓到向服务器发请求的数据包 输入错误的账号和密码 测试密码可以输入123456 如果发现加密后的密码为 e10adc3949ba59abb
  • 顺序表中的查找,插入,删除操作

    已知一个顺序表L 其中的元素递增有序排列 1 查找第一个值等于e的元素 并返回其下标 int findElem Sqlist L int e int i for i 0 i
  • 闭环系统的零极点图判定稳定性_控制系统的稳性分析.ppt

    控制系统的稳性分析 当特征方程的根均为负实根或实部为负的共轭复根时 系统稳定 先假设K的大致范围 利用roots 函数计算这些K值下特征方程的根 然后判断根的位置以确定系统稳定时K的取值范围 程序如下 k 0 0 01 100 for in
  • 软件设计模块之间7种耦合关系

    一般来说 模块之间的耦合有七种类型 1 根据耦合性从低到高为非直接耦合 数据耦合 标记耦合 控制耦合 外部耦合 公共耦合和内容耦合 2 两个模块之间没有直接关系 它们之间的联系完全是通过主模块的控制和调用实现的 这种耦合为 非直接耦合 3
  • 抖音快手短视频推广方式

    之前的快手短视频主要集中在三四线城市以及农村等消费力不强的用户群体上 没能有力的抓住主流用户的眼光 如今在一二线城市大放异彩的抖音短视频让厂商们再也无法无视短视频对于用户的吸引力 有了短视频这一全新渠道 怎么更为有效的利用渠道成了各级厂商新
  • Ubuntu16.04 + Titan XP + cuda8.0 + cudnn5.1 + opencv3.3.0 + caffe

    1 安装Ubuntu16 04 制作一个启动盘之后BIOS切换到U盘启动就好辣 跟着提示走 需要注意的是安装系统的时候不能插网线 否则界面会在选择时区那里一直循环 2 NVIDIA显卡驱动 如果直接添加源然后sudo apt get ins
  • 17种安全native反调试收集

    这个资料是我去年刚接触安卓安全时整理的 90 的反调试都有 基本收集全了 实际还少3种 大部分方法是收集的网络上的资料 来自于 1 Anti debugging Skills in APK wooyun 2 Android逃逸技术汇编 36
  • poj 3278 Catch That Cow bfs+注意范围

    题 错了好几次 分别是 RE 运行时错误 因为访问了下标为 1的数组 定位在搜索 1方向的条件 MLE 内存超限 q push没有筛选 重复的都放进去就会MLE WA 忘记多组样例了 注意 为了防止2的数字太大 要有if temp n lt
  • PHPStorm更改为Apache服务端口,及修改默认的网站目录为PHPStorm的工作目录

    由于最近在学习PHP 当提交表单表单时 总是无法正确找到对应页面 搜索了半天 有人说不要用它内置的服务器 也就是将默认的服务器改为Apache服务器的端口 1 更改为Apache的服务器端口 File Settings 选择Build Ex
  • Linux Mint Qt5 开发环境搭建

    这篇文章原本是我的老师要求写的 他老人家要求要百分之百详细 所以步骤都写的非常详细 适合新手参考 1 下载 Qt5 离线安装包 下载地址 http www qt io download open source 进入后 请注意页面最下方有个
  • DB2 静态 SQL 和动态 SQL 的比较与实践

    转自 http www ibm com developerworks cn data library techarticles dm 0910yangxh index html ca drs cn 1026 引言 SQL 语言作为标准的查询
  • Django(三)接口自动化平台HttpRunnerManager(1)本地部署

    前言 本章主要讲述HttpRunnerManager本地部署 我这里本地是Windows 所以我就在windows下面搭建了 环境 mysql 5 7 django 2 0 3 python 3 6 8 一 HttpRunnerManage
  • 解决phpstudy mysql 启动不了的问题

    1 端口监测 查看3306 的端口是否被占用 如占用 停止进程 2 服务没有启动 因为学习python 我把phpstudy的mysql升级到了mysql8 0 sc delete mysql 删除已经注册的mysql服务 期间升级mysq
  • 微软官网操作系统下载方法

    首先 打开百度官网 https www baidu com 然后 在输入框中输入 微软官网 下载win7 后回车即可 这里以下载win7为例其他操作系统下载方法与其一致 接着 在页面中寻找网站开头地址为微软官网地址 https www mi
  • 正高职称相当于公务员的什么级别?为什么有人说评上正高就值了

    事业编分为管理岗和专技岗 正高级职称就是专技岗的一种 专技岗分为初级岗 中级岗和高级岗 其中高级职称又分为副高和正高 正高级职称相当于公务员中的正处级 也就是大家常说的正县级 正高级职称分为四级 正高一级 正高二级 正高三级和正高四级 正高
  • Kaldi HCLG 深入理解

    1 相关部分包含的主要任务 1 1 WFST Key Concepts determinization minimization composition equivalent epsilon free functional on deman