Kaldi HCLG 深入理解

2023-11-08

1. 相关部分包含的主要任务

1.1 WFST Key Concepts

determinization
minimization
composition
equivalent
epsilon-free
functional
on-demand algorithm
weight-pushing
epsilon removal

1.2 HMM Key Concepts

Markov Chain
Hidden Markov Model
Forward-backward algorithm
Viterbi algorithm
E-M for mixture of Gaussians

2. HCLG

L.fst: The Phonetic Dictionary FST

L maps monophone sequences to words.

The file L.fst is the Finite State Transducer form of the lexicon with phone symbols on the input and word symbols on the output.

L_disambig.fst:The Phonetic Dictionary with Disambiguation Symbols FST

A lexicon with disambiguation symbols

G.fst:The Language Model FST

FSA grammar (can be built from an n-gram grammar).

C.fst:The Context FST

C maps triphone sequences to monophones.

Expands the phones into context-dependent phones.

H.fst:The HMM FST

H maps multiple HMM states (a.k.a. transition-ids in Kaldi-speak) to context-dependent triphones.

Expands out the HMMs. On the right are the context-dependent phones and on the left are the pdf-ids.

HCLG.fst: final graph

总结一下：

构图过程 G -> L -> C -> H

G: 作为 acceptor (输入 symbol 与输出相同)，用于对grammar 或者 language model 进行编码

L:Lexicon, 其输出 symbol 是 words, 输入 symbol 是 phones

C:context-dependency 其输出 symbol 是 phones, 其输入 symbol 为表示context-dependency phones

如： vector<int32> ctx_window = { 12, 15, 21 };

含义：id = 15 的 phone 为中心 phone, left phone id = 12, right phone id = 21

H: 包括HMM definitions,其输出 symbol 为 context-dependency phones, 其输入 symbol 为 transitions-ids(即对 pdf-id 和其它信息编码后的 id)

asl=="add-self-loops”

rds=="remove-disambiguation-symbols”,

and H' is H without the self-loops:

HCLG = asl(min(rds(det(H' o min(det(C o min(det(L o G))))))))

转自：http://blog.csdn.net/dearwind153/article/details/70053704

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

语音识别

Kaldi HCLG 深入理解的相关文章

【C#】.Net 腾讯云一句话识别【实例】

腾讯云一句话识别实例 using System using System Threading Tasks using TencentCloud Common using TencentCloud Common Profile using T
MFCC特征值详解

看了网上的很多MFCC 依然没能够学号MFCC 因此糊了一段时间详细的看了下MFCC的内容现在也算是对于MFCC有了更深入的理解了不管是语音识别还是其他的一系列的识别大体都分为三个步骤 1 输入信号的预处理2 特征值提取3 相关算法的识
【离线文本转语音文件】java spring boot jacob实现文字转语音文件，离线文本转化语音，中英文生成语音，文字朗读，中文生成声音，文字生成声音文件，文字转语音文件，文字变声音。

1 实现效果如下输入文字支持中英文点击转换生成 wav文件点击下载到本地就可生成后的音频文件播放时长1分8秒 2 实现代码这次采用jacob实现相比百度AI需要联网本项目定位内网环境实现所以最终采jacob 1 环境配置
cogmen: contextualized gnn based multimodal emotion recognition(2022)

cogmen 基于语境gnn的多模式情感识别摘要情感是人类互动的固有部分因此开发理解和识别人类情感的人工智能系统势在必行在涉及不同人群的对话中一个人的情绪受到另一个说话者的话语以及他们自己在话语中的情绪状态的影响在本文中我们
前端实现语音播放

0 Web Speech API Web Speech API 使您能够将语音数据合并到 Web 应用程序中 Web Speech API 有两个部分 SpeechSynthesis 语音合成文本到语音 TTS 和 SpeechRecog
GMM-HMM在语音识别中的应用

1 语音识别系统的基本结构 2 涉及算法 3 GMM高斯混合模型 3 1高斯混合模型的基本概念高斯混合模型是指具有如下形式的概率分布模型 p y k 1k k y k p y arrowvert theta sum k 1 k alpha
语音识别入门 --各个模型的整理

语音识别入门前期知识储备结构图语音特征提取各个模型的尝试 ASRT DeepSpeechRecognition end2end chinese speech recognition Wenet whisper 语音纠错 TTS 文本
Java文字转语音

注意只能在windows上使用 import com jacob activeX ActiveXComponent import com jacob com Dispatch import com jacob com Variant 文字
【C#实现文字转语音功能】

本文实例为大家分享了C 实现文字转语音的具体代码供大家参考具体内容如下客户提出要求将文字内容转为语音因为内网环境没办法采用联网在线这种方式灵机一动能否写一个简单的例子呢搜索相关资料还真行话不多说有图有真相关键是 c
微软晓晓朗读录音工具windows-文字转语音

微软Edge的大声朗读功能大家都用过吧这个功能非常好用但是美中不足的是它不能保存语音文件所以就有大神提取了edge的功能和接口作了这个软件使用很简单直接输入文字然后点击朗读软件就会识别文字然后自动播放语音在下方的设置
ICLR 2023

PaperWeekly 原创作者黄融杰单位浙江大学研究方向语音翻译语音到语音翻译 S2ST 对于打破语言壁垒与沟通障碍非常有益传统的 S2ST 系统通常由语音识别 ASR 机器翻译 MT 和语音合成 TTS 三部分组成与这
路由协议—基于深度路由协议DBR: Depth-Based Routing for Underwater Sensor Networks

初稿标题 0 标题 1 标题 2 3 基于深度路由协议Depth Based Routing Protocol 在这一章节中我们详细介绍了DBR路由协议 3 1 网络架构如前所述 DBR是可以有效利用多接收器的水下传感器网络架构图1
2023 年最常见的人工智能面试问题

人工智能面试问题自从我们意识到人工智能如何对市场产生积极影响以来几乎每个大型企业都在寻找人工智能专业人士来帮助他们实现愿景在这个人工智能面试问题博客中我收集了面试官最常问的问题人工智能 AI 面试问答人工智能面试准备此 Edu
一个将XM音频导入小宇宙的工具

这个喜马拉雅语音导出工具能够帮助你导出喜马拉雅中的音频节目下载后的音频文件可以复制到小宇宙设备文件夹里面这样我们就可以用小宇宙播放我们导入的音频文件啦 windows电脑版 https jscs lanzouw com imVZ40
《Graph Neural Networks Foundations,Frontiers and Applications》第一部分第一章第1.2.2节翻译和解读

书名 Graph Neural Networks Foundations Frontiers and Applications 图神经网络的基础前沿和应用出版社 Springer Berlin Heidelberg 作者 Lingfei
求救，在频域分析语音信号谐波成分的方法有哪些

求救在频域分析语音信号谐波成分的方法有哪些有一段语音信号经过FFT之后变换到频域目前想在频域分析其谐波成分并找到谐波能量最大的K次谐波 matlab里可以用仿真powergui生成仿真的信号然后FFT分析得到各谐波成分及能量但
iOS系统语音识别

iOS10语音识别框架Speech 项目中用到语音识别功能这里简单的进行了一下封装大概实现了系统语音识别的功能还没测试应该会有很多坑语音识别功能封装系统的语音识别外部语音输入实现语音转文字功能项目地址 https gith
利用百度AI 合成语音2

文字合成语音 coding UTF 8 from aip import AipSpeech from playsound import playsound 你的 APPID AK SK APP ID 20232679 API KEY bZc
基于MATLAB GUI的LSB语音信号数字水印

基于MATLAB GUI的LSB语音信号数字水印数字水印是一种在数字媒体中嵌入信息的技术它可以用于版权保护身份验证以及数据完整性验证等应用在本文中我们将介绍如何使用MATLAB GUI和最低有效位 Least Significan
python离线语音转文字

1 安装SpeechRecognition第三方库 pip install SpeechRecognition 2 安装pocketsphinx第三方库安装时可能会报错error command swig exe failed No s

随机推荐

Java复制文件夹及文件到指定位置

Java实现复制文件夹及文件思路 1 首先创建一个复制文件夹的方法复制文件夹并做判断 2 其次是创建一个复制文件夹中文件的方法首先复制文件夹判断是否是文件夹再判断是否存在不存在的要创建复制文件夹 param file 原文件夹
wazuh-app RESTful API归纳总结

Active Response 动态入侵规避指定终端发送可执行命令进行终端控制或检测 PUT active response agent id Agent 模块 agent的添加与删除 POST agents POST agents
怎么把图片转换成表格？这三种办法值得收藏

不知道大家有没有遇到过领导或者同事需要你帮忙处理excel 但却是用截图的方式发送过来的如果我们根据图片重新制作一份excel 实在是有些费时费力其实我们可以使用一些软件就能够实现图片转excel 那怎么把手机图片转excel表格呢
2022年陕西省中等职业学校技能大赛网络搭建与应用赛项《服务器配置及应用竞赛报告单》

2022年陕西省中等职业学校技能大赛网络搭建与应用赛项服务器配置及应用竞赛报告单网络搭建与应用赛项执委会及专家组 2022年5月20月
爬虫 — Js 逆向案例三凡科网登录

目标网站 https i fkw com ta 3 需求找到密码加密的过程进行加密案例分析 1 抓到向服务器发请求的数据包输入错误的账号和密码测试密码可以输入123456 如果发现加密后的密码为 e10adc3949ba59abb
顺序表中的查找，插入，删除操作

已知一个顺序表L 其中的元素递增有序排列 1 查找第一个值等于e的元素并返回其下标 int findElem Sqlist L int e int i for i 0 i
闭环系统的零极点图判定稳定性_控制系统的稳性分析.ppt

控制系统的稳性分析当特征方程的根均为负实根或实部为负的共轭复根时系统稳定先假设K的大致范围利用roots 函数计算这些K值下特征方程的根然后判断根的位置以确定系统稳定时K的取值范围程序如下 k 0 0 01 100 for in
软件设计模块之间7种耦合关系

一般来说模块之间的耦合有七种类型 1 根据耦合性从低到高为非直接耦合数据耦合标记耦合控制耦合外部耦合公共耦合和内容耦合 2 两个模块之间没有直接关系它们之间的联系完全是通过主模块的控制和调用实现的这种耦合为非直接耦合 3
抖音快手短视频推广方式

之前的快手短视频主要集中在三四线城市以及农村等消费力不强的用户群体上没能有力的抓住主流用户的眼光如今在一二线城市大放异彩的抖音短视频让厂商们再也无法无视短视频对于用户的吸引力有了短视频这一全新渠道怎么更为有效的利用渠道成了各级厂商新
Ubuntu16.04 + Titan XP + cuda8.0 + cudnn5.1 + opencv3.3.0 + caffe

1 安装Ubuntu16 04 制作一个启动盘之后BIOS切换到U盘启动就好辣跟着提示走需要注意的是安装系统的时候不能插网线否则界面会在选择时区那里一直循环 2 NVIDIA显卡驱动如果直接添加源然后sudo apt get ins
17种安全native反调试收集

这个资料是我去年刚接触安卓安全时整理的 90 的反调试都有基本收集全了实际还少3种大部分方法是收集的网络上的资料来自于 1 Anti debugging Skills in APK wooyun 2 Android逃逸技术汇编 36
poj 3278 Catch That Cow bfs+注意范围

题错了好几次分别是 RE 运行时错误因为访问了下标为 1的数组定位在搜索 1方向的条件 MLE 内存超限 q push没有筛选重复的都放进去就会MLE WA 忘记多组样例了注意为了防止2的数字太大要有if temp n lt
PHPStorm更改为Apache服务端口，及修改默认的网站目录为PHPStorm的工作目录

由于最近在学习PHP 当提交表单表单时总是无法正确找到对应页面搜索了半天有人说不要用它内置的服务器也就是将默认的服务器改为Apache服务器的端口 1 更改为Apache的服务器端口 File Settings 选择Build Ex
Linux Mint Qt5 开发环境搭建

这篇文章原本是我的老师要求写的他老人家要求要百分之百详细所以步骤都写的非常详细适合新手参考 1 下载 Qt5 离线安装包下载地址 http www qt io download open source 进入后请注意页面最下方有个
DB2 静态 SQL 和动态 SQL 的比较与实践

转自 http www ibm com developerworks cn data library techarticles dm 0910yangxh index html ca drs cn 1026 引言 SQL 语言作为标准的查询
Django(三)接口自动化平台HttpRunnerManager(1)本地部署

前言本章主要讲述HttpRunnerManager本地部署我这里本地是Windows 所以我就在windows下面搭建了环境 mysql 5 7 django 2 0 3 python 3 6 8 一 HttpRunnerManage
解决phpstudy mysql 启动不了的问题

1 端口监测查看3306 的端口是否被占用如占用停止进程 2 服务没有启动因为学习python 我把phpstudy的mysql升级到了mysql8 0 sc delete mysql 删除已经注册的mysql服务期间升级mysq
微软官网操作系统下载方法

首先打开百度官网 https www baidu com 然后在输入框中输入微软官网下载win7 后回车即可这里以下载win7为例其他操作系统下载方法与其一致接着在页面中寻找网站开头地址为微软官网地址 https www mi
正高职称相当于公务员的什么级别？为什么有人说评上正高就值了

事业编分为管理岗和专技岗正高级职称就是专技岗的一种专技岗分为初级岗中级岗和高级岗其中高级职称又分为副高和正高正高级职称相当于公务员中的正处级也就是大家常说的正县级正高级职称分为四级正高一级正高二级正高三级和正高四级正高
Kaldi HCLG 深入理解

1 相关部分包含的主要任务 1 1 WFST Key Concepts determinization minimization composition equivalent epsilon free functional on deman

热门标签