Kaldi 入门详解

2023-11-08

train_mono.sh 是音素训练脚本，下面详细介绍各个功能：

这部分是训练用参数，调用mono.sh时可以通过 –name value的方式改变这些参数.

nj=4   并行个数
cmd=run.pl   处理程序
scale_opts="--transition-scale=1.0 --acoustic-scale=0.1 --self-loop-scale=0.1"
num_iters=40     **  Number of iterations of training  训练循环次数
max_iter_inc=30  **  Last iter to increase  ** Gauss on.  每个循环里增加的高斯数
totgauss=1000  **  Target  ** Gaussians.   总高斯数（可能难理解，但可以这么解释：比如有3状态HMM，每个状态用4组均值方差描述(GMM混合数是4个意思)，那总共用了12个高斯，kaldi里不用具体指定GMM个数，而指定整个系统中总共需要多少个单高斯）
careful=false
boost_silence=1.0  **  Factor by which to boost silence likelihoods in alignment
realign_iters="1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 23 26 29 32 35 38";  循环到这个数时做对其
config=  **  name of config file. 
stage=-4  
power=0.25  **  exponent to determine number of gaussians from occurrence counts
norm_vars=false  **  deprecated, prefer --cmvn-opts "--norm-vars=false"
cmvn_opts=   **  can be used to add extra options to cmvn.
 **  End configuration section.

echo "$0 $@"   **  Print the command line for logging

- - name value 参数处理

if [ -f path.sh ]; then . ./path.sh; fi
. parse_options.sh || exit 1;

* - -name 以外的参数必须有3个，否则报错*

if [ $ **  != 3 ]; then
  echo "Usage: steps/train_mono.sh [options] <data-dir> <lang-dir> <exp-dir>"
  echo " e.g.: steps/train_mono.sh data/train.1k data/lang exp/mono"
  echo "main options (for others, see top of script file)"
  echo "  --config <config-file>                            **  config containing options"
  echo "  --nj <nj>                                         **  number of parallel jobs"
  echo "  --cmd (utils/run.pl|utils/queue.pl <queue opts>)  **  how to run jobs."
  exit 1;
fi

data=$1  ** 第一个参数是训练数据所在的目录 ** 
lang=$2 ** 第二个参数是语言模型所在的目录 ** 
dir=$3   ** 第一个参数是日志和最终目标文件输出目录 ** 

oov_sym=`cat $lang/oov.int` || exit 1;

* 训练数据根据–nj 参数分割，用于并行处理 *

mkdir -p $dir/log
echo $nj > $dir/num_jobs
sdata=$data/split$nj;
[[ -d $sdata && $data/feats.scp -ot $sdata ]] || split_data.sh $data $nj || exit 1;


$norm_vars && cmvn_opts="--norm-vars=true $cmvn_opts"
echo $cmvn_opts  > $dir/cmvn_opts  **  keep track of options to CMVN.

**这里可能第一个难理解的地方，但仔细分析也不难
首先这个是一个feats变量定义，这个变量作为后续其他命令的参数，这个主要处理特征数据的。
这里用到了两个kaldi函数，apply-cmvn 和 add-deltas
apply-cmvn 的输入3个文件：
–utt2spk=ark: sd

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

语音识别

Kaldi 入门详解的相关文章

MFCC特征值详解

看了网上的很多MFCC 依然没能够学号MFCC 因此糊了一段时间详细的看了下MFCC的内容现在也算是对于MFCC有了更深入的理解了不管是语音识别还是其他的一系列的识别大体都分为三个步骤 1 输入信号的预处理2 特征值提取3 相关算法的识
人工智能交互革命：探索ChatGPT的无限可能第4章 ChatGPT-智能客服

第4章ChatGPT 智能客服 4 1智能客服的定义与发展智能客服是一种利用人工智能技术为客户提供在线服务和支持的解决方案它能够通过自然语言处理机器学习等技术识别和理解客户的问题并提供针对性的解决方案智能客服可以通过多种渠道提
调用百度云API实现语音识别

一在云平台创建语音技术应用 1 点击百度AI平台短语音识别https ai baidu com tech speech asr 登录百度云账号 2 新用户注册完百度智能云平台后需要在语音技术概览页面领取语音识别的免费额度否则后续
文本转语音的接口（开放免费）

百度的开放转换接口 http tts baidu com text2audio lan zh ie UTF 8 spd 4 text 你好啊听起来好憨啊 lan 语言类型 lan en 英文 lan zh 中文 ie 文字编码方式 spd
机器学习算法（二十三）：DTW（Dynamic Time Warping，动态时间调整）

目录 1 DTW 动态时间调整 2 算法的实现 3 例子 4 python实现 5 DTW的加速算法FastDTW 5 1 标准DTW算法 5 2 DTW常用加速手段 5 3 FastDTW 1 DTW 动态时间调整动态时间调整算法是大多
Audacity如何改变音频节奏？Audacity调整音频节奏方法

很多人在录完音频后都会试听效果经常会发现音频的节奏要么太快要么太慢可是自己又不愿意花时间花人力物力再去录制音频为了解决这问题我们可以用Audacity改变音频的节奏加快或者减慢某个音频片段或者整个音频的节奏只是很多人不懂怎
不限次数的chatGPT

不说废话直接看方法不用翻墙开干第一步打开电脑的Edge浏览器就是windows系统的默认浏览器搜索wetab 点击如下的官方链接就会进入安装插件界面第二步点击chat AI就会弹出这个弹窗点击安装教程按钮第三步来到
cogmen: contextualized gnn based multimodal emotion recognition(2022)

cogmen 基于语境gnn的多模式情感识别摘要情感是人类互动的固有部分因此开发理解和识别人类情感的人工智能系统势在必行在涉及不同人群的对话中一个人的情绪受到另一个说话者的话语以及他们自己在话语中的情绪状态的影响在本文中我们
华为太长脸了，扔出“3张王炸”！再次颠覆互联网行业

8月29日在没有任何预告任何发布会的情况下华为扔出一张王炸华为新手机Mate60pro开售 9月8日华为废话不多说再次扔出王炸牌 Mate60 Pro MateX5开启预订一经开抢卖到断货就在刚刚华为AITO问界新
Java文字转语音

注意只能在windows上使用 import com jacob activeX ActiveXComponent import com jacob com Dispatch import com jacob com Variant 文字
Kaldi数据下载很慢

运行kaldi 的run sh文件时数据集在openslr上数据集比较大例如aishell 总共15G 国内网络情况下下载比较慢 1 修改为国内地址例如 aishell 默认的run sh里写的是www openslr org re
HTK语音识别中的决策树

1 为什么需要决策树我们在使用HTK进行语音识别模型训练的过程中首先进行的是单音素单个高斯的模型训练抛开单个高斯不说单音素模型本身有很大缺点没有考虑到本音素前后音素的发音对本音素的影响比如同样是一个音素iy 如果它前面的音素
ICLR 2023

PaperWeekly 原创作者黄融杰单位浙江大学研究方向语音翻译语音到语音翻译 S2ST 对于打破语言壁垒与沟通障碍非常有益传统的 S2ST 系统通常由语音识别 ASR 机器翻译 MT 和语音合成 TTS 三部分组成与这
语音编码: G.711A/U law, G.723.1, G.729A/B的区别

G 711A U law G 723 1和G 729A B是常见的语音编码标准用于将模拟语音信号转换为数字信号进行传输或存储它们分别由ITU T 国际电信联盟电信标准化部门定义 G 711A U law G 711是ITU T定义的
人脸识别解决方案全套文件大合集，120份全新精选，有这个就够了

人脸识别解决方案全套文件大合集 120份全新精选有这个就够了一人脸识别4个特点二人脸识别的 4 个步骤三人脸识别的 5 个难点四人脸识别算法的发展轨迹五人脸识别的典型应用六下载人脸识别全套解决方案一人脸识别4个
腾讯智影+IDM进行数字人制作（无限使用）

腾讯智影 IDM进行数字人制作无限使用首先确保您电脑上有windows自带的Edge浏览器安装IDM下载工具 IDM 安装到浏览器扩展下载IDM使用工具链接 https pan baidu com s 1iARibnICpbnOR
iOS系统语音识别

iOS10语音识别框架Speech 项目中用到语音识别功能这里简单的进行了一下封装大概实现了系统语音识别的功能还没测试应该会有很多坑语音识别功能封装系统的语音识别外部语音输入实现语音转文字功能项目地址 https gith
基于MATLAB GUI的LSB语音信号数字水印

基于MATLAB GUI的LSB语音信号数字水印数字水印是一种在数字媒体中嵌入信息的技术它可以用于版权保护身份验证以及数据完整性验证等应用在本文中我们将介绍如何使用MATLAB GUI和最低有效位 Least Significan
python离线语音转文字

1 安装SpeechRecognition第三方库 pip install SpeechRecognition 2 安装pocketsphinx第三方库安装时可能会报错error command swig exe failed No s
个性化语音生成：五种基于Python的方法

引言随着人工智能技术的不断发展语音生成已经成为一个热门的研究领域个性化语音生成技术可以根据用户的需求和特点生成具有高度相似度的语音广泛应用于语音助手虚拟人物语音合成等领域本文将介绍五种基于Python的个性化语音生成方法包

随机推荐

帝国cms发送ajax请求,[分享]美化ajax弹出的提示信息

前台页面只需要在内容模板里面加上这两个文件然后再修改一下 e data js ajax js var http request false function makeRequest url functionName httpType
收藏学习！15个使用率超高的Python库

今天给大家分享最近一年内PyPI上下载量最高的Python包现在我们来看看这些包的作用他们之间的关系以及为什么如此流行 1 Urllib3 8 93亿次下载 Urllib3 是 Python 的 HTTP 客户端它提供了许多 Pyt
Keil 5出现Error: L6218E: Undefined symbol解决方法

目录 1 找到相关未定义函数选中然后右击 GO TO Reference To ADC Cmd 2 发现该函数在stm32f10x adc h中 3 可以看到右边fwlib里没有相应 c文件我们添加上 4 右击选择manage pro
HTML怎么插入一段代码

之前学习了点HTML的基础知识在工作中给别人发邮件的时候使用HTML插入超链接这回需要插入一段代码块语法 pre pre 将需要传入的代码放在 pre 和 pre 之间就可以了浏览器自动识别示例 p 这是一段代码块 p pre
linux查看内存占用情况（top、free、ps）

top命令 top命令是Linux下常用的性能分析工具能够实时显示系统中各个进程的资源占用状况类似于Windows的任务管理器运行 top 命令后 CPU 使用状态会以全屏的方式显示并且会处在对话的模式用基于 top 的命令可以
Embedded Linux Conference Europe schedule posted

From http linuxgizmos com embedded linux conference europe schedule posted The Linux Foundation posted a schedule for Li
2023 年程序员的最佳工作角色

当今价值数十亿美元的计算机编程市场正受到下一代应用程序和产品的日益普及的推动例如自动编码统计计算数据分析 ML 机器学习和 AI 人工智能根据MarketsandMarkets的一项研究到11年全球CAC 计算机辅助编码行业
Redis三种集群架构

一主从架构搭建主从结构从节点配置步骤 1 复制一份redis conf文件 2 将相关配置修改为如下值 port 6380 pidfile var run redis 6380 pid 把pid进程号写入pidfile配置的文件 lo
统计学第九周：参数估计python实现

统计学第九周参数估计复习参数估计根据从总体中随机取样获得样本根据取样样本来估计总体分布中参数的过程方法估计形式上分点估计与区间估计估计的方法有矩法估计最小二乘法估计似然估计贝叶斯估计等等问题一般有未知参数的估计量
期货方法（期货方法很简单只用MACD）

期货法在期货市场上 95 的人都是赔钱的对于期货市场的新手来说一定要有一个清晰的认识 95 的数字告诉我们什么它只是告诉我们在获得稳定的利润之前我们不应该投入太多的钱对于初学者来说投入的钱越多损失的钱就越多所以一定要控制
渗透之Aircrack—wifi破解

环境 kali 工具使用无线网卡型号雷凌RT3070L 注意型号选择的使用不同型号可能导致kali无法识别步骤总结 1 kali连接外接无线网卡 2 ifconfig查看网卡信息新出现的wlan0网卡 3 开启网卡监听模式 air
实践积累：用Vue3简单写一个单行横向滚动组件

目录效果图需求分析实现分析样式展示分析变量分析方法分析实现步骤 1 实现模板 2 实现css 3 首先获取list 4 页面挂载后监听groupBoxRef的scroll事件并获取当前的滚动位置 5 计算展示的宽度显隐箭头当
讲透JVM类加载机制，向高手进阶！

目录前言 JVM在什么情况下会加载一个类从实用角度出发来看看验证准备和初始化的过程核心阶段初始化类加载器和双亲委派机制 1 前言先来看一下JVM整体的一个运行原理我们首先从 java 代码文件编译成 class 字节码文
运放的虚短和虚断以及分类

放大器定义能实现信号功率放大的器件称为放大器英文为Amplifier 以放大器为核心能实现放大功能的电路组合称为放大电路放大器的种类全部放大器被分为三种晶体管放大器运算放大器和功能放大器晶体管及其放大电路的复杂从静态
哈希表（散列表）原理详解

什么是哈希表哈希表 Hash table 也叫散列表是根据关键码值 Key value 而直接进行访问的数据结构也就是说它通过把关键码值映射到表中一个位置来访问记录以加快查找的速度这个映射函数叫做散列函数存放记录的数组叫做散列
华中科技大学操作系统实验课实验四

一实验目的 1 理解设备是文件的概念 2 掌握Linux模块驱动的概念和编程流程 3 Windows Linux下掌握文件读写基本操作二实验内容 1 编写一个Linux内核模块并完成模块的安装卸载等操作 2 编写Linux驱动程
MySQL多表查询(8.0)

文章目录多表查询 1 多表关系 1 1 一对多 1 2 多对多 1 3 一对一 2 多表查询概述 2 1 数据准备 2 2 概述 2 3 分类 3 内连接 4 外连接 5 自连接 5 1 自连接查询 5 2 联合查询 6 子查询 6 1
chatGLM-Windows环境安装

Windows系统下环境安装一概要不同安装方式安装python 安装Nvidia驱动安装cuda与cuddn 安装PyTorch与TensorFlow 二安装文件百度网盘链接 https pan baidu com s 1lb
Prometheus部分监控项

Metrics Chinese explanation English explanation node arp entries device的ARP表项 HELP node arp entries ARP entries by devic
Kaldi 入门详解

train mono sh 是音素训练脚本下面详细介绍各个功能这部分是训练用参数调用mono sh时可以通过 name value的方式改变这些参数 nj 4 并行个数 cmd run pl 处理程序 scale opts trans

Kaldi 入门详解

train_mono.sh 是音素训练脚本，下面详细介绍各个功能：

Kaldi 入门详解 的相关文章

随机推荐

热门标签

Kaldi 入门详解的相关文章