TTS

2023-10-27

FastSpeech 基于 Transformer 的前馈网络，用于并行生成 TTS 梅尔谱图。 FastSpeech 模型与自回归 Transformer TTS 相比，梅尔谱图生成速度加快了 270 倍，端到端语音合成速度加快了 38 倍。

项目实现

docker cp LJSpeech-1.1.tar.bz2 torch_na:/workspace/FastSpeech/data

docker cp /home/elena/tts/waveglow_256channels_ljs_v2.pt torch_na:/workspace/FastSpeech/waveglow/pretrained_model

把下载的预训练模型改名为

waveglow_256channels.pt

解压文件当当前文件夹

unzip alignments.zip

然后运行preprocess.py

python preprocess.py

处理完数据后，开始进行训练

python train.py

（训练将近一周）训练后如图

训练后进行验证，先修改eval.py中的超参数 --step ,改为自己刚训练后的model_new文件夹下的checkpoint后面的数，如图

我的情况把默认0，改为768000，如下

if __name__ == "__main__":
    # Test
    WaveGlow = utils.get_WaveGlow()
    parser = argparse.ArgumentParser()
    parser.add_argument('--step', type=int, default=768000) #把默认0，改为768000，其他的不变
    parser.add_argument("--alpha", type=float, default=1.0)
    args = parser.parse_args()

然后再运行

python eval.py

(如果运行后出现错误，请参考Q&A2)

结果显示如图

生成俩种结果，一种是通过mel_spce,一种通过waveglow.

waveglow生成的效果更好，mel_space噪声比较大！

代码详解

preprocess.py ->对LJSpeech数据集进行预处理

		def preprocess_ljspeech(filename):
		    # LJSpeech 数据集作为输入路径
		    in_dir = filename
		    # mel 谱图输出路径为 ./mels ，若路径不存在则创建路径
		    out_dir = hp.mel_ground_truth
		    if not os.path.exists(out_dir):
		        os.makedirs(out_dir, exist_ok=True)
		    # 执行语音波形-mel谱图转换，并保存mel谱图，得到LJSpeech数据集语音文本列表
		    metadata = ljspeech.build_from_path(in_dir, out_dir)
		    # 将得到的语音文本列表写入磁盘
		    write_metadata(metadata, out_dir)
		
		    # 移动语音文本列表文件
		    shutil.move(os.path.join(hp.mel_ground_truth, "train.txt"),
		                os.path.join("data", "train.txt"))

hparams.py 模型的相关参数

# Mel
num_mels = 80
text_cleaners = ['english_cleaners']

# FastSpeech
vocab_size = 300
max_seq_len = 3000

encoder_dim = 256 #模型编码维度
encoder_n_layer = 4 #模型编码层数
encoder_head = 2 #模型头
encoder_conv1d_filter_size = 1024 #模型输出大小

decoder_dim = 256 #模型解码维度
decoder_n_layer = 4
decoder_head = 2
decoder_conv1d_filter_size = 1024

fft_conv1d_kernel = (9, 1)
fft_conv1d_padding = (4, 0) 

duration_predictor_filter_size = 256
duration_predictor_kernel_size = 3
dropout = 0.1

# Train
checkpoint_path = "./model_new"  #训练模型保存路径
logger_path = "./logger"  #训练日志保存路径
mel_ground_truth = "./mels" #
alignment_path = "./alignments"

batch_size = 32
epochs = 2000 
n_warm_up_step = 4000

learning_rate = 1e-3
weight_decay = 1e-6
grad_clip_thresh = 1.0
decay_step = [500000, 1000000, 2000000]

save_step = 3000
log_step = 5
clear_Time = 20

batch_expand_size = 32

疑问与解答 Q&A

1.为什么生成的梅普图(mel)是npy文件？

2.ModuleNotFoundError: No module named 'numba.decorators'

在运行验证模型时，出现模型错误，因为库版本错误。

卸载numba，然后安装 numba-0.48.0即可

pip install numba==0.48.0

参考文献

【1】GitHub - xcmyz/FastSpeech: The Implementation of FastSpeech based on pytorch.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Speech

生成模型

项目复现

语音识别

人工智能

TTS 的相关文章

AAAI 2024 一作讲者招募 | 持续报名中

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入我们诚挚地邀请您来AI TIME分享您发表在AAAI 2024的工作请您扫码填写以下问卷如内容合适我们将会与您沟通相关分享事宜 AAAI 2024预讲会计划时间 2024年1
毕业设计-基于深度学习的细菌微生物目标检测系统系统 YOLO python 目标检测人工智能卷积神经网络机器学习

目录前言设计思路一课题背景与意义二算法理论原理 2 1 CBAM模块 2 2 损失函数三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析实现效果图样例最后前言大四是整个大学期间最忙碌的时光一
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
socket网络编程几大模型？看看CHAT是如何回复的？

CHAT回复网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求不需
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
台积电再被坑，2纳米光刻机优先给Intel和三星，美国太霸道了

外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台三星获得3台台积电只能得到一台考虑到美国对ASML的强大影响力外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面自从2014年量产14纳米之
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建

随机推荐

还是搜索、索引的问题

搜索要弄清2个基本问题 1 要搜索出什么类型的entity 2 entity的哪个方面维度和关键词发生关联的一般来说可以有多个角度link到entity 一个entity支持多个索引可以从不同的column检索对于 web sear
elasticsearch ubuntu 安装

之前一直听说 Elasticsearch功能强大我今天安装了下到pypi里看了下并安装到虚拟环境中本以为它就是一个包呢所以试着用结果出问题了后来一看原来它也是分服务端可客户端的 pypi里的这个是客户端搭建很简单所以我
Qt Qstring字符串的查找、替换、切割操作

文章目录查找替换replace 字符串切割查找直接上代码 include
手把手教你使用simulink配合STM32CUBEMX （生成keil项目实战）

本文的作者在自学过程中发现该类资料的缺少以及前人叙述不够完善的情况下进行了本文的创作文章将一步一步的讲解如何使用simulink将F4的灯点亮更多的功能我们一起探索别的型号的 cpu 大家可以类比进行 1 首先是将MATLAB安装
模拟HashSet

package chain 单链表节点 Map中的Entry
国际版阿里云/腾讯云CDN装备运用教程：加快网站拜访速度

阿里云CDN装备运用教程加快网站拜访速度本文旨在为读者供给一个关于阿里云CDN的简要教程咱们将介绍阿里云CDN的基本概念资源加快过程同步资源设置以及与阿里云OSS目标存储的结合期望经过这篇教程读者能够更好地了解和利用阿里云CD
感知机

统计学习方法此书中将感知机模型讲解十分清楚并且推导了损失函数设计原理随机梯度下降方法求解参数详细解释了对偶问题求解方法及模型的收敛性笔者再次学习该模型后将自己的理解融入本文中从感知机模型损失函数设定计算策略算法流程这4
vue create is a Vue CLI 3 only command and you are using Vue CLI 2.9.6. You may want to run the

这是应为vue的版本存在更新需要先卸载vue cli2 然后重新安装vue cli 3 1 卸载vue cli2 npm uninstall vue cli g 或 yarn global remove vue cli 2 安装vue c
TCP报文段首部格式介绍

1 TCP报文段首部格式tu 2 头部各个字段介绍 1 源端口和目的端口源端口和目的端口字段各占 2 字节端口是运输层与应用层的服务接口运输层的复用和分用功能都要通过端口才能实现 2 序号字段序号字段占 4 字节要明确的是 TCP
WebService报错javax.xml.ws.soap.SOAPFaultException: javax.xml.ws.WebFault.messageName()

原文地址 http blog csdn net woshixuye article details 14312579 一发现问题 JAX WS规范是一组XML web services的JAVA API JAXWS RI是其的一个包用j
面试-大数据-场景题-sql

1 求5min内浏览次数达到100的用户 LAG和LEAD函数转载自有如下场景某公司网站每日访问量达到10亿级别的访问量每次访问记录一条数据数据包含如下字段用户ID 访问时间毫秒级访问页面要求使用hive求出所有在5分钟内
卷积神经网络的三个特性

转载 elecfans com emb fpga 20171116580425 2 html 局部感知形象地说就是模仿你的眼睛想想看你在看东西的时候目光是聚焦在一个相对很小的局部的吧严格一些说普通的多层感知器中隐层节点会全连
关于C#模拟LED

如下图不管是用什么控件或者是richTextBox 或者是TextBox 等等我想应该都可以做得出下面这种效果来但是本人研究了快半个月了可以说也没有找到什么很好的头绪所以干脆就粘贴在我的博客中了希望看到的朋友给我个意见或者
c语言在输入字符串时输入空格的方式

1 最容易的将一个字符串分为一个一个字符输入 char s 100 int i 0 while scanf c s i s i n i s i 0 遇到换行停止输入并且将换行替换为 0 printf s n s 但是如果在这段程序前还有
每日一题：最大和上升子序列

最大和上升子序列题目 Daimayuan Online Judge 动态规划和最长上升子序列类似状态划分以第i个数结尾的上升子序列的倒数第二个数可能是第一个数第二个数第i 1个数从第一个数开始枚举以它为结尾首先f i a
bboss 流批一体化框架与数据采集 ETL

数据采集 ETL 与流批一体化框架特性高效稳定快速安全 bboss 是一个基于开源协议 Apache License 发布的开源项目主要由以下三部分构成 Elasticsearch Highlevel Java Restcli
feign调用使用Apache Http遇到问题汇总

feign调用使用Apache Http目前已知会造成三个问题 1 RequestMapping必须显式指定调用方式 method RequestMethod POST 否则默认会使用get请求这会造成之前一些没有显式指定调用方式的方法报
linux下quartus出现ModelSim executable not found和Unable to checkout a license. Make sure...... 错误

一定要把Tools gt Options gt EDA Tool Options设置到bin下YOUR PATH altera 13 1 modelsim ase bin 注意是modelsim ase不是modelsim ae 而且有bi
C++内存分析工具

C 内存分析工具背景内存泄漏在c 中是一个常见的问题有一个好用的内存分析工具就是很有必要的下面来介绍两个简单好用的内存分析工具 Valgrind和Sanitizer Valgrind valgrind是一种非侵入式的内存检测工具在
TTS

FastSpeech 基于 Transformer 的前馈网络用于并行生成 TTS 梅尔谱图 FastSpeech 模型与自回归 Transformer TTS 相比梅尔谱图生成速度加快了 270 倍端到端语音合成速度加快了 38 倍

TTS

代码详解

疑问与解答 Q&A

参考文献

TTS 的相关文章

随机推荐

热门标签