merlin工具包+语音合成TTS技术调研

2023-05-16

merlin官方github: merlin

这篇文章至少这个暑假都会持续更新中

前言

大二时做比赛从github上扒了爱丁堡大学某语音实验室做出来的toolkit叫merlin，当时啥也不会，不懂python也不懂ubuntu。因为啥都不会没人愿意和自己组队，一怒之下找了其他学院的高中同学凑数，然后一个人花了一个月的时间才把merlin在自己电脑上勉强训练起来并能生成语音。

虽然现在想想当时就抄这么一个玩意儿居然花了100+小时，还通宵了好几次觉得不可理喻，但是u1s1，这绝对是我大学期间最骄傲也最充实的一段时期。经历了这次独立的出了成果的比赛，我的自信心得到了前所未有的提高，再也不认为自己不适合学工科，不适合写代码了。可以说，如果我当时自尊心稍微差一点，就那么错过了那次比赛，那我接下的人生必然迥异。

接着说回merlin，最近投夏令营得复习一下自己简历上的内容，发现这个自己当初死调出来、根本不懂是个啥的黑箱居然还挺有意思，大三做的DL相关项目都是CV相关的，但是说实话自己对CV也不是那么感兴趣，再加上CV又卷，而我只是想找个能买得起房子的地方安心地敲代码而已。于是在回溯这个项目、想到快两年前的自己满脸兴奋地在深夜鼓捣这个项目时，心中诺有所思。或许可以尝试一下语音方向呢？

于是这篇文章诞生了，权当是一次行业调研，没准九月份自己真的就入了这行呢。

TTS概况

2016年，谷歌出了一个代表性的网络 wavenet，至此TTS就分为两个方向

统计参数语音合成（SPSS）
端到端（E2E）合成，并且端到端的研究投入还在持续增加。

还有一个经典的传统方向：拼接，代表应该是Siri。

merlin 使用的就是SPSS

SPSS 系统主要可以分为三块：前端文本处理，声学特征信号处理和机器（深度）学习模型

前端文本处理：和NLP有重叠
声学它特征信号处理：这块东西基本都已有成熟的工具（sptk hts world straight等），基本默认配置效果已经不错了，就足够实验室使用了。所以大家的重点都放在了声学模型和时长模型上。（注意，这里列出的工具都是merlin有用到的）
深度学习模型：Heiga Zen把DNN用于TTS，后来微软做了lstm基本2015年这块就差不多到头了，后续各大公司，高校和研究机构都在做微调，没有本质的提升。从其他领域借鉴的技术频繁被使用到TTS领域中，最成功的还要属Tactron最成功，效果很不错。时长模型韵律上同样也做不上去了，大家都在尝试从模型本身去解决，比如加入更多的信息和转成分类任务，这些都有提升但还是有瓶颈。

基于DNN的TTS流程：

前端文本处理器 -> 深度学习模型 -> 声码器

对当前技术的介绍
另一篇当前技术介绍

做TTS的优势和劣势

语音方向的优势就是门槛高。CV的话会用github会用python直接扒一个项目下来，环境不复杂的话一个小时之内就给你跑得有模有样，但是做语音的话对声音信号分析和处理都要理解，比如我看merlin的结果指标就根本不懂这些是个啥。

劣势的话也很明显，因为做的人少，资源就少，需要自己摸索的就多
（顿时觉得就像DL界的通信和微波，我有一个哥们把今年称为内卷元年，如果有最近也在忙保研的EE专业朋友我悄悄教你们一个财富密码: 电磁场微波+直博+导师随意 = 无敌；通信/AI + 无论什么 + 无论什么 = 必死）

语音方向市场情况

做前端信号处理的人比较多，比如麦克风阵列和降噪

比较缺搞解码器的人

参考：https://www.zhihu.com/question/290329979/answer/470986388

TTS前景

在深度学习被广泛应用前传统技术已经比较成熟

虽然深度学习使这个领域迈了一大步，但是3-5年之后会怎么样谁也不懂

未来方向
在这里插入图片描述
来自：https://www.zhihu.com/question/324139796/answer/690952144

看重的实验室

声学所：中国科学院语言声学与内容理解重点实验室
厦大：智能语音实验室
上交：信号处理与系统研究所

知名 E2E 模型

谷歌：tactron, wavenet
百度：deepvoice

TTS常见指标

AI产品经理需要了解的语音交互评价指标

所以，melrin用的那一堆指标到底是啥？还是没懂
在这里插入图片描述

参考

https://www.zhihu.com/question/277152459/answer/466734015

https://www.zhihu.com/question/290329979/answer/470986388

https://www.zhihu.com/question/324139796/answer/690952144

https://www.zhihu.com/question/265265221/answer/1257851592

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)