merlin官方github: merlin
这篇文章至少这个暑假都会持续更新中
前言
大二时做比赛从github上扒了爱丁堡大学某语音实验室做出来的toolkit叫merlin,当时啥也不会,不懂python也不懂ubuntu。因为啥都不会没人愿意和自己组队,一怒之下找了其他学院的高中同学凑数,然后一个人花了一个月的时间才把merlin在自己电脑上勉强训练起来并能生成语音。
虽然现在想想当时就抄这么一个玩意儿居然花了100+小时,还通宵了好几次觉得不可理喻,但是u1s1,这绝对是我大学期间最骄傲也最充实的一段时期。经历了这次独立的出了成果的比赛,我的自信心得到了前所未有的提高,再也不认为自己不适合学工科,不适合写代码了。可以说,如果我当时自尊心稍微差一点,就那么错过了那次比赛,那我接下的人生必然迥异。
接着说回merlin,最近投夏令营得复习一下自己简历上的内容,发现这个自己当初死调出来、根本不懂是个啥的黑箱居然还挺有意思,大三做的DL相关项目都是CV相关的,但是说实话自己对CV也不是那么感兴趣,再加上CV又卷,而我只是想找个能买得起房子的地方安心地敲代码而已。于是在回溯这个项目、想到快两年前的自己满脸兴奋地在深夜鼓捣这个项目时,心中诺有所思。或许可以尝试一下语音方向呢?
于是这篇文章诞生了,权当是一次行业调研,没准九月份自己真的就入了这行呢。
TTS概况
2016年,谷歌出了一个代表性的网络 wavenet,至此TTS就分为两个方向
- 统计参数语音合成(SPSS)
- 端到端(E2E)合成,并且端到端的研究投入还在持续增加。
还有一个经典的传统方向:拼接,代表应该是Siri。
merlin 使用的就是SPSS
SPSS 系统主要可以分为三块:前端文本处理,声学特征信号处理和机器(深度)学习模型
- 前端文本处理:和NLP有重叠
- 声学它特征信号处理: 这块东西基本都已有成熟的工具(sptk hts world straight等),基本默认配置效果已经不错了,就足够实验室使用了。所以大家的重点都放在了声学模型和时长模型上。(注意,这里列出的工具都是merlin有用到的)
- 深度学习模型:Heiga Zen把DNN用于TTS,后来微软做了lstm基本2015年这块就差不多到头了,后续各大公司,高校和研究机构都在做微调,没有本质的提升。从其他领域借鉴的技术频繁被使用到TTS领域中,最成功的还要属Tactron最成功,效果很不错。时长模型韵律上同样也做不上去了,大家都在尝试从模型本身去解决,比如加入更多的信息和转成分类任务,这些都有提升但还是有瓶颈。
基于DNN的TTS流程:
前端文本处理器 -> 深度学习模型 -> 声码器
对当前技术的介绍
另一篇当前技术介绍
做TTS的优势和劣势
语音方向的优势就是门槛高。CV的话会用github会用python直接扒一个项目下来,环境不复杂的话一个小时之内就给你跑得有模有样,但是做语音的话对声音信号分析和处理都要理解,比如我看merlin的结果指标就根本不懂这些是个啥。
劣势的话也很明显,因为做的人少,资源就少,需要自己摸索的就多
(顿时觉得就像DL界的通信和微波,我有一个哥们把今年称为内卷元年,如果有最近也在忙保研的EE专业朋友我悄悄教你们一个财富密码: 电磁场微波+直博+导师随意 = 无敌;通信/AI + 无论什么 + 无论什么 = 必死)
语音方向市场情况
做前端信号处理的人比较多,比如麦克风阵列和降噪
比较缺搞解码器的人
参考:https://www.zhihu.com/question/290329979/answer/470986388
TTS前景
在深度学习被广泛应用前传统技术已经比较成熟
虽然深度学习使这个领域迈了一大步,但是3-5年之后会怎么样谁也不懂
未来方向
来自:https://www.zhihu.com/question/324139796/answer/690952144
看重的实验室
声学所:中国科学院语言声学与内容理解重点实验室
厦大:智能语音实验室
上交:信号处理与系统研究所
知名 E2E 模型
谷歌:tactron, wavenet
百度:deepvoice
TTS常见指标
AI产品经理需要了解的语音交互评价指标
所以,melrin用的那一堆指标到底是啥?还是没懂
参考
https://www.zhihu.com/question/277152459/answer/466734015
https://www.zhihu.com/question/290329979/answer/470986388
https://www.zhihu.com/question/324139796/answer/690952144
https://www.zhihu.com/question/265265221/answer/1257851592
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)