声音合成与克隆——制作用于训练的声音数据集

2023-11-12

前言

1.PaddleSpeech 是一个简单易用的all-in-one 的语音工具箱,支持语音处理的相关操作,如语音知别,语音合成,声纹识别,声音分类,语音翻译,语音唤醒等多个方向的应用开发。

这里只使用到语音合成与声音克隆,主要由文本前端(Text Frontend) 、声学模型(Acoustic Model) 和 声码器(Vocoder) 三个主要模块,模块工作流程如下:

  • 通过文本前端模块将原始文本转换为字符/音素。
  • 通过声学模型将字符/音素转换为声学特征,如线性频谱图、mel 频谱图、LPC 特征等。
  • 通过声码器将声学特征转换为波形。

2.要完成整个项目,大致可以分以下几个步骤:

  • 语音数据收集,处理。
  • 语音合成与克隆模型微调。
  • 模型离线应用部署。

数据集制作

1.如果想训练自己的声音,可以使用录音设备录制自己的声音,发声中英都可以,录制的环境尽量没有杂音,录制时长越多越好。

2.如果使用网络上的声音数据,那么视频与音频都可以。

3.我这里演示使用的是B站上的一个UP主的语音,我剪切大概10段5分钟以上的视频,因为视频的声音带着背景音乐,为了训练效果,这里要去掉背景音乐。去掉背景音乐有很多种方法,专业的做语音处理的人喜欢用Adobe Audition来处理,但学起来太麻烦了。这里可以借助深度学习的魔法来去掉背景音乐。

 Ultimate Vocal Remover是一款超好用的伴奏人声提取工具,安装完成之后就可以使用UVR来分离伴奏与人声了,使用说明如下:

基本选项(不是深度使用者一般都只用到这几个功能) 

 VR Architecture 选项

MDX-Net 选项

Demucs v3 选项
 Ensemble Mode 合奏选项

 Manual Ensemble 手动合奏

4.去掉背景音乐后,就要把音频剪切成2秒到10秒长度(不能超过10秒)的音频段。音频剪切标注则使用Adobe Audition来处理。安装完Adobe Audition之后,使用Adobe Audition打开准备好的视频或者音频文件,然后对着文件名点击—>插入到多轨混音中—>新建多轨会话,如果下图:

 给要编辑的项目起个名:

之后Adobe Audition界面的刀片就可以使用了,做切片的时候,切开的部分尽量是没有语音的部分,就是没有声波的部分,如果有很长一段没有声波,就切出来删除掉。做切片时要注意不能小于2秒不能大于10秒。

 切完整个音频之后 ,把每个音频段拖动到单独的音轨里面,不用的片断则删除就行:、

 然后选中所有剪切的片断(Ctrl+A),点击文件—>导出—>所有编辑

在导出界面把采样类型改成24000Hz,导出全部文件:

 导出音频片断,保存的文件名有中文,要改成英文或者数字文件名。

相关软件下载

1.声音片断剪切软件下载这个是绿色版本,需要可以到某宝找到,或者私信我,我发出网盘。

2.伴奏人声提取工具下载:

https://download.csdn.net/download/matt45m/88033228

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

声音合成与克隆——制作用于训练的声音数据集 的相关文章

  • mysql安装包及驱动下载

    1 下载MySQL安装包 mysql官网下载安装包地址 https downloads mysql com archives community 在页面选择希望下载的版本 运行环境 运行环境版本 下方会出现各种版本 MySQL数据库安装有y
  • 用于 3d 渲染应用程序的常见物体 IOR(折射率)值

    以下内容来源于 https www btbat com 12032 html 用于 3d 渲染应用程序的 IOR 折射率 值 那么支持的常用 3D 程序如下 如 NewTek Lightwave 3d Blender 3d Autodesk
  • 轻松实现crontab的使用

    一 什么情况下使用crontab crontab命令常见于Unix和类Unix的操作系统之中 用于设置周期性被执行的指令 二 如何编写crontab 1 安装crontab环境 bash内键入 crontab 如果提示command not
  • 人类学习 vs. 机器学习

    摘要 机器学习与人类学习的范式有一定的联系 本文发掘这些联系 作用是指导人类的学习 1 什么是学习 对于人类而言 学习是改造大脑皮层的过程 我们会发现 不同人学习不同东西的能力也不一样 如有些人数学厉害 有些人音乐厉害 同时 也有些牛人 学
  • 混沌神经网络的实际应用,进化算法优化神经网络

    人工神经网络的发展趋势 人工神经网络特有的非线性适应性信息处理能力 克服了传统人工智能方法对于直觉 如模式 语音识别 非结构化信息处理方面的缺陷 使之在神经专家系统 模式识别 智能控制 组合优化 预测等领域得到成功应用 人工神经网络与其它传
  • QFileDialog.getOpenFileName获取打开的文件路径

    前段时间要做一个打开文件并上传的功能 在不多加一个窗口的情况下选中那个打开的文件 def addButtonClicked self index try file name QFileDialog getOpenFileName self
  • Ubuntu20.04下编译测试RocksDB以及遇到的问题记录

    rockdb编译 git clone https github com facebook rocksdb git 如果上面的命令报错无法连接 则换成下面这句 git clone git github com facebook rocksdb
  • 大数据简历要点与模拟面试和项目介绍模板二

    15 模拟面试和项目介绍模板10 一 自我介绍 目前不知道怎么做 您好 我叫xxx 毕业于xxx学校 因为在大学里学过javase mysql web 数据结构与算法等计算机基础知识 在一份软件测试的实习中接触到数据仓库 用户画像 推荐系统
  • Mybatis如何实现多表查询

    一 按照配置文件的方式 在Java端mybatis框架里写联查sql语句 通过orm模型解析 这里需要考虑一对一以及一对多的关系 按student和score表举例 student对于score是一对多的关系 score对于student来
  • 访谈录:中国的软件业需要悟道

    1 记者 目前 随着中国IT业的发展 国外IT企业对中国IT业也越来越重视 能否简单介绍一下目前中国外包情况 陆其明 近几年 中国IT业的发展确实比较快 特别是软件行业 你可以看到 全国各地都在建软件园 各级政府对软件企业也都有政策倾斜 软
  • Three.js - 从 PLY 模型中创建粒子系统

    PLY全称 Polygon or Stanford Triangle Format 多边形或三角形格式 可以有效地保存和加载简单 静态的3D内容 支持二进制和ascii格式 可以存储顶点位置 颜色 法线和uv坐标 不能保存纹理 示例 htt
  • 登录模块丨前端uniapp微信小程序项目

    小兔鲜儿 微信登录 涉及知识点 微信授权登录 文件上传 Store 状态管理等 微信登录 微信小程序的开放能力 允许开发者获取微信用户的基本信息 昵称 性别 手机号码等 开发者常用来实现注册 登录的功能 登录方式 常见登录 注册方式 用户名
  • 9.java程序员必知必会类库之加密库

    前言 密码学在计算机领域源远流长 应用广泛 当前每时每刻 每一个连接到互联网的终端 手机 电脑 iPad都会和互联网有无数次的数据交互 如果这些数据都是明文传输那将是难以想象的 为了保护用户隐私 防止重要数据被窃取 篡改 我们需要对我们的数

随机推荐

  • 使用迭代器(iterator)遍历vector、map等

    所涉及方法 添加元素 array push back 正向迭代器 vector iterator 迭代器变量名 反向迭代器 vector reverse iterator 迭代器变量名 在不知道所包含数据个数的情况下用以遍历元素 vecto
  • [初学Python] IndentationError:unexpected indent

    在用Python实现求100以内的质数的编译程序或者说解释程序时出现了以下错误 根据编译后 解释后 的错误提示 说是num的 n 是一个IndentationError unexpected indent 什么意思呢 indentation
  • mac本工具使用配置

    1 CotEditor 文本编辑器 文本换行或者不换行设置 格式 换行 文本分栏展示 方便对比 显示 分栏显示 隐藏元素可见模式 格式 隐藏不可见元素
  • 解决Eclipse创建Android项目时出现No resource found that matches the given name ‘Theme.AppCompat.Light’的问题

    首先 对于该问题的详细分析大家可以查看Theme AppCompat Light问题的深入分析一文 里面详细介绍了该问题出现的原因 简单来讲 就是新的eclipse默认模版主题UI需要使用比较高版本api 如果需要支持低版本 需要导入app
  • 华为OD机试 - 九宫格按键输入(Java)

    题目描述 九宫格按键输入 输出显示内容 有英文和数字两个模式 默认是数字模式 数字模式直接输出数字 英文模式连续按同一个按键会依次出现这个按键上的字母 如果输入 或者其他字符 则循环中断 字符对应关系如图 要求输入一串按键 输出屏幕显示 输
  • ad原理图怎么导出pdf_如何把PDF导出为图片?方法很简单!

    很多人想将PDF文件转换成JPG文件 却不知道怎么转 或者通过网上一些方法 导出来的图片分辨率却很低 那我们怎么让PDF文件转换成JPG文件相对应的分辨率 今天小编给大家分享PDF快速导出JPG的技巧 PDF转jpg图片方法一 另存为法 另
  • TOP 100值得读的图神经网络----自监督学习与预训练

    清华大学的Top 100 GNN papers 其中分了十个方向 每个方向10篇 此篇为自监督学习与预训练方向的阅读笔记 Top100值得一读的图神经网络 大家好 我是蘑菇先生 今天带来Top100 GNN Papers盘点文 此外 公众号
  • C语言经典编程题---交换两个数

    1 给定两个整形变量的值 将两个值的内容进行交换 include
  • 正确解决vs运行的输出框闪退问题

    如果是想看见下面这样的输出框 很简单 要在调试停止时自动关闭控制台 请启用 工具 gt 选项 gt 调试 gt 调试停止时自动关闭控制台 截图如下
  • 【OS】【期末选择题】【2023春】【仅供参考】

    文章目录 题型 一 选择 第一章 10 第二章 19 第三章 23 第四章 32 第五章 15 第六章 15 二 填空题 三 简答题 1 信号量 2 调度算法 3 页面置换 4 虚拟地址到物理地址的映射 Reference 题型 题型 题量
  • C语言---Unix套接字用于本地通信

    1 作用 用于本地间通信 2 使用 创建套接字的时候使用本地协议通信 AF UNIX 或者AF LOCAL 分为流式套接字和用户数据报套接字 unix socket socket AF LOCAL SOCK STREAM 0 unix so
  • 如何将python2/3修改为默认版本

    基于update alternatives命令 此方法为系统级修改 直接执行下面两个命令即可 sudo update alternatives install usr bin python python usr bin python2 10
  • WSL安装cuda输入nvidia-smi遇到报错

    打算在WSL安装Cuda 但是安装成功后发现输入nvidia smi一直报错 查了很多文章都没法解决 本来都准备放弃了 随手查看了下WSL版本 发现WSL一直是 1 改成 2 之后再次安装CUDA WSL驱动直接成功 1 在powershe
  • SQL SERVER表字段与关键字冲突的解决

    办法很简单 建表的时候 该字段用 包含起来即可 例如 create table test reqid varchar 20 IDENTITY int
  • 使用Tesseract和OpenCV构建自动收据扫描仪

    使用Tesseract和OpenCV构建自动收据扫描仪 这篇博客将介绍如何使用Tesseract和OpenCV构建自动收据扫描仪 将使用OpenCV构建系统的实际图像处理组件 包括 检测图像中的收据 边缘检测 轮廓检测 基于弧长和近似的轮廓
  • 操作系统(一):什么是操作系统

    1内核 1 1概念 操作系统主要关注操作系统的内核 1 2特征 1 2 1并发 计算机系统中同时存在多个运行的程序 需要OS管理调度 并发与并行 并发 一段时间内有多个程序运行 并行 一个时间点上有多个程序可以同时执行 要求系统存在多个CP
  • Python为什么叫爬虫?

    因为python的脚本特性和易于配置 对字符的处理也非常灵活 加上python有丰富的网络抓取模块 所以叫爬虫 1 网络爬虫是指一种按照一定的规则 自动地抓取万维网信息的程序或者脚本 另外一些不常使用的名字还有蚂蚁 自动索引 模拟程序或者蠕
  • Excel分类统计数量

    Excel分类统计数量 方法一 1 打开需要分类的excel表格 2 选中 事项类型 的列表信息 对其进行排序 升序 降序 3 排序结束后 选择需要进行分计数的列 点击 数据 分类汇总 4 选择需要的 分类字段 汇总方式 汇总项 5 选择后
  • Mac平面设计师必备软件,懂word就会设计,内置海量模板。

    Swift Publisher是Mac平面设计师必备软件 内置了丰富的彩色传单 折页 海报 画册 展架等模版 点击即可直接编辑并快速完稿 相比于其他的设计软件 Swift Publisher更简单 不需要花时间去学习软件就可以独立完成一些定
  • 声音合成与克隆——制作用于训练的声音数据集

    前言 1 PaddleSpeech 是一个简单易用的all in one 的语音工具箱 支持语音处理的相关操作 如语音知别 语音合成 声纹识别 声音分类 语音翻译 语音唤醒等多个方向的应用开发 这里只使用到语音合成与声音克隆 主要由文本前端