语音识别入门 --各个模型的整理

2023-11-12

前期知识储备

对语音识别是零基础,所以第一步语音特征提取也需要进行一些了解。本人有图像识别、深度学习基础,实习因为项目需要,需要对语音识别做一个整合梳理。
论语音识别三大技术

结构图

在这里插入图片描述

语音特征提取

语音 特征提取 将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,即语谱图。
有一份特别好的教程,很细节的说了一些基础相关知识。适合一样零基础的小白。
jupyter 教程地址
更多细节

加窗:指的是构造汉明窗
汉明窗

还有各种不是很明白的点可以自行查找。

各个模型的尝试

就不在赘述环境配置问题,以下模型的环境配置和安装大多都在网上有解决方案。

ASRT

基于深度学习的中文语音识别系统
本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型,在Windows平台上实现了一个基于ASRT的语音识别应用软件,取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用,也一起开源在GitHub上了。

DEMO 预览
模型原理

我使用这个模型中统计模型的声学模型效果很差,但是语言模型使用拼音转文本的效果还可以。我打算单独把单独的语言模型拿出来用,Language Model

DeepSpeechRecognition

基于深度学习的中文语音识别系统
同样是使用CNN+DNN+CNN
模型原理
论文
通过这个框架模型的教程,我一步步大概了解了语音识别的结构。我使用了该模型的声学模型,使用清华大学THCHS30中文语音数据集
有各种详细数据集介绍

end2end_chinese_speech_recognition

这个开源小模型反而效果很好,在环境和发音都较为清楚的情况下,效果比一些复杂的大框架还要有用。ps:可能是我配置或者哪里不对,如果有大佬,可以留言一起讨论。

Wenet

wenet 工业开源落地做的比较成熟的 部署和demo都很齐全,很大程度上降低了asrt的门槛!也由此了解到了西北工业大学,可以关注一下对应的公众号。很多科普和入门的知识点

whisper

openai的whisper 看到openai就不用过多的赘述了吧

语音纠错

pycorrector
介绍的很明白了,就不再多赘述了。

TTS 文本转语音

pyttsx3

离线非API SDK 的文本转语音Python库

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

语音识别入门 --各个模型的整理 的相关文章

随机推荐

  • 【华为OD机试】字符串子序列II【2023 B卷

    华为OD机试 真题 点这里 华为OD机试 真题考点分类 点这里 题目描述 给定字符串 target 和 source 判断 target是否为 source 的子序列 你可以认为target和 source 中仅包含英文小写字母 字符串 s
  • 计算机网络安全,你了解多少?

    在现在这个网络高度发达的世界 计算机网络安全便也十分重要 但人们对于它的了解少之又少 今天就让我们一起来了解一下吧 1 什么是计算机网络安全 计算机网络安全是指用网络管理控制和技术措施 保证在一个网络环境里数据的保密性 完整性及可使用性受到
  • Nginx 做成系统服务(windows)

    下载winsw https github com winsw winsw releases 将winsw可执行程序复制到nginx安装目录下 并重命名为nginx service 新建名为nginx service xml的文件 注 文件名
  • CSS中苹果X全面屏的适配问题解决方法

    前言 iPhoneX 取消了物理按键 改成底部小黑条 这一改动导致网页出现了比较尴尬的屏幕适配问题 对于网页而言 顶部 刘海部位 的适配问题浏览器已经做了处理 所以我们只需要关注底部与小黑条的适配问题即可 即常见的吸底导航 返回顶部等各种相
  • 编译OpenWRT 出现error 1 set FORCE_UNSAFE_CONFIGURE=1

    补个博客 最近发现记忆不行了 很多问题重复遇见却不记得之前怎么决绝的 在编译OpenWRT时出现 you should not run configure as root set FORCE UNSAFE CONFIGURE 1 in en
  • 关于51/STC单片机中断优先级的调整

    来源 单片机简单程序 zhjysx的博客 CSDN博客https blog csdn net zhjysx category 11558658 html 目录 内容简述 理论 中断源类型 IP寄存器 LED程序 Proteus仿真图 外部中
  • Django基础入门⑭:Django表单实例【表单应用】获取全量书籍信息

    Django基础入门 Django 对象查询详解 分组聚合 Django表单实例 表单应用 编写模板层HTML页面 编写视图层逻辑代码 配置url路由模式映射 页面搜索效果展示 表单验证逻辑 获取全量书籍信息 实现添加书籍信息 个人简介 以
  • 总结numpy中的ndarray,非常齐全

    总结numpy中的ndarray 非常齐全 numpy Numerical Python 是一个开源的Python数据科学计算库 支持对N维数组和矩阵的操作 用于快速处理任意维度的数组 numpy库的功能非常聚焦 专注于做好 一件事 num
  • 1、树莓派4B设置热点,一步步细心来

    参考了 https www icode9 com content 4 683569 html https zhuanlan zhihu com p 101089893 一定要细心 1 安装 network manager sudo apt
  • gin 三.请求数据的映射

    数据解析绑定 基础解释 ShouldBindWith 请求数据映射示例 ShouldBindHeader 将请求头绑定到一个结构体或接口示例 MustBindWith 方式 基础解释 解释 例如后端获取调用方参数 通常会使用一个结构体 或一
  • 深度学习高遥感影像语义分割

    深度学习遥感影像语义分割 深度学习大家都知道 在计算机视觉领域取得了很大的成功 在遥感影像自动解译方面 同样带来了快速的发展 我在遥感影像自动解译领域 也做了一些微薄的工作 发表几篇论文 我一直关注遥感影像自动解译领域 在北京出差的这段时间
  • python--类与类之间的关系

    类和类之间的关系 在我们的世界中事物和事物之间总会有一些联系 在面向对象中 类和类之间也可以产生相关的关系 1 依赖关系 执行某个动作的时候 需要xxx来帮助你完成这个操作 此时的关系是最轻的 随时可以更换另外一个东西来完成此操作 clas
  • shell脚本:循环结束语句二

    shell脚本 循环结束语句二 二 循环结束语句 1 break 跳出循环 2 continue 3 while 4 until 条件不成立时 跳出循环 5 总结 三 操作演练 二 循环结束语句 1 break 跳出循环 1 作用 控制循环
  • 旧版OpenGL 与 新版OpenGL

    分割线 OpenGL3 0 3 0之前 所有OpenGL版本都与早期版本完全向后兼容 针对OpenGL 1 1编写的代码可以在OpenGL 2 1实现中很好地执行 3 0 引入了废弃functionality的想法 许多OpenGL函数被声
  • android高级UI之PathMeasure<一>--Path测量基础(nextContour、getPosTan、getMatrix、getSegment)

    前言 在上一次android高级UI之贝塞尔曲线 lt 下 gt 贝塞尔曲线运用 QQ消息气泡完成了对于贝塞尔曲线绘制的学习 今天准备学习UI绘制中经常会用到的跟Path相关的一些知识 也是很重要 但是你不去专门花时间去研究的话其实理解起来
  • Docker从入门到干事,看这一篇就够了,mysql索引优化面试题

    docker与虚拟机的对比 物理机 别墅 虚拟机 楼房 docker 酒店式公寓 docker三大概念 库 一个总的仓库 包含所有的镜像 使用时可以从库拉取镜像到本地 镜像 从库中拉取下来的应用 比如mysql 容器 镜像运行之后就是容器
  • transformer论文学习:Attention Is All You Need

    transformer论文学习 Attention Is All You Need 文章目录 transformer论文学习 Attention Is All You Need 整体结构速览 一 网络结构 二 注意力机制 参考资源 1 原论
  • P4学习——p4runtime

    文章目录 步骤一 运行不完整代码 步骤二 开始实现隧道转发 步骤三 运行解决方案 参考 https blog csdn net qq 33681684 article details 123646883 在这个练习中 我们将使用P4Runt
  • 实战篇-OpenSSL之AES加密算法-ECB模式

    本文属于 OpenSSL加密算法库使用系列教程 之一 欢迎查看其它文章 实战篇 OpenSSL之AES加密算法 ECB模式 一 AES简介 二 ECB模式 1 命令行操作 2 函数说明 3 编程实现 1 PKCS7填充方式 2 实现ECB模
  • 语音识别入门 --各个模型的整理

    语音识别入门 前期知识储备 结构图 语音特征提取 各个模型的尝试 ASRT DeepSpeechRecognition end2end chinese speech recognition Wenet whisper 语音纠错 TTS 文本