基于线性预测的语音编码原理解析

2023-11-02

早期的音频系统都是基于声音的模拟信号实现的,在声音的录制、编辑和播放过程中很容易引入各种噪声,从而导致信号的失真。随着信息技术的发展,数字信号处理技术在越来越多领域得到了应用,数字信号更是具备了易于存储和远距离传输、没有累积失真、抗干扰能力强等等,信号和信号处理都往数字化发展。为了使得数字音频可以被高效地压缩存储并高品质地还原,数字音频的编码技术就变成至关重要的一个部分了。本篇文章会介绍当今的音频的编码器(传统算法非深度学习)的两大主流阵营之一的基于线性预测的语音编码器的原理。

01 音频的编码器分类及简介

比较流行基于传统算法的音频的编码器基本可以分成两个大的类别:

Audio Codec(音频编码器): aac, mp3, ogg, celt(inside of opus) …

Speech Codec(语音编码器): ilbc, isac, silk(inside of opus) …

而这两种编码器类型基于完全不同的编码原理,Audio Codec (音频编码器)利用了人类听觉感知系统的特性来研究音频编码的方法,可以对较多音源,复杂信号进行高品质的编码。而Speech Codec (语音编码器)是以语音生成模型为基础,可以对单个音源(人或者一些乐器的发音器官单元)进行更低码率的高效编码。
为什么已经有了可以对较多音源,复杂信号进行高品质编码的Audio Codec,还需要研究和发展Speech Codec呢?
因为应用领域的需求完全不一样。Audio Codec的应用领域更多和音乐有关,研究的是在保证尽量小的感知失真的前提下,对声音进行压缩编码。早期mp3想要实现高品质所需要的编码码率还是比较高的,压缩比并不高。而早期的数字电信系统的带宽有限,如何可以用尽量小的带宽实现可以还原出清晰的语音则成了Speech Codec的任务。更多在8kHz和16kHz采样率下实现较低码率的编码。

02 语音的发声模型和特性

既然需要设计一款专门针对语音的编码器,那肯定要先研究一下语音的一些特性。
1. 人的发声模型
图片
总的来说,人的发声模型可以分成三个部分:

  • 由肺和气管产生生气源
  • 喉和声带组成声门
  • 咽腔,口腔,鼻腔等组成声道

人的发声过程基本过程可以这样描述:由肺部挤压产生流动高压气体,通过气管,经过喉咙,喉咙控制相关软骨组织和肌肉组织(其中最为重要为声道)进行复杂运动,最终声带在控制下进行合拢或者分离,最终产生了声音的激励,再经过咽腔、口腔、鼻腔共鸣最终形成声音。

2. 语音信号的一般分类
人发出不同的声音时,语音激励和声道的情况也是完全不同的,发出的声音基本可以分类为两种类型:
浊音:空气流经过声带时,声带呈紧绷状态,并产生张弛振动,即声带进行周期性的开启和闭合,空气流经过声带后形成一个一个脉冲,然后再经过各种声道的共鸣作用,最后形成浊音。浊音典型波形如下图

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

基于线性预测的语音编码原理解析 的相关文章

随机推荐

  • C++入门day07(通讯录)

    C 语句真的好长啊 Python确实更简洁 老师带着我们理解逻辑 所以用的是面条版 通讯录管理系统 系统需求 通讯录是一个可以记录亲人 好友信息的工具 系统中需要实现的功能如下 添加联系人 向通讯录中添加新人 信息包括 姓名 性别 年龄 联
  • feign.RetryableException:&& unknowhostException

    在使用springcloud的时候 服务的调用通过eureka来保存 通过feign来进行微服务的远程调用 在远程调用ribbon的时候 出现两种异常 一种是timeout异常 需要在配置中加上ribbon ReadTimeout 6000
  • windows10和win11设置暂停更新-时间任意设置

    windows10设置暂停更新时间任意设置 亲测有效 1 修改注册表 2 设置时间参数 2 1 设置路由 2 2 设置参数 2 3 设置后效果 1 修改注册表 找到Windows 管理工具 点击向下可找到注册表编辑器 点击打开 打开 运行
  • uni-app h5 uploadFile多文件/图片上传

    问题描述 在使用uni app开发h5时要实现多图片上传给后台 不使用循环 发现给后台的格式有误 后台取不到数据 需改变下传递的数据格式 uni chooseImage sourceType sourceType this sourceTy
  • idea新建一个Spring项目(最基础)

    首先 笼统介绍一下 什么是spring 1 Spring 的主要作用就是为代码 解耦 降低代码间的耦合度 根据功能的不同 可以将一个系统中的代码分为主业务逻辑与系统级业务逻辑两类 它们各自具有鲜明的特点 主业务代码间逻辑联系紧密 有具体的专
  • 【MAVEN】Maven依赖和项目代码分离打包,依赖包自动同步到服务器

    Maven分离lib打包 lib包自动同步 加速项目部署 目标 整体步骤 Maven配置 1 分离打包 配置打包 将依赖jar拷贝到外部 2 编辑MANIFEST MF 本地 lt gt 服务器lib快速同步 1 使用前提 2 实现同步 目
  • R语言 编写自定义函数

    自定义函数 R语言实际上是函数的集合 用户可以使用base stats等包中的基本函数 也可以编写自定义函数完成一定的功能 一个函数的结构大致如下所示 myfunction lt function arglist statements re
  • 网络数据保障ptop_网络影响未来十大预言

    2007年1月23日 CNNIC发布了第19次互联网报告 报告数据显示 中国的互联网正在很多方面发生改变 2007年这一趋势将变得更加明显 1 网络越来越实用 56 1 的用户上网经常收发邮件 上网看新闻第一次退居次席 估计不远的将来 写信
  • 【邻接表】69 邻接表:构造有权图

    问题描述 目的 使用C 模板设计并逐步完善图的邻接表抽象数据类型 ADT 内容 1 请参照图的邻接矩阵模板类原型 设计并逐步完善图的邻接表ADT 由于该环境目前仅支持单文件的编译 故将所有内容都集中在一个源文件内 在实际的设计中 推荐将抽象
  • JVM 虚拟机

    JDK1 2 Exact VM虚拟机优化 能够准确的判断内存中数时执行内存引用还是整数值 从而减少了句柄的中间开销 提高了熟读 Exact VM因它使用准确式内存管理 Exact Memory Management 也可以叫Non Cons
  • 内连接、外连接、左连接、右连接

    连接是使用一定条件将两个表合在在一起的操作 包括内连接 inner join 和外连接 outer join 1 内连接 等值连接 两个表中都满足相关条件的记录才被选择出来 2 外连接包括左外连接 左连接 left join 和右外连接 右
  • 美国一桶牛奶多少钱?

    你好 我是郭震 zhenguo 最近 关注我的朋友中有几位 想叫我多分享下美国的生活 今天我就从一个很小的生活点入手 牛奶 开始 牛奶在美国超市一般都是下面的这种大桶 比如Costco超市里 一般提供以下两种 口感有些不同 但是价格很相似
  • JAVA学习经验谈

    本文是我自2002年9月开始JAVA学习以来的一点经验之谈 首先我不是有丰富编程经验的程序员 所以本文不对JAVA的具体语法 编程技巧和设计模式做过多的论述 仅从个人的学习角度谈感受 由于有大学期间的C语言学习经历我对JAVA的基本语法相对
  • The Difference between Probability and Statistic

    本科数学专业 现在在PKU学习计算机 当前主要的focus是DNN RNN in Action Recognition 心中总有一股数学情结 OOAD 课程上老师提及这个问题 所以信誓旦旦地想写一篇博客 可惜最后发现雷声大 雨点小 先mar
  • 使用IDEA 对springboot项目进行打war包

    网上很多版本 以下是本人新建springboot项目后本地测试通过 好了上步骤 1首先这个地方需要配置
  • 多媒体讲解器基本型设计

    多媒体讲解器功能按照播放器功能和灯光控制功能分类 播放功能分类 简易型 具备按键操作功能 TF卡升级 在线播放 U盘升级 在线播放 具备人体接近检测功能 红外 雷达 自动播放讲解功能 自动停止讲解功能 自动播放音乐 自动切换到讲解功能 切换
  • Dart 断言(assert)和异常

    一 断言 assert 断言的作用是 如果表达式的求值结果不满足需要 则打断代码的执行 可以要将提示消息附加到断言 添加一个字符串作为第二个参数 实例 void main String urlString http www baidu co
  • Winsock状态说明及错误代码

    Winsock状态参数说明 常数 值 描述 sckClosed 0 缺省值 关闭 SckOpen 1 打开 SckListening 2 侦听 sckConnectionPending 3 连接挂起 sckResolvingHost 4 识
  • “定点打击”——XPath 使用细则(Just For Selenium WebDriver)

    该系列文章系个人读书笔记及总结性内容 任何组织和个人不得转载进行商业活动 Selenium WebDriver中有关元素定位的学习 需要XPath的支持 特此梳理 前言 XPath教程 XPath是一门在XML文档中查找信息的语言 XPat
  • 基于线性预测的语音编码原理解析

    早期的音频系统都是基于声音的模拟信号实现的 在声音的录制 编辑和播放过程中很容易引入各种噪声 从而导致信号的失真 随着信息技术的发展 数字信号处理技术在越来越多领域得到了应用 数字信号更是具备了易于存储和远距离传输 没有累积失真 抗干扰能力