语音识别-初识

2023-11-09

ASRT
https://blog.ailemon.net/2018/08/29/asrt-a-chinese-speech-recognition-system/
ASR-Automatic Speech Recognition &&&&&&&&&& Paddle Speech
涉及数据集：Aishell, wenetspeech, librispeech…
涉及方法：
① DeepSpeech2: End-to-End Speech Recognition in English and Mandarin;
② u2–Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition；
&&&&&&&&&&&&&&&
Conformer, Transformer, chunk-conformer
① SpeedySpeech: Efficient Neural Speech Synthesis (conformer);
② Conformer: Convolution-augmented Transformer for Speech Recognition
&&&&&&&&&&&&&&&
其中解码方式还涉及，Attention, …and so on.
不同的解码方式，其 Character Error Rate - CER 也不尽相同。

About End to End :
E2E models combine the acoustic, pronunciation and language models into a single neural network, showing competitive results compared to conventional ASR systems.
There are mainly three popular E2E approaches, namely CTC, recurrent neural network transducer (RNN-T) and attention based encoder-decoder (AED).

Propose a new framework namely U2 to unify non-streaming and streaming speech recognition.

Framework is based on the hybrid CTC/attention architecture with conformer blocks.
Propose a dynamic chunk-based attention strategy to allow arbitrary right context length.

To support streaming, Modify the conformer block while bringing negligible performance degradation.

Figure:
a Shared Encoder, a CTC Decoder and a Attention Decoder.
The Shared Encoder consists of multiple Transformer or Conformer encoder layers.

The CTC Decoder consists of a linear layer and a log softmax layer;
The CTC loss function is applied over the softmax output in training.

The Attention Decoder consists of multiple Transformer decoder layers.

模型包含三个部分，分别为共享的Encoder、CTC解码器、Attention解码器；

共享Encoder包含多层transformer或者conformer；
（encoder-conformer layers are particularly modified.—改成了causal convolution）
CTC解码器为一个全连接层和一个softmax层；
Attention解码器包含多层transformer层。

在这里插入图片描述
Propose a dynamic chunk-based attention strategy to allow arbitrary right context length.

At inference time, the CTC decoder generates n-best hypotheses in a streaming manner.

The inference latency could be easily controlled by only changing the chunk size.

The CTC hypotheses are then rescored by the attention decoder to get the final result.
This efficient rescoring process causes negligible sentence-level latency.
注意力解码器对 CTC 假设进行重新评分以获得最终结果。
这种高效的重新评分过程导致的句子级延迟可以忽略不计。

模型训练loss包含两个部分：CTC loss 和 AED loss
x为输入的声学特征，y为音频标注序列
第一项为 CTC loss，第二项为 AED loss
λ用于平衡CTC与AED；

在这里插入图片描述

Make the Shared Encoder only see limited right contexts, then CTC decoder could run in a streaming mode in the first pass.----------为了使模型支持流式，需要限制共享Encoder看到未来信息。

为了支持流式语音识别，提出了Dynamic Chunk Training。

U2 只能在共享编码器流式传输时进行流式传输。 在标准的 Transformer 编码器层中使用了完全自注意力。 即，如果靠下图的（a）, 做不到流式传输。(a)为标准的self attention，在每个输入时刻t都需要依赖整句的输入。

针对这一问题，最简单的流式思路，限制当前时刻t只看到历史信息，不看任何未来信息，如图(b)所示，但该方案会极大的影响模型识别效果。

而另外一种常用的思路，限制当前时刻t看到有限的未来时刻信息（比如看到未来C帧信息）-----
Limited input t only see a limited right context t+ 1, t+ 2, …, t+W, where W is the right context for each encoder layer, and the total context is accumulated through all the encoder layers.
For example, if we have N encoder layers, each has W right context, the total context is N ∗ W.

在这里插入图片描述
针对于此，提出了chunk attention，图（C）。
通过固定的块大小 C 将输入分成几个块，深绿色代表当前块，对于每个块，都有输入 [t+1, t+2, …, t+C]，每个块都依赖于自身和所有之前的块。
那么编码器的整个延迟取决于块大小，这很容易控制和实现。
可以使用固定的块大小来训练模型，称之为静态块训练，并使用相同的块进行解码。
在模型训练中，Chunk的大小可以是固定的，也可以是动态调整的。

在这里插入图片描述

CTC 解码器以流式传输方式输出第一遍假设。
在输入结束时，注意力解码器使用完整的上下文注意力来获得更好的结果。
这里探讨了两种不同的模式：
1. Attention Decoder mode. -----The CTC results are ignored in this mode.
Attention Decoder generate outputs in an auto-regressive way with the attention of the output of Shared Encoder.
2. Rescoring mode.
来自 CTC 的 n 最佳假设由注意力解码器在教师强制模式下使用共享编码器的输出进行评分。最好的重新评分假设用作最终结果。这种模式避免了自回归过程并获得更好的实时因子。
此外，可以通过简单的方式对 CTC 分数进行加权组合以获得更好的结果。

在这里插入图片描述

题外1::
CTC靠谱链接：
https://www.cnblogs.com/liaohuiqiang/p/9953978.html
https://zhuanlan.zhihu.com/p/42719047

题外2::
SoX（ Sound eXchange）是一个跨平台（Windows，Linux，MacOS 等）的命令行实用程序，可以将各种格式的音频文件转换为需要的其他格式。
SoX 还可以对输入的音频文件应用各种效果，也支持在大多数平台上播放和录制音频文件。

链接：https://www.jianshu.com/p/be8977de4a6b

题外3::
Python .mp3转.wav

from pydub import AudioSegment

wav_file = 'now.wav'

song = AudioSegment.from_mp3('2.mp3')
song.export(wav_file , format="wav")

其中AudioSegment需要装ffmpeg
不是pip install
而是下载ffmpeg的文件，里面包含bin/ffmpeg.exe，并在环境变量中配置才行；

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

语音识别-初识的相关文章

语音识别学习记录 [再谈频率混叠（定量分析、离散采样后频谱的周期延拓）]

前几天在语音识别学习记录传说中的频率混叠和Nyquist定理定性理解中简单理解了一下频率混叠的原因但是也发现了很多不明白的问题 1 为什么信号经过傅里叶变换后在频域是关于y轴对称的这个问题的回答已经写在语音识别学习记录信号经傅里
全网最详细中英文ChatGPT-GPT-4示例文档-智能聊天机器人从0到1快速入门——官网推荐的48种最佳应用场景（附python/node.js/curl命令源代码，小白也能学）

从0到1快速入门智能聊天机器人应用场景 Introduce 简介 setting 设置 Prompt 提示 Sample response 回复样本 API request 接口请求 python接口请求示例 node js接口请求示例 c
n-gram模型中的平滑方法

当使用n gram模型对测试语料中的句子进行评估时如果句子中包含在训练集中未出现的n元语法则计算出来句子出现的概率为0 例如上一篇博客语言模型和n元语法中的例子此时用该模型来计算下面句子的概率因此必须分配给所有可能出现的字符串一个
文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）

1 爬虫 1 1 爬虫原理这部分内容可以跳过掌握与否对后面内容的阅读影响并不大但有兴趣的话可以看看呐实现一个爬虫一般需要经过两个步骤处理请求和解析源码数据处理请求方面我们可以使用Python程序自动发送请求然后根据返回的
基于tensorflow2.0+使用bert获取中文词、句向量并进行相似度分析

本文基于transformers库调用bert模型对中文英文的稠密向量进行探究开始之前还是要说下废话主要是想吐槽下为啥写这个东西呢因为我找了很多文章要么不是不清晰要么就是基于pytorch 所以特地写了这篇基于tensorf
智能制造中的智能制造平台：应用案例介绍

作者禅与计算机程序设计艺术智能制造中的智能制造平台应用案例介绍智能制造作为我国大力发展的重要战略旨在通过改变传统制造业的生产模式提高制造业的自主创新能力和核心竞争力智能制造平台作为实现智能制造的核心基础对于企业来说具有重要的
技术英雄会【新闻】CSDN最有价值博客TOP10颁奖【图】【我在左边数第四个】

2007年04月06日 10 04 新浪科技夹带些私货呵呵社区英雄会一问周鸿祎一个问题社区英雄会二问CSDN一个信息过滤器的问题技术英雄会三社区英雄们的与会感言大赏技术英雄会四也谈如何发掘到需要的内容和英雄图为
因果推断：因果表征学习的CV落地

作者 Ostrich 单位阿里巴巴算法工程师研究方向自然语言处理搜索算法本文主要梳理因果推断与机器学习相结合的一些比较新的工作思路也是尝试回答自己在学习因果推断基础知识时的一些疑问突然被广泛谈及的因果可以以什么样的方式落地
【NLP】第 6 章：微调预训练模型

到目前为止我们已经了解了如何使用包含预训练模型的huggingface API 来创建简单的应用程序如果您可以从头开始并仅使用您自己的数据来训练您自己的模型那不是很棒吗如果您没有大量空闲时间或计算资源可供使用那么使用迁移学习是最
自然语言处理nltk下载以及nltk_data下载及其所遇问题解决方案

目录一 nltk的下载二 nltk data 下载三解压 nltk data 存放目录可能会出现的问题一 nltk的下载新建虚拟环境 conda activate n NLP python 3 8 创建虚拟环境方便管理激活虚拟
BMVC 2022 (东京大学)仅需90K参数！实时完成低光增强, 曝光矫正的超轻量级Transformer网络IAT，已开源

本文由 52CV 粉丝投稿作者信息门下奶狗知乎地址 https zhuanlan zhihu com p 535695807 我们提出Illumination Adaptive Transformer IAT 网络用来探索实时的暗光
Transformer

目录 Encoder LayerNorm怎么做的 Feed Forward FeedForward代码公式 FeedForward的作用是什么 Decoder output 它的output 是什么为什么output要进行shifted
机器翻译：跨越语言边界的智能大使

导言机器翻译作为人工智能领域的瑰宝正在以前所未有的速度和精度为全球沟通拓展新的可能性本文将深入研究机器翻译的技术原理应用场景以及对语言交流未来的影响 1 简介机器翻译是一项致力于通过计算机自动将一种语言的文本翻译成另一种语言的技
大模型微调技巧：在 Embeeding 上加入噪音提高指令微调效果

大家好在去年分享过一篇ACL2022的文章通过微调前给预训练模型参数增加噪音提高预训练语言模型在下游任务的效果方法 NoisyTune方法在BERT XLNET RoBERTa和ELECTRA上均取得不错的效果那么通过加入噪音的方式
【Transformer】ViT and TNT（2）

文章目录 VIT TNT 太完整了同济大佬唐宇迪博士终于把 Transformer 入门到精通全套课程分享出来了最新前沿方向学习笔记 VIT eg 图片分块 10x10x3 的 patch 通过 conv 拉成向量就无缝对接了位
【论文阅读笔记】BTS-ST: Swin transformer network for segmentation and classification of multimodality breast

Iqbal A Sharif M BTS ST Swin transformer network for segmentation and classification of multimodality breast cancer imag
自然语言处理初学者指南（附1000页的PPT讲解）

自然语言处理是计算机科学领域和人工智能领域的重要研究方向之一旨在探索实现人与计算机之间用自然语言进行有效交流的理论与方法它融合了语言学计算机科学机器学习数学认知心理学等多学科内容涉及从字词短语到句子段落篇章的多种语言单
ACL 2024投递指南

诸神缄默不语个人CSDN博文目录显然写这篇博客是因为我要投ACL了 TL DR ACL 2024是ARR提交制 workshop归workshop 最晚提交时间是2024年2月15号在此之前可以随时撤回 4月15号出结果 4月20号确
LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS

本文是LLM系列文章针对 LONGQLORA EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS 的翻译 LONGQLORA 扩
概述：利用大模型 (LLMs) 解决信息抽取任务

论文标题 Large Language Models for Generative Information Extraction A Survey 论文链接 https arxiv org pdf 2312 17617 pdf 论文主要探讨

随机推荐

LVM动态扩容逻辑卷详解

LVM逻辑卷管理简介 LVM是逻辑卷管理 Logical Volume Manager 的简称它是Linux环境下对磁盘分区进行管理的一种机制 LVM是建立在硬盘和分区之上的一个逻辑层来提高磁盘分区管理的灵活性 LVM最大的特点就是可
Openldap导入数据（一）

在安装完openldap之后默认ldap中是没有数据的需要管理员进行添加当然添加的方法也不止一种这里先介绍第一种方法从本地系统添加用户到ldap中 root ldapsrv01 ldapsearch x b dc contoso
ES查询不存在的索引，索引未创建导致查询报错

ES查询不存在的索引索引未创建导致查询报错项目中的一个es索引是根据时间建立的在对其操作时候因时间原因此索引为创建查询时候报如下错误 Elasticsearch exception type index not found exc
Swagger配置完成以后，登录账户名和密码的设置

spring security basic path swagger ui html enabled true user name admin 账号 password 123456 密码
ajax长轮询tornado,数据可用时如何完成Tornado长轮询请求

我有很长的编程背景但对Python还不熟悉我正在研究Tornado 以构建一个长轮询服务的原型在我想实现的是用户连接说example com get 1234 这是长轮询部分 1234是用户ID 目前它只是挂起并等待内容然后用户
【从零开始的Java开发】1-2-4 Java方法

文章目录方法方法分类数组作为方法参数方法重载基本数据类型的传值数组的传值引用数据类型可变参数列表可变参数列表作为方法参数的重载文档注释方法的调试细节与总结方法所谓方法就是用来解决一类问题的代码的有序组合是一个
MCU,MPU,MMU,CACHE的含义

1 mcu和mpu CPU Central Processing Unit 中央处理器发展出来三个分枝一个是DSP Digital Signal Processing Processor 数字信号处理另外两个是MCU Micro Co
HTML ＜colgroup＞标签

实例两个 colgroup 元素为表格中的三列规定了不同的对齐方式和样式注意第一个 colgroup 元素横跨两列 table width 100 border 1 table
[138]小米笔记本怎么关闭secure boot

关闭Secure Boot的步骤一关闭快速启动功能 1 右键开始菜单电源选项进入后点击选择电源按钮的功能 2 进入电源选项设置后点击更改当前不可用的设置再把启用快速启动推荐前边的勾去掉若没有该选择则不需要操作
MDK与芯片的联系

程序执行的时候FLASH空间 code RO data 程序执行时SRAM空间 RW data ZI data 程序存储时占用空间 code RO data RW data 在目录下打开命令行窗口按shift 鼠标右键 gt 可以将信息输
区块链：Solidity值类型(Solidity 枚举Enums & 结构体Structs)

枚举Enums 案例 pragma solidity 0 4 4 contract test enum ActionChoices GoLeft GoRight GoStraight SitStill ActionChoices choic
华为OD机试 C++ 叠积木

题目你手里有一堆砖头它们都有一样的宽和高但长度不同你想用这些砖头堆砌一堵墙每一层墙可以只用一个砖头也可以用两个拼接起来但这两种情况下每层的长度必须都是一样的如果你想使用所有的砖头并堆砌出尽可能多的层数那么最多可以搭建多
C#(winform)调用pytorch模型

winform调用pytorch上训练好的unet模型项目是写一个辅助诊断系统软件用winform写软件调用pytorch和matlab的模型这篇博客只包含调用pytorch模型的部分 1 c libtorch 调用模型 2 c 生
java使用aspose.pdf或者spire.pdf 将pdf文件转word，实测

1 aspose pdf aspose pdf不是破解版的只能转3页所以我弄了个破解版 aspose pdf破解版在网上都有破解方法也比较简单这里就不说了直接引入破解版的jar包在这里我用的是aspose pdf 21 11 jar
Qt第四十五章：QComboBox 禁止滚轮

很简单直接反射将QComboBox的wheelEvent方法重置掉即可 self combo box QComboBox self setattr self combo box wheelEvent lambda a None
车联网Apollo（阿波罗），研究carlife车机端集成及开发，(WeLink，carplay／carlife)

Apollo 阿波罗是携程框架部门研发的分布式配置中心能够集中化管理应用不同环境不同集群的配置配置修改后能够实时推送到应用端并且具备规范的权限流程治理等特性适用于微服务配置管理场景 https github com ctrip
C语言提取一列数据并保存

c语言求教 txt文档只有一列数据但是有很多需要把它提取出来每1024个数保存在一个文件中求大神指教 c语言
什么时候需要使用引用？使用引用的好处是什么？

作者谢之易链接 https www zhihu com question 34267829 answer 58414818 来源知乎著作权归作者所有商业转载请联系作者获得授权非商业转载请注明出处记忆里 C 的设计与演化一书提
【华为机试真题 Python实现】仿 LISP 运算【2022 Q1 Q2

题目描述 LISP 语言唯一的语法就是括号要配对形如 OP P1 P2 括号内元素由单个空格分割其中第一个元素 OP 为操作符后续元素均为其参数参数个数取决于操作符类型注意参数 P1 P2 也有可能是另外一个嵌套的 OP P1
语音识别-初识

ASRT https blog ailemon net 2018 08 29 asrt a chinese speech recognition system ASR Automatic Speech Recognition Paddle

语音识别-初识

语音识别-初识 的相关文章

随机推荐

热门标签

语音识别-初识的相关文章