whisper

2023-10-26

Robust Speech Recognition via Large-Scale Weak Supervision

介绍

大规模弱监督的训练。先前的方法都是通过大量的无监督学习训练（无监督的数据容易收集，所以通过大量无监督的学习可以训练出一个质量较好的encoder）。但是用的时候还需要找一些有监督的数据进行微调。作者觉得微调是一个比较复杂的过程，而且微调的时候，很容易对特定的数据集过拟合，使得模型的泛化能力不强。作者认为一个真正的语音识别系统，应该是拿去就可以直接用，而不用进行微调。

方法

数据处理

whisper模型直接预测原始抄录文本，没有进行任何标准化。系统直接输出自然抄录文本，而不需要一个额外的反向文本归一化的步骤（开头字母大写、加上标点符号、缩写形式等）。

做文本归一化的好处是，可以让训练更加简单一点。但是这样事后需要基于规则等做文本归一化

意思说，只要我的数据足够大，所有的文本归一化的情况都会出现，不需要额外做文本归一化。

构建了来自网络上的不同环境（不同录音状态、说话人、使用的语言）下的【音频转录文本数据对】。这样能使得模型更加健壮。

网络上爬取下来的音频是原始的，但是文本的质量不一定好。所以说做了一个文本过滤器，过滤掉那些不好的文本。很多文本不是人为标注的，而是用ASR系统生成的，研究表明这些数据会让模型变得更差。所有需要把用ASR系统的文本过滤掉。用ASR系统生成的文本有一些特点，比如说没有复杂的标点符号（冒号、问号等），没有格式化的一些字符，比如换行字符，或者全部是大写或者全部是小写。

同时使用了音频语言检测器（2021年的一个prototype模型）和CLD2工具，检测说的是哪种语言，如果这两个检测出来的语言不一样，那么就把【音频转录文本对】数据删除。

把音频文件分为30秒的【音频文本对】。训练所有音频片段，包括那些没有人说话的音频（作为sub-sampled），使用这些片段区分有没有在说话。

模型

由于我们的工作重点是研究大规模监督预训练的语音识别能力，因此我们使用现成的架构来避免将我们的发现与模型改进混淆。

模型使用2017年的encoder-decoder Transformer。
声音输入到Transformer：所有音频采样16K Hz，变为80通道的 logmagnitude Mel spectrogram（每个时间点抽取了80维度的特征），每个时间窗口是25ms，每次窗口滑动10ms。

切30s的音频，每次滑动10ms，长为30s的音频变成了3000个数据点，每个数据点的维度是80
（一个段落3000个词，每个词的词嵌入长度是80）

在输入之前，经过两个卷积层，它的宽度是3，使用GELU激活函数，第二个卷积层的步幅是2

步幅为2，把3000个数据点变为1500

然后把正弦位置编码加到卷积层的输出中，一块送到encoder进行训练。

在这里插入图片描述

多任务格式

虽然语音识别模型的核心部分是预测说的一段话的单词，但这不是唯一的部分。对于一个完整特征的ASR系统来说，包括许多额外的部分，比如说检测是不是有人在说话，谁在说话，识别出来的文字归一化。这些部分通常是分别处理，然后把它们合起来，成为一个复杂完整的语音识别模型。为了减少复杂度，作者想要用一个模型执行所有的任务。可以在相同的输入音频信号上执行许多不同的任务：转录，翻译，语音活动检测等等。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

语音识别

人工智能

whisper 的相关文章

AAAI 2024 一作讲者招募 | 持续报名中

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入我们诚挚地邀请您来AI TIME分享您发表在AAAI 2024的工作请您扫码填写以下问卷如内容合适我们将会与您沟通相关分享事宜 AAAI 2024预讲会计划时间 2024年1
【连续和自适应资源需求估计】通过不断应用在线优化、选择和估计，SARDE能够有效地适应在线跟踪，并使用得到的集成技术减少模型误差（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码数据文章
文档扫描与矫正-仿射变换

图像变换是计算机视觉和图像处理中的关键技术之一它允许我们对图像进行各种形式的变形调整和校正其中仿射变换是一种常见的变换方式在文档扫描过程中由于拍摄角度和畸变等原因文档图像可能存在一定程度的形变仿射变换可以用于校正文档图像使
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
深度好文：最全的大模型 RAG 技术概览

本文是对检索增强生成 Retrieval Augmented Generation RAG 技术和算法的全面研究对各种方法进行了系统性的梳理涉及了 RAG 流程中的数据拆分向量化查询重写查询路由等等在做 RAG 的小伙伴一定知道
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
台积电再被坑，2纳米光刻机优先给Intel和三星，美国太霸道了

外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台三星获得3台台积电只能得到一台考虑到美国对ASML的强大影响力外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面自从2014年量产14纳米之
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

windows下启动nacos（单机配置）

windows下启动nacos 下载nacos 找到github地址并根据对应的版本进行下载如果下载过慢的话可以使用迅雷下载 1下载完成后进行解压之后打开 conf application properties文件 2 打开后我
机器学习实战——朴素贝叶斯

目录一朴素贝叶斯理论 1 概述 2 朴素贝叶斯特点 3 贝叶斯决策理论 4 条件概率与全概率公式 5 贝叶斯推断二朴素贝叶斯分类器应用拉普拉斯修正三垃圾邮件分类一朴素贝叶斯理论 1 概述朴素贝叶斯算法是有监督的学习算法
vue3.0模板

GitHub Mstian Vue Onepiece Admin vue3 elementPlus后台管理简单模板https github com Mstian Vue Onepiece Admin
null，default关键字

一 null关键字 1 null是空的意思在表中默认情况下所有的字段值都可以为空 1 建表期间可以对某一字段进行非空约束 not null 在insert时此字段必须要有数据 create table temo id number
libuv之基础

TCP客户端连接步骤连接方法 Uv loop t loop uv default loop uv tcp t client malloc uv connect t connect req malloc uv tcp init loop c
C++ 仿函数(一)

目录一仿函数是什么二仿函数的特点 1 仿函数在使用时可以像普通函数那样调用可以有参数可以有返回值 2 仿函数超出普通函数的概念可以有自己的状态编辑3 仿函数可以作为参数传递三谓词一元谓词示例二元谓词示例总结一
银行股的分红是不是比利率要高，投十万银行股一年分红有多少啊？

工农交建中目前股息均超5 以上 10万元投资银行股一年分红收益能达到5500左右银行一年定期存款1 5 10万存款年利息1500 买银行股比存银行一年多收益4000左右
dell服务器重装win10,戴尔dell重装win10系统后无法引导的解决方法(原创)

戴尔新机型都采用 Intel 酷睿第八代以上处理器戴尔8代以上cpu都不支持传统模式了默认预装了win10系统不是很好用想重新安装win10 但是预装win10的机型默认是UEFI引导但戴尔电脑装win10后出现不能引导情况一般出
OpenFeign配合logback链路追踪

创建MDC上下文 public class MdcContext MDC上下文存储tId private static final ThreadLocal
多线程（十）多线程编程示例

文章目录一交替输出1A2B3C4D5E 1 1 synchronized wait notify 1 2 Condition await signal 二生产者消费者问题 2 1 synchronized wait notify 2
java final关键字修饰局部变量,final关键字的这8个小细节，你get到几个?

今天来聊 final 关键字因为最近在看的几本书都讲到了 final 关键字发现好多小细节自己都忽视了抽空总结了一下分享给大家正文 final关键字是一个常用的关键字可以修饰变量方法类用来表示它修饰的类方法和变量不可改变
数据在底层的存储模式

1 数据的存储模式大端存储模式常见于我们的手机等低地址放高数据小端存储模式比如PC 低地址存放低数据面试题设计程序判断大小端这里可以有两种方式 1 写一个函数通过数据类型 int main int a 0x11223344
我的服务器开发之路-安装mysql之mariadb并更改数据库路径

centos最好安装mariadb 输入rpm qa grep mariadb 并没有显示版本号则说明并没有安装mariadb 输入yum remove mysql mysql server mysql libs可完全卸载mysql相关
K8S个人学习之路

服务器预备环境 1 永久禁用swap空间 1 临时关闭swap分区重启失效 swapoff a 2 永久关闭swap分区 sed ri s swap etc fstab 2 修改k8s gcr io 路径的镜像其他的镜像仓库 MY RE
Spark-RDD编程

Spark在进行计算的时候通常会包含以下几个步骤创建SparkContext上下文对象使用SparkContext加载数据创建RDD RDD的转换算子transfotmations RDD的行动算子actions RDD的缓存和持久化
反射获取字段的值与非空校验

获取指定字段的值通过字段对应的get方法 public Object getFieldValueByName1 String fieldName Object obj try String firstLetter fieldName su
《Semi-Supervised Semantic Segmentation with Cross-Consistency Training》 2020CVPR 论文阅读

在这项工作中作者首先观察到对于语义分割低密度区域在隐藏表示中比在输入中更明显作者提出了交叉一致性训练其中预测的不变性是施加不同的扰动在编码器输出上 Cross Consistency Training 该模型包含一个共享的enco
SQL千万级大数据量查询优化

转发自 https blog csdn net long690276759 article details 79571421 spm 1001 2014 3001 5506 防止查询资料找不到来源很详细 1 对查询进行优化应尽量避免全表
c++中istringstream及ostringstream超详细说明

文章目录 1 stringbuf类介绍 1 1 stringbuf类构造函数 1 2 str函数 2 istringstream类 2 1 rdbuf函数 2 2 swap函数 3 ostringstream类和stringstream类
whisper

Robust Speech Recognition via Large Scale Weak Supervision 介绍大规模弱监督的训练先前的方法都是通过大量的无监督学习训练无监督的数据容易收集所以通过大量无监督的学习可以训练出