英伟达推新AI语音识别模型Parakeet 号称优于Whisper

2024-01-09

领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发,是语音识别领域的一大突破,为实现更自然高效的人机交互铺平了道路。

根据开发人员的说法,这些模型对音乐和静音等非语音片段具有鲁棒性,并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。

image.png

NVIDIA 宣布推出了四个 Parakeet 模型,这些模型基于 RNN Transducer / Connectionist Temporal Classification 解码器,并且具有0.6-1.1亿参数。它们能够应对各种音频环境,并且在仅使用了64,000小时的数据集进行训练后,在基准数据集上实现了出色的词错误率(WER)表现,优于以往的模型。

Parakeet RNNT1.1B - 最佳识别准确性,推理速度适中。当需要最准确的转录时最适用。

Parakeet CTC1.1B - 推理速度快,识别准确性强。在准确性和推理速度之间取得了很好的平衡。

Parakeet RNNT0.6B - 识别准确性强,推理速度快。适用于有限资源的大规模推理。

Parakeet CTC0.6B - 速度最快,识别准确性适中。在转录速度最重要的情况下非常有用。

Parakeet 模型对非语音片段(包括音乐和静音)具有抗干扰能力,有效防止生成虚构的转录结果。Parakeet 是基于 NVIDIA NeMo 工具包构建的,注重用户友好性和灵活性。预训练的检查点可供直接使用,将模型集成到项目中非常方便。无论是寻求即时推理能力还是针对特定任务进行微调,NeMo 都提供了一个强大而直观的框架,充分发挥模型的潜力。

image.png

Parakeet 模型的主要优点包括:

- 最先进的准确性:在各种音频来源和领域上具有出色的 WER 表现,并对非语音片段具有强大的鲁棒性。

- 不同的模型大小:提供了0.6B 和1.1B 参数的两种模型,能够对复杂语音模式进行强大的理解。

- 开源和可扩展性:基于 NVIDIA NeMo 构建,可以无缝集成和自定义。

- 预训练检查点:可用于推理或微调的即插即用模型。

- 宽松的许可证:根据 CC-BY-4.0许可证发布,模型检查点可在任何商业应用中使用。

Parakeet 是对话 AI 发展的重大进步。其出色的准确性,加上 NeMo 提供的灵活性和易用性,使开发人员能够创建更自然、直观的语音应用程序。从提高虚拟助手的准确性到实现无缝的实时通信,无限可能。Parakeet 系列模型在 HuggingFace Leaderboard 上取得了最先进的成绩。用户可以亲自尝试 parakeet-rnnt-1.1b,并在 Gradio 演示中使用。要在本地访问模型并探索工具包,请访问 NVIDIA NeMo 的 Github 页面。

官方博客网址:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

英伟达推新AI语音识别模型Parakeet 号称优于Whisper 的相关文章

随机推荐

  • 有没有实用的视频、图片素材网站推荐?

    在作品创作中 素材网站扮演着至关重要的角色 它们提供了海量的设计资源 为设计师 艺术家和创意工作者提供了无限的可能性 本文将为您介绍几款备受推崇的素材网站 帮助您开启创意之旅 一 制片帮素材 制片帮素材是一个提供海量精品视频素材的网站 站内
  • Freertos低功耗管理

    空闲任务中的低功耗Tickless处理 在整个系统运行得过程中 其中大部分时间都是在执行空闲任务的 空闲任务之所以执行 因为在系统中的其他任务处于阻塞或者被挂起时才会执行 因此可以将空闲任务的执行时间转换成低功耗模式 在其他任务解除阻塞而准
  • 天锐绿盾|绿盾加密软件|电脑文件防泄密|文件加密|图纸加密软件|源代码加密|源代码防泄密系统|公司办公终端核心文件数据\资料防止外泄管理软件系统!

    天锐绿盾是一款专业的数据加密和管理软件 旨在保护企业的重要数据不被泄露或损坏 该软件采用了先进的加密技术 确保数据在存储 传输和使用过程中的安全性 同时 天锐绿盾还提供了完善的管理功能 方便企业对加密数据进行统一管理和控制 PC端访问地址1
  • 企业文件加密防止数据泄密

    企业文件加密是一种有效的防止数据泄密的方法 通过对企业的重要文件进行加密 可以确保未经授权的人员无法获取文件内容 从而保护企业的机密信息 PC端访问地址 www drhchina com PC端访问地址1 https isite baidu
  • Fiddler工具 — 9.命令行和状态栏

    1 命令行 命令行在Fiddler的左下方的黑色窗口 也叫 QuickExec 可以调用 Fiddler的内置命令 这一系列内置的函数用于筛选和操作会话列表中的session 会话 虽然它不是很显眼 但用好它 会让你的工作效率提高 N 倍
  • 设计行业终端图纸透明加密 | 防泄密软件

    在涉及设计行业的图纸加密方面 一款强大的加密软件对于保护敏感数据至关重要 PC端访问地址1 www drhchina com PC端访问地址2 https isite baidu com site wjz012xr 2eae091d 1b9
  • 在线识别图片文字工具有哪些?教你快速提取文字

    文字识别工具 也称为光学字符识别 OCR 工具 是一种能将图像中的文本信息转化为可编辑和可搜索的数字格式的过程 它是现代信息处理和人工智能领域的重要应用之一 文字识别工具的作用在于 无论是纸质文档 电子文档还是照片上的文字 都能通过该工具进
  • 毕业设计 HTTP 自助服务

    目录 项目 HTTP 自助服务 介绍 项目展示 背景知识 HTTP 协议 HTTP自主服务编写 sock 套接字编写 Tcp 服务器编写 小组件 锁守卫 lockGuard 测试Tcp服务器运行 编写 HTTP 服务 Tcp 服务中获取监听
  • APP加固技术及其应用

    文章目录 引言 APP加固的概念 APP加固的方案 APP加固在实际开发中的应用 总结 引言 在移动应用开发过程中 APP加固技术起到了非常重要的作用 APP加固是将apk文件进行混淆加密 以防止别人反编译获取我们的源码和资源文件 目前市场
  • 基于php应用的文件管理器eXtplorer部署网站并内网穿透远程访问

    文章目录 1 前言 2 eXtplorer网站搭建 2 1 eXtplorer下载和安装 2 2 eXtplorer网页测试 2 3 cpolar的安装和注册 3 本地网页发布 3 1 Cpolar云端设置
  • 天锐绿盾文档加密系统

    绿盾文档加密系统是一种针对企业数据安全而设计的解决方案 旨在保护企业核心数据不被泄露 该系统由文件加密模块 内网安全模块等部分组成 主要功能包括对需要保护的文件进行强制加密保护 并对文件的使用进行全程监控 通过绿盾文档加密系统 企业可以实现
  • Vue + Element-ui组件上传图片报错问题解决方案

    在使用Vue和Element ui组件上传图片时 可能会遇到一些报错问题 以下是一些常见的问题及解决方案 报错 TypeError Cannot read property name of undefined 解决方案 这个错误通常是因为在
  • 用对AI工具,工作效率嘎嘎提高

    随着人工智能 AI 技术的飞速发展 AI软件已经深入到我们生活的方方面面 为我们的工作和生活带来了前所未有的便利 本文将为您介绍几款具有代表性的AI软件 让您了解这一强大技术引擎的魅力所在 一 AI软件介绍 1 悦音配音 这是一款基于AI人
  • TeslaMate特斯拉神器本地Docker部署实现无公网远程访问

    文章目录 1 Docker部署TeslaMate 2 本地访问TeslaMate 3 Linux安装Cpolar 4 配置TeslaMate公网地址 5 远程访问TeslaMate 6 固定TeslaMate公网地址
  • D - Loong and Takahashi (经典模拟绕圈)

    题目 https atcoder jp contests abc335 tasks abc335 d 思想 令 flag 0 1 2 3 分别代表四个方向右 下 左 上 然后判断下一步是否超过边界或者被填充过 如果是 就换方向 最后输出 代
  • 机器配音在线工具有哪些? 让你的语音合成更自然

    你是不是也想成为一名大博主 随着现在的互联网时代蓬勃发展 出现了一批又一批的网红 在家里带带货 拍拍视频就能赚大钱 越来越多的人朝向网络世界进击 那么这些大博主制作一个爆款视频 必不可少的就是配音啦 但是其实很多博主用的并不是真人配音 而是
  • 如何使用内网穿透实现iStoreOS软路由公网远程访问局域网电脑桌面

    文章目录 简介 一 配置远程桌面公网地址 二 家中使用永久固定地址 访问公司电脑 具体操作方法是 简介 软路由 是PC的硬件加上路由系统来实现路由器
  • 实用软件分享,打工人必备~

    在这个数字化时代 各种实用软件已经成为我们生活中不可或缺的工具 它们可以帮助我们更高效地完成工作 提高生活质量 节省时间和精力 本文将为您介绍几款实用的软件 让您的工作和生活更加便捷 一 视频下载工具 犀牛下载器 一款免安装的在线视频下载工
  • 新导物联智慧文物导览系统的定位技术分析

    智慧文物导览系统的定位技术可以采用多种方式 下面是几种常见的定位技术分析 GPS定位 全球定位系统 GPS 是一种基于卫星的定位技术 通过接收卫星信号来获取设备所在的地理位置 这种技术适用于室外环境 可以提供较高的定位准确性 蓝牙定位 蓝牙
  • 英伟达推新AI语音识别模型Parakeet 号称优于Whisper

    领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列 这是一系列最先进的自动语音识别 ASR 模型 能够以出色的准确性转录英语口语 Parakeet ASR 模型与 Suno ai 合作开发 是语