使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

2023-05-16

Whisper AI 是一种语音识别和转录软件,它使用人工智能 (AI) 将口头语言转换为书面文本。它旨在通过消除手动转录语音内容的需要来帮助个人和企业节省时间并提高工作效率。在下文中,您将学习如何使用 Whisper AI!

该软件能够识别和转录多种语言和口音的语音,并提供标点符号和格式选项等功能,以提高转录的准确性。Whisper AI 由 ChatGPT 的创建者 OpenAI 提供。

您可以在 https://openai.com/blog/whisper/ 找到 Whisper AI 的一般介绍:

可以从 GitHub 检索 Whisper AI,存储库位于 https://github.com/openai/whisper:

安装 Whisper AI

可以使用 Python 的包管理器 pip 安装语音转文本 AI:

$ pip install git+https://github.com/openai/whisper.git

由于模型很大,我们不会在本地下载和执行 Whisper AI。相反,我们将使用 Google 的 Colaboratory,这是一个可在浏览器中访问的云 Python 开发环境。Colaboratory 可在 https://colab.research.google.com/ 上找到,并且可以使用您的 Google 帐户访问。

创建一个新的 Colab notebook 并将其命名为WhisperAITest.ipynb如何使用个人重命名器高效地批量重命名文件就像您在以下屏幕截图中看到的那样:

从运行时菜单中选择菜单项更改运行时类型,如以下屏幕截图所示:

这会将您带到以下屏幕,您可以在其中更改设置 GPU 的硬件加速器:

通过应用此设置,我们确保您在执行 AI 模型时获得最佳性能。

为了安装 Whisper,我们需要使用以下两个命令,这些命令需要插入到 Colaboratory notebook 的第一个单元格中:

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

第一个命令是确保在开发环境中下载并安装了 Whisper AI 包。

通过使用第二个命令,我们安装了 ffmpeg 工具,这是一个完整的跨平台解决方案,用于记录、转换和流式传输音频和视频。Whisper 使用此工具来访问音频/视频文件。

为了执行这两个命令,您需要点击单元格左侧的执行按钮。然后您应该能够看到类似于以下内容的输出:

将音频文件上传到 Colaboratory

接下来,打开 Colaboratory 左侧面板上的文件视图并上传一个包含英语语音音频流的示例 MP3 文件:

运行 Whisper AI

准备就绪后,我们就可以通过以下方式在另一个代码单元中执行 whisper 命令来运行 Whisper:

!whisper "sample.mp3" --model medium.en

我们在此定义应处理先前上传的 sample.mp3 文件,并且我们选择 Whisper 的英语媒介模型。

执行此代码单元时,您首先会注意到正在下载模型。中型模型的总大小为 1.42 GB。下载完成后,将处理音频文件,我们将取回文本转录:

除了代码执行单元格中显示的文本转录输出之外,您还可以看到文件也已添加到项目中:

已添加的文件是:

  • 样本.mp3.json

  • 样本.mp3.srt

  • 样本.mp3.tsv

  • 样本.mp3.txt

  • 样本.mp3.vtt

这些文件包含生成的文本以及不同的格式。例如,文件 sample.mp3.txt 仅包含纯文本,而文件 sample.mp3.vtt 包含的文本格式为另外添加的时间戳信息。

如果您想了解所有 whisper 命令行选项的概览,您可以输入

!whisper -h

然后将为您提供所有可以使用的命令行选项的概述:

选择正确的 Wisper AI 模型

在上一个示例中,我们一直在使用 medium.en 模型。该型号中等尺寸,仅支持英语。

Whisper AI 提供以下模型供您选择:

除了仅支持英语的型号外,还提供多语言型号。模型尺寸从小模型增加到大模型。通过使用更大的模型尺寸,您将获得更好的结果。但是,执行时间也在增加。

如果您不确定将哪种模型用于特定的转录任务,最好先从中等模型开始。

结论

总之,Whisper AI 是一款优秀的自由语音转文本 AI 工具,可以显着提高您的写作效率和生产力。凭借其先进的语音识别和转录技术,Whisper AI 可以准确地将口头内容转换为多种语言和口音的书面文本,使其成为个人和企业的多功能工具。因此,如果您正在寻找可靠且高效的语音转文本工具,请务必尝试使用 Whisper AI 并亲自体验 AI 驱动转录的强大功能!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI 的相关文章

  • git命令 远程

    文章目录 pull amp push Git仓库克隆远程仓库 96 git clone 96 远程分支从远程仓库获取数据 96 git fetch 96 从远程仓库获取数据 96 git pull 96 上传数据到远程仓库 96 git p
  • 遥感图像场景分类方法总结

    遥感图像场景分类一般假定相同类别的场景应该共享相似的特征信息 xff0c 基于此 xff0c 遥感图像场景分类方法可以分为三大类 xff1a 基于底层视觉特征 xff0c 基于中层视觉表达 xff0c 基于高层视觉信息 底层视觉特征 xff
  • 香橙派如何扩容升级内存?超简单迁移系统到新的SD卡,树莓派也适用

    香橙派扩容迁移系统到新的SD卡 前言迁移系统新系统测试 本文博客地址 xff1a 香橙派迁移系统到新的 SD 卡 前言 刚开始用香橙派的时候 xff0c 用的是一个 16G 的 SD 卡 xff0c 但随着系统上装的软件越来越多 xff0c
  • 博途(TIA)软件安装教程;博途软件安装常见问题解决办法

    博途软件安装教程 xff0c 这里有两位前辈写的非常不错 xff0c 但在具体细节不够充分 xff0c 对于第一次接触此类软件的小伙伴来说不太友好 xff0c 于是在此进行补充 xff0c 并对安装中常见的问题进行一个汇总 建议 安装时主要
  • zabbix 监控源代码安装

    实验环境 192 168 0 108 server端 192 168 0 109 agent端 步骤一 配置两台虚拟机确保ip能连网 配置l两台主机名 vim etc hostname 配置两台主机hosts文件 cat etc hosts
  • exec函数与fork函数的配合使用

    1 实现功能 当父进程检测到输入为1的时候 xff0c 创建子进程把配置文件的字段值 LENG 61 1修改为LENG 61 6 修改掉 代码如下 xff1a 将该修改配置文件通过gcc o 编译生成可执行文件changeData xff0
  • java中的Arrays.sort()的几种用法

    目录 1 第一种2 第二种方法3 第三种方法4 额外补充 for each的语法结构 直奔主题 Arrays sort 有三种用法 1 第一种 Arrays sort int a 查看源码 span class token keyword
  • Maven:导出war包时报错Failed to execute goal org.apache.maven.plugins:maven-war-plugin解决方法(全)

    出现如下问题的时候 是因为在target文件夹下没有生成war文件 Failed to execute goal org apache maven plugins maven war plugin 2 2 war default war o
  • java框架 零基础从入门到精通的学习路线 附开源项目面经等(超全)

    目录 前言1 学习路线2 学习方法 前言 这篇文章主要总结我之前所学过的框架以及学习路线 从实打实的零基础到框架再到项目 之后实习工作 也在这篇博客中记录我的学习笔记 以及在笔记中遇到的配置安装 代码bug等错误 都从零开始摸索并且记录了下
  • Java抽象类和接口的详细区别(全)

    目录 前言1 抽象类2 接口3 两者结合4 面试总结 前言 这两者经常在笔试以及面试中经常问及 xff0c 甚至在项目实战中还在纠结用哪一种类型 今天就此问题详细剖析一下 以往我的文章中也有稍微提及 xff1a java框架零基础从入门到精
  • Python 通过ImageDraw.rectangle 画矩形框

    目录 1 函数讲解2 示例代码3 补充cv2 rectangle 1 函数讲解 源代码如下 xff1a ImageDraw rectangle xy fill 61 None outline 61 None width 61 1 主要的参数

随机推荐

  • 基于迁移深度学习的遥感图像场景分类

    前述 根据语义特征对遥感图像场景进行分类是一项具有挑战性的任务 因为遥感图像场景的类内变化较大 xff0c 而类间变化有时却较小 不同的物体会以不同的尺度和方向出现在同一类场景中 xff0c 而同样的物体也可能出现在不同的场景里 理论上 x
  • reStructuredText文档图片表格等自动编号以及名称修改

    number figures 61 True numfig 61 True numfig secnum depth 61 1 numfig format 61 39 figure 39 39 图 s 39 39 code block 39
  • Robocup 2D仿真足球机器人环境搭建(Ubuntu 16.04)

    现在很多高校的学生都在搞RoboCup2D仿真足球机器人 xff0c 而平台的搭建便是一大问题 本人也在搭建环境中遇到各种奇奇怪怪的问题 xff0c 有些找了许多网页 xff0c 下面是我对环境搭建 中遇到的问题以及解决方法的总结 希望能帮
  • Robocup 2D仿真足球机器人环境搭建快速搭建

    虽然之前已经写了Robocup 2D仿真足球机器人环境搭建 xff0c 但是后面我找到了更快搭建环境的方法 而且现在很多团队都是在agent底层代码的基础上编写的 之前的方法配置的环境运行agent球队代码会出现错误 通过找资料得知是有些软
  • Robocup 2D新手导读(入门总结)

    目前 xff0c 我们团队接触Robocup 2D比赛也有好几个月了 xff0c 不得不说 这个比赛也有一定难度 尤其是对于第一次接触这个比赛的我们来 说 下面是我的一些总结 xff0c 希望能够帮助你们 1 Robocup 2D的比赛基本
  • Robocup 2D比赛代码导读(agent底层代码指导)

    相信刚开始接触Robocup 2D比赛的萌新 xff0c 都清楚agent的代码看起来是很痛苦的 xff0c 而且不知道从何看起 我个人观点看代码先看bhv和role这部分的代码 bhv行为动作的类的代码涉及到球员的进攻 跑位 防守 铲球等
  • python爬虫接单-资料总结

    相信看到我这篇文章的朋友们 xff0c 都是奔着赚钱来的 当初我也是冲着爬虫接单 可以赚钱 xff0c 一下就报了个将近3000元的爬虫班 python爬虫确实可以接单赚钱 后来学会了之后就迫不及待地加入了接单行列 也确实赚了一些 希望这篇
  • 爬虫Scrapy框架的介绍与使用

    Scrapy Scrapy介绍 爬取网站数据 xff0c 提取结构数据而编写的爬虫应用框架 Scrapy工作流程图 Scrapy命令 span class token number 1 span 创建Scrapy项目 scrapy star
  • 太难为我了,为了这份P7岗offer,我承受了7轮面试

    前言 今年的大环境非常差 xff0c 互联网企业裁员的现象比往年更严重了 xff0c 可今年刚好是我的第一个 五年计划 截止的时间点 xff0c 说什么也不能够耽搁了 xff0c 所以早早准备的跳槽也在疫情好转之后开始进行了 但是 xff0
  • 云计算与大数据概论第五周

    对于 大数据 xff08 Big data xff09 研究机构Gartner给出了这样的定义 大数据 是需要新处理模式才能具有更强的决策力 洞察发现力和流程优化能力来适应海量 高增长率和多样化的信息资产 麦肯锡全球研究所给出的定义是 xf
  • 【hadoop_读写流程】

    14 hadoop 补充 xff1a 解决 linux 网卡丢失问题 xff1a service NetworkManager stop chkconfig NetworkManager off 重启网络 systemctl restart
  • 半监督学习

    半监督学习 xff1a 在训练阶段结合了大量未标记的数据和少量标签数据 与使用所有标签数据的模型相比 xff0c 使用训练集的训练模型在训练时更为准确 xff0c 而且训练成本更低 如何综合利用已标签例子和未标签例子 xff0c 是半监督学
  • [控制原理基础]浅谈PID算法

    一 PID使用背景 当今的自动控制技术都是基于反馈的概念 即一个In Loop闭环的理论 xff0c 反馈理论的要素包括三个部分 xff1a 测量 比较和执行 测量关心的变量 xff0c 与期望值相比较 xff0c 用这个误差纠正调节控制系
  • 解决Github下载慢的问题!

    从GitHub上下载文件对于国内的我们简直太痛苦了 xff0c 下载了半天稳定在了8kb s 于是我开始寻找解决的方法 xff0c 最开是的方法是去查github com网站的IP xff0c 然后将IP添加到hosts文件里 xff0c
  • [Pix:地面站Mission Planner常见故障和处理方法]

    连接飞控的MP软件以后 xff0c 观察飞行数据界面 xff08 简称HUD xff09 以下为常见错误 xff1a RC not calibrated 未校正遥控器 xff0c 需要校正遥控器Compass not calibrated
  • Pixhawk指示灯的含义

    飞控的指示灯含义 xff1a 红灯与蓝灯交替闪烁 xff1a 系统初始化蓝灯闪烁 xff1a 飞控锁定状态 xff0c GPS正在搜星状态 黄灯连闪两次 xff1a 系统拒绝解锁 xff0c 提示错误 绿灯闪烁 xff1a 飞控锁定状态 x
  • 转载:Pixhawk无人机扩展教程--树莓派安装Dronekit及读取飞控数据

    寻找了一段时间 xff0c 发现Dronekit Python可以实现脱离遥控器来控制无人机 xff0c 找到了一些较好的教程 xff0c 但是中间也踩了一些坑 先转载一下教程 xff0c 遇到的哪些坑以后再写 这里
  • 转载:Pixhawk无人机扩展教程--使用Dronekit编写一个控制程序

    跳转 xff1a 详细教程
  • SQL执行错误#1251.从数据库的响应:

    问题 xff1a 使用 MySQL Font 连接数据库时 xff0c 显示如下错误 xff1a 解决方法 xff1a 使用管理员身份运行命令提示符 xff08 win 43 R 然后输入 cmd xff0c 进入到MySQL的bin目录中
  • 使用 Whisper AI 领先游戏:最佳和免费的语音到文本 AI

    Whisper AI 是一种语音识别和转录软件 xff0c 它使用人工智能 AI 将口头语言转换为书面文本 它旨在通过消除手动转录语音内容的需要来帮助个人和企业节省时间并提高工作效率 在下文中 xff0c 您将学习如何使用 Whisper