【更好的中文语音识别SpeechBrain Win10/11本地部署，基于Aishell】

2023-11-10

在这里插入图片描述
环境：Win11x64+Vscode+Python3.7.2x64+Pytorch1.9(CPU or GPU)
本文默认Win11，Win10 100%素可以得，默认向下兼容！

首先，你得把Vscode弄好(python 插件安装)，py环境搭好，我们用默认得base py环境即可，当然，你也可以在conda创建py环境

然后在https://huggingface.co/speechbrain/asr-transformer-aishell/tree/main，下载
在这里插入图片描述
下载完自己改文件名以及后缀，改得和这个框内一模一样的（必须）！
然后vscode创建py工程文件夹，在里面新建pretrained_models/asr-transformer-aishell文件夹，把下载的全部丢进去：

pip安装环境：
pip install speechbrain
PS：这个命令会安装90%的环境(默认安装 cup版 Pytorch)，但是还有一个没得装，就是torchaudio后端，因为这个torchaudio就是一个套壳api，所以手动安装SoundFile或SoX后端，如果已安装可以跳过
pip install SoundFile
or
pip install sox

然后。。。

参考谷歌在线代码编辑器
https://colab.research.google.com/drive/1hX5ZI9S4jHIjahFCZnhwwQmFoGAi3tmu?usp=sharing#scrollTo=OKI0SovKtbZm

我们创建py脚本：

from speechbrain.pretrained import EncoderDecoderASR
import torch
import torchaudio

# https://huggingface.co/speechbrain/asr-transformer-aishell/tree/main
# https://colab.research.google.com/drive/1hX5ZI9S4jHIjahFCZnhwwQmFoGAi3tmu?usp=sharing#scrollTo=PPB0K9z3B43c
//PS：CPU版本和GPU版本Pytorch加载参数不同，具体参考下面谷歌在线代码
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-transformer-aishell", savedir="pretrained_models/asr-transformer-aishell")
# asr_model.transcribe_file("speechbrain/asr-transformer-aishell/example_mandarin.wav")


audio_1 = "F:/CSharpProject/KaldiDemo/KaldiDemo/bin/x64/Release/妹妹就是爱.flac"
#error:No audio IO backend is available
#安装SoundFile : 运行指令 pip install SoundFile
#or者安装SoX ： 运行指令： pip install sox
ddd=torchaudio.list_audio_backends()
print(ddd)
snt_1, fs = torchaudio.load(audio_1)
wav_lens=torch.tensor([1.0])
print('snt_1:',snt_1," wav_lens:",wav_lens)
res=asr_model.transcribe_batch(snt_1, wav_lens)

print('res:',res)

#对于用GPU版pytorch的小伙伴，加载模型可以参考以下代码
# Uncomment for using another pre-trained model
#asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-crdnn-rnnlm-librispeech", savedir="pretrained_models/asr-crdnn-rnnlm-librispeech",  run_opts={"device":"cuda"})
#asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-crdnn-transformerlm-librispeech", savedir="pretrained_models/asr-crdnn-transformerlm-librispeech",  run_opts={"device":"cuda"})
asr_model = EncoderDecoderASR.from_hparams(source="speechbrain/asr-transformer-transformerlm-librispeech", savedir="pretrained_models/asr-transformer-transformerlm-librispeech",  run_opts={"device":"cuda"})

在这里插入图片描述
PS：这个识别效率还是灰常高的，在cpu下都很快，gpu应该会更快！
如果你素这样类似得输出，那么恭喜你，你の手中已经抓住了未来

完整代码和模型文件我已经上传群共享和CSDN，想学习的进群，不想的自己TB几毛钱买个代下即可
https://download.csdn.net/download/weixin_44029053/32726942
安装好pytorch和Python环境，vscode设置Python程序根目录直接运行，不需要改任何代码

下一步，我们要用这个来训练我们的唤醒词，进行语音唤醒实战，敬请期待我的博客，记得三连（没有）！

PS：本人并非语音方面专业人士，不过也在学习，大家可以加群一起探讨一下，集思广益，群号：558174476（游戏与人工智能生命体）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【更好的中文语音识别SpeechBrain Win10/11本地部署，基于Aishell】的相关文章

在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA

随机推荐

微信小程序使用image组件显示图片的方法

本文实例讲述了微信小程序使用image组件显示图片的方法分享给大家供大家参考具体如下 1 效果展示 2 关键代码 index wxml 代码如下
Lightgbm 直方图优化算法深入理解

一概述在之前的介绍Xgboost的众多博文中已经介绍过在树分裂计算分裂特征的增益时 xgboost 采用了预排序的方法来处理节点分裂这样计算的分裂点比较精确但是也造成了很大的时间开销为了解决这个问题 Lightgbm 选择了
ubuntu16.04 使用astra s摄像头

Astra相机使用方法官网链接 https orbbec3d com develop Astra相机 GitHub orbbec ros astra camera ROS wrapper for Astra camera 普通相机 Git
mac安装lrzsz后运行卡死解决办法

lrzsz的安装配置具体参见 https segmentfault com a 1190000012166969 上述完成后若可以正常使用万事大吉如出现卡死的情况可以查看配置文件 usr local bin iterm2 recv
openwrt 之通过uci 设置参数

在openwrt中默认一种配置文件默认的路径 etc config 在这里面的所有配置文件如需要修改只需使用uci 这个指令来修改以下uci 指令参数 root xxxx uci Usage uci
ubuntu自带vim配色方案

系统版本 ubuntu 16 04 LTS 刚开始用vim的时候大家可能会觉得默认的语法高亮的颜色不合心意不过对于vim来说这并不是一个问题其实vim的配色方案是可以更改的既可以选择系统自带的配色方案也可以从网上下载其它配色方案
简单理解Hadoop（Hadoop是什么、如何工作）

一 Hadoop主要的任务部署分为3个部分分别是 Client机器主节点和从节点主节点主要负责Hadoop两个关键功能模块HDFS Map Reduce的监督当Job Tracker使用Map Reduce进行监控和调度数据的并行处
linux下部署thinkphp5项目

准备工作购买一个linux服务器地址安装好linux常用的ssh工具我这边喜欢用xshell敲命令用filezilla传输文件这些工具只要到官网下载就好速度很快的 1 安装phpstudy for linux 安装下载phpst
java：JSONArray转byte[]字节数组

package com xxx huali hualitest json import com alibaba fastjson JSONArray import com alibaba fastjson util Base64 publi
C语言运行流程

在上一篇文章visual studio如何运行并调试C语言代码中写了如何运行并调试代码我们就明确一个事实即不论是嵌入式系统亦或是普通PC电脑对于程序的运行硬件处理器只能识别0 1的二进制码从类人语言的C代码需要经过一系列的转换过
各种算法使用场景

深度优先搜索BFS VS 广度优先搜索 DFS 算法就是回溯算法 BFS 相对 DFS 的最主要的区别是 BFS 找到的路径一定是最短的但代价就是空间复杂度可能比 DFS 大很多递归灵魂三问 labuladong 告诉你遇到任何递归型
SQL Server基础Sql语句复习

基础至极 1 创建表 create table Course Cno char 4 primary key not null 创建主键非空 Cname char 40 not null Cpno char 4 Ccredit smalli
软件测试报告bug统计,软件测试中如何有效地写Bug报告

引言为公众写过软件的人大概都收到过很拙劣的bug 计算机程序代码中的错误或程序运行时的瑕疵译者注报告例如在报告中说不好用所报告内容毫无意义在报告中用户没有提供足够的信息在报告中提供了错误信息所报告的问题是由于用户的过失
【算法学习笔记】17：DFS与BFS

1 DFS 深度优先搜索常用于解决需要给出所有方案的问题因为它的搜索顺序就是能够得到一个完整的搜索路径方案后回退再去搜索其它的方案 1 1 例题排列数字由于要求所有排列的方案可以每次从 1 n 1 n 1 n里拿一个数字然后记
为什么P值不再是0.05（孟德尔随机化）

为什么P值不再是0 05 孟德尔随机化为什么P值不再是0 05 孟德尔随机化
长连接和短链接的区别

长连接意味着进行一次数据传输后不关闭连接长期保持连通状态如果两个应用程序之间有新的数据需要传输则直接复用这个连接无需再建立一个新的连接就像下图这样它的优势是在多次通信中可以省去连接建立和关闭连接的开销并且从总体上来看进行多
＜数据结构＞堆的应用 --- 堆排序和Topk问题

目录 1 堆排序法一自己写堆进行排序时间复杂度分析法二直接对数组建堆向上调整建堆向下调整建堆向上建堆和向下建堆熟优升序能否建小堆排序建大堆 2 TopK问题何为Topk 实现过程 1 堆排序假如我们有一串乱序数组
深度学习论文：Deep Residual Learning for Image Recognition

论文 He Kaiming et al Deep residual learning for image recognition Proceedings of the IEEE conference on computer vision a
【华为OD统一考试B卷

在线OJ 已购买本专栏用户请私信博主开通账号在线刷题运行出现 Runtime Error 0Aborted 请忽略华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一
【更好的中文语音识别SpeechBrain Win10/11本地部署，基于Aishell】

环境 Win11x64 Vscode Python3 7 2x64 Pytorch1 9 CPU or GPU 本文默认Win11 Win10 100 素可以得默认向下兼容首先你得把Vscode弄好 python 插件安装 py环境搭

【更好的中文语音识别SpeechBrain Win10/11本地部署，基于Aishell】

【更好的中文语音识别SpeechBrain Win10/11本地部署，基于Aishell】 的相关文章

随机推荐

热门标签

【更好的中文语音识别SpeechBrain Win10/11本地部署，基于Aishell】的相关文章