python实现调用科大讯飞语音听写（将音频识别成文字输出）

2023-11-07

一、大致流程

1)申请科大讯飞账号（https://passport.xfyun.cn/register）

2)创建应用（应用平台选择WebAPI）

3)查看开发文档

4)根据开发文档和示例代码进行调试

二、申请科大讯飞账号

首先我们先去科大讯飞开放平台注册一个账号：https://passport.xfyun.cn/register
在这里插入图片描述
三、创建应用

我们再去官网（https://www.xfyun.cn/?ch=bdpp）的产品服务中选择语音听写服务进入后点击web API抢先体验
在这里插入图片描述

创建完应用后在我的应用中就可以看见我们刚刚创建的项目了，我们点击刚创建的应用旁边的开发文档

四、查看开发文档

我们主要看两个文档：接口描述 + 语音听写

1)接口描述

一个是授权认证部分，这里主要需要两个个数据：appid、paikey（这两个数据可以到我们刚刚创建的应用处查询）

我们拿到这两个数据后主要是为了在Http Re’quest Header中配置以下参数：
在这里插入图片描述
注：

apiKey：接口密钥，由讯飞开放平台提供，调用方注意保管，如泄露，可联系讯飞技术人员重置；
checkSum 有效期：出于安全性考虑，每个 checkSum 的有效期为 5 分钟(用 curTime 计算)，同时 curTime 要与标准时间同步，否则，时间相差太大，服务端会直接认为 curTime 无效；
BASE64 编码采用 MIME 格式，字符包括大小写字母各26个，加上10个数字，和加号 + ，斜杠 / ，一共64个字符。
2)语音听写文档

在文档开头提供了另一个参数：接口地址（http://api.xfyun.cn/v1/service/v1/iat）

然后我们可以根据文档末的python代码写的调用实例来进行调用了

四、根据开发文档进行调试

说明：将脚本中 AUDIO_PATH, API_KEY, APPID, 换成相应的音频路径，讯飞开放平台提供的 apiKey，讯飞开放平台应用的 appid 即可，运行脚本可打印相应结果。

这里需要注意一点的是：文档中采用python2.7写的，如果你想使用python3的话就看我下面的代码

#!/usr/bin/python
# -*- coding: UTF-8 -*-
#import urllib2
import time
import urllib
import json
import hashlib
import base64
import urllib.request
import urllib.parse
 
 
def main():
    f = open("你需要识别的音频的文件地址", 'rb')  #rb表示二进制格式只读打开文件
    file_content = f.read()
    # file_content 是二进制内容，bytes类型
    # 由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。
    # 如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes
    # 以Unicode表示的str通过encode()方法可以编码为指定的bytes
    base64_audio = base64.b64encode(file_content)   #base64.b64encode()参数是bytes类型，返回也是bytes类型
    body = urllib.parse.urlencode({'audio': base64_audio})
 
    url = 'http://api.xfyun.cn/v1/service/v1/iat'
    api_key = '你的apikey'
    param = {"engine_type": "sms16k", "aue": "raw"}
 
    x_appid = '你的appid'
    x_param = base64.b64encode(json.dumps(param).replace(' ', '').encode('utf-8')) #改('''')
    # 这是3.x的用法，因为3.x中字符都为unicode编码，而b64encode函数的参数为byte类型，
    # 所以必须先转码为utf-8的bytes
    x_param = str(x_param, 'utf-8')
 
    x_time = int(int(round(time.time() * 1000)) / 1000)
    x_checksum = hashlib.md5((api_key + str(x_time) + x_param).encode('utf-8')).hexdigest() #改
    x_header = {'X-Appid': x_appid,
                'X-CurTime': x_time,
                'X-Param': x_param,
                'X-CheckSum': x_checksum}
    # 不要忘记url = ??, data = ??, headers = ??, method = ?? 中的“ = ”，这是python3
    req = urllib.request.Request(url = url, data = body.encode('utf-8'), headers = x_header, method = 'POST')
    result = urllib.request.urlopen(req)
    result = result.read().decode('utf-8')
    print(result)
    return
 
if __name__ == '__main__':
    main()

只要将音频地址、appid、apikey分别替换对应的位置就行了。还要记得去你的应用处给添加你的ip白名单：只要复制你的ip地址在ip白名单中就可以了。

最后需要注意的是音频的格式，科大讯飞的语音听写对音频格式有要求，经过测试我发现打开win10自带的录音随便录一段是识别不出来的，其要求的音频格式如下：
在这里插入图片描述
最后这里我提供一个我录音的方法：

1)首先去goldwave官网下载goldwave应用

2)然后点击new，出现录音的格式，修改如下即可
在这里插入图片描述
然后再右侧点击录音，录完后保存到相应的目录，在你的代码中替换你刚录制的这个音频的地址就可以了

最后识别成功返回如下，就代表成功了（图中data即我测试的录音内容）：

在这里插入图片描述

其实识别效果真的是惨不忍睹

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python实现调用科大讯飞语音听写（将音频识别成文字输出）的相关文章

Python 切片对象和 __getitem__

python 中是否有内部的东西来处理传递给的参数 getitem 不同并自动转换start stop step构造成切片这是我的意思的演示 class ExampleClass object def getitem self args
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
Series.sort() 和 Series.order() 有什么区别？

s pd Series nr randint 0 10 5 index nr randint 0 10 5 s Output 1 3 7 6 2 0 9 7 1 6 order 按值排序并返回一个新系列 s order Output 2 0
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
Python Tkinter 模块不显示输出

我正在尝试学习 Python 并尝试使用 Python 中的 GUI 并遇到了这个 Tkinter 模块我的代码运行但运行时窗口没有出现我的代码如下 from Tkinter import to create a root windo
python 中的 <> 运算符有什么作用？

我刚刚遇到这个here http www feedparser org feedparser py 总是这样使用 if string1 find string2 lt gt 1 pass 什么是 lt gt 运算符这样做为什么不使用通常的
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
给定一个排序数组，就地删除重复项，使每个元素仅出现一次并返回新长度

完整的问题我开始在线学习 python 但对这个标记为简单的问题有疑问给定一个排序数组就地删除重复项使得每个元素只出现一次并返回新的长度不分配另一个数组的额外空间您必须通过修改输入来完成此操作数组就地具有 O 1 额外内
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
Airflow 1.9 - 无法将日志写入 s3

我在 aws 的 kubernetes 中运行气流 1 9 我希望将日志发送到 s3 因为气流容器本身的寿命并不长我已经阅读了描述该过程的各种线程和文档但我仍然无法让它工作首先是一个测试向我证明 s3 配置和权限是有效的这是在我们
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
使用 PIL 在 Tkinter 中显示动画 GIF

我正在尝试制作一个程序来使用 Tkinter 显示动画 GIF 这是我最初使用的代码 from future import division Just because division doesn t work right in 2 7 4
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型

随机推荐

React基础-生命周期

1 引出生命周期 unmountComponentAtNode 卸载组件 componentDidMount 组件挂载完毕 componentWillReceiveProps 组件将要接受参数子组件将要接受新参数时触发的生命周期函数 sh
【JavaWeb】练习五

1 gt 过滤器实现登录过滤 WebFilter urlPatterns do initParams WebInitParam name driver value com mysql jdbc Driver public class Log
Springboot 拦截器，拦截所有请求，判断是否登录，验证权限

Java的三大器拦截器的作用 Java里的拦截器是动态拦截Action调用的对象它提供了一种机制可以使开发者在一个Action执行的前后执行一段代码也可以在一个Action执行前阻止其执行同时也提供了一种可以提取Action中可重用
libevent 事件循环

include
Dubbo zookeeper 初探

原文地址 http blog csdn net wxwzy738 article details 16330383 转 http blog csdn net u011270461 article details 12144623 建议参考资
信息隐藏技术--图像置乱

图像置乱图像置乱是信息隐藏技术的一种图像置乱后图像无法辨认可以达到对图像信息的隐藏和保护作用分类空域置乱频域置乱空频域混合置乱图像置乱对信息起到了隐藏和保护的作用既可以对信息进行加密传送也可以作为图像处理的预处理图像置
Spring系列文章：Bean的获取⽅式

一简介 Spring为Bean提供了多种实例化式通常包括4种式也就是说在Spring中为Bean对象的创建准备了多种案的是更加灵活第种通过构造法实例化第种通过简单模式实例化第三种通过factory be
ffmpeg中sws_scale()用法实例

ffmpeg中sws scale 用法实例视频编码 2009 06 30 10 02 27 阅读1185 评论0 字号大中小订阅 Copyright C 2003 Michael Niedermayer
vue 表单相互校验

这里举例校验姓和名的长度和不少于3
4个java死锁工具：jstack、jconsole、jvisualvm、jmc

在 Java 中死锁 Deadlock 情况是指两个或两个以上的线程持有不同系统资源的锁线程彼此都等待获取对方的锁来完成自己的任务但是没有让出自己持有的锁线程就会无休止等待下去线程竞争的资源可以是锁网络连接通知事件磁盘
GB28181视频监控国标平台EasyGBS角色绑定设备通道的功能优化

GB28181视频监控国标平台EasyGBS是基于国标GB28181协议支持多路设备同时接入的视频监控视频云服务平台支持对多平台多终端分发RTSP RTMP FLV HLS WebRTC等格式的视频流国标GB28181平台Easy
go网站收藏

golang修养之路 go每日新闻 go语言社区 go语言设计与实现
报错解决：Process finished with exit code -1073741819 (0xC0000005)

简单记录一下程序异常终止抛出 Process finished with exit code 1073741819 0xC0000005 的解决方法一程序中文件位置错误缺少文件位置错误1 如果使用相对路径的话推荐换成绝对路径进行
剑指 Offer 11. 旋转数组的最小数字(java+python)

把一个数组最开始的若干个元素搬到数组的末尾我们称之为数组的旋转给你一个可能存在重复元素值的数组 numbers 它原来是一个升序排列的数组并按上述情形进行了一次旋转请返回旋转数组的最小元素例如数组 3 4 5 1 2 为 1
Java日志的占位符

如果日志中是集合且集合的对象为基本数据类型那么占位符和基本数据类型保持一致如果集合对象为自定义对象那么需要获取对应的实例后再获取对应的属性看属性的基本数据类型如果不需要获取属性就把对象toString后用 s接收 payloa
Parse方法解析字符串

今天才注意到Parse方法解析字符串时可以通过NumberStyles枚举和IFormatProvider接口分析字符串的格式
Qt的事件过滤器installEventFilter

一介绍 WPF中使用AddHandler来监听事件那么QT呢 Qt的事件模型是使用一个QObject对象来监视发送其他QObject对象的事件在事件到达之前对其进行处理这里要使用一个函数 void QObject installE
Typora主题推荐

Typora主题推荐官网 https theme typora io 以前我用的是github主题现在是Drake 但是字体有点小改了css 进行微调一下 1 cobalt主题 2 Drake主题 3 fluent主题 4 gitbo
读《自己动手写操作系统》（于渊著）第一节

最近开始看自己动手写操作系统虽然很早以前就读过一点点但一直没有机会动手实践本着光说不练假把式的原则今天动手实践了开头的一部分说得这么正经其实你就是看了一点点吧囧废话不多说在这里做一个小小的总结实验环境操作系统 win7
python实现调用科大讯飞语音听写（将音频识别成文字输出）

一大致流程 1 申请科大讯飞账号 https passport xfyun cn register 2 创建应用应用平台选择WebAPI 3 查看开发文档 4 根据开发文档和示例代码进行调试二申请科大讯飞账号首先我们先去科大讯飞开

python实现调用科大讯飞语音听写（将音频识别成文字输出）

其实识别效果真的是惨不忍睹

python实现调用科大讯飞语音听写（将音频识别成文字输出） 的相关文章

随机推荐

热门标签

python实现调用科大讯飞语音听写（将音频识别成文字输出）的相关文章