python实现调用科大讯飞语音听写(将音频识别成文字输出)

2023-11-07

一、大致流程

1)申请科大讯飞账号(https://passport.xfyun.cn/register)

2)创建应用(应用平台选择WebAPI)

3)查看开发文档

4)根据开发文档和示例代码进行调试

二、申请科大讯飞账号

首先我们先去科大讯飞开放平台注册一个账号:https://passport.xfyun.cn/register
在这里插入图片描述
三、创建应用

我们再去官网(https://www.xfyun.cn/?ch=bdpp)的产品服务中选择语音听写服务进入后点击web API抢先体验
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
创建完应用后在我的应用中就可以看见我们刚刚创建的项目了,我们点击刚创建的应用旁边的开发文档

四、查看开发文档

我们主要看两个文档:接口描述 + 语音听写

1)接口描述

一个是授权认证部分,这里主要需要两个个数据:appid、paikey(这两个数据可以到我们刚刚创建的应用处查询)

我们拿到这两个数据后主要是为了在Http Re’quest Header中配置以下参数:
在这里插入图片描述
注:

apiKey:接口密钥,由讯飞开放平台提供,调用方注意保管,如泄露,可联系讯飞技术人员重置;
checkSum 有效期:出于安全性考虑,每个 checkSum 的有效期为 5 分钟(用 curTime 计算),同时 curTime 要与标准时间同步,否则,时间相差太大,服务端会直接认为 curTime 无效;
BASE64 编码采用 MIME 格式,字符包括大小写字母各26个,加上10个数字,和加号 + ,斜杠 / ,一共64个字符。
2)语音听写文档

在文档开头提供了另一个参数:接口地址(http://api.xfyun.cn/v1/service/v1/iat)

然后我们可以根据文档末的python代码写的调用实例来进行调用了

四、根据开发文档进行调试

说明:将脚本中 AUDIO_PATH, API_KEY, APPID, 换成相应的音频路径,讯飞开放平台提供的 apiKey,讯飞开放平台应用的 appid 即可,运行脚本可打印相应结果。

这里需要注意一点的是:文档中采用python2.7写的,如果你想使用python3的话就看我下面的代码

#!/usr/bin/python
# -*- coding: UTF-8 -*-
#import urllib2
import time
import urllib
import json
import hashlib
import base64
import urllib.request
import urllib.parse
 
 
def main():
    f = open("你需要识别的音频的文件地址", 'rb')  #rb表示二进制格式只读打开文件
    file_content = f.read()
    # file_content 是二进制内容,bytes类型
    # 由于Python的字符串类型是str,在内存中以Unicode表示,一个字符对应若干个字节。
    # 如果要在网络上传输,或者保存到磁盘上,就需要把str变为以字节为单位的bytes
    # 以Unicode表示的str通过encode()方法可以编码为指定的bytes
    base64_audio = base64.b64encode(file_content)   #base64.b64encode()参数是bytes类型,返回也是bytes类型
    body = urllib.parse.urlencode({'audio': base64_audio})
 
    url = 'http://api.xfyun.cn/v1/service/v1/iat'
    api_key = '你的apikey'
    param = {"engine_type": "sms16k", "aue": "raw"}
 
    x_appid = '你的appid'
    x_param = base64.b64encode(json.dumps(param).replace(' ', '').encode('utf-8')) #改('''')
    # 这是3.x的用法,因为3.x中字符都为unicode编码,而b64encode函数的参数为byte类型,
    # 所以必须先转码为utf-8的bytes
    x_param = str(x_param, 'utf-8')
 
    x_time = int(int(round(time.time() * 1000)) / 1000)
    x_checksum = hashlib.md5((api_key + str(x_time) + x_param).encode('utf-8')).hexdigest() #改
    x_header = {'X-Appid': x_appid,
                'X-CurTime': x_time,
                'X-Param': x_param,
                'X-CheckSum': x_checksum}
    # 不要忘记url = ??, data = ??, headers = ??, method = ?? 中的“ = ”,这是python3
    req = urllib.request.Request(url = url, data = body.encode('utf-8'), headers = x_header, method = 'POST')
    result = urllib.request.urlopen(req)
    result = result.read().decode('utf-8')
    print(result)
    return
 
if __name__ == '__main__':
    main()

只要将音频地址、appid、apikey分别替换对应的位置就行了。还要记得去你的应用处给添加你的ip白名单:只要复制你的ip地址在ip白名单中就可以了。

最后需要注意的是音频的格式,科大讯飞的语音听写对音频格式有要求,经过测试我发现打开win10自带的录音随便录一段是识别不出来的,其要求的音频格式如下:
在这里插入图片描述
最后这里我提供一个我录音的方法:

1)首先去goldwave官网下载goldwave应用

2)然后点击new,出现录音的格式,修改如下即可
在这里插入图片描述
然后再右侧点击录音,录完后保存到相应的目录,在你的代码中替换你刚录制的这个音频的地址就可以了

最后识别成功返回如下,就代表成功了(图中data即我测试的录音内容):

在这里插入图片描述

其实识别效果真的是惨不忍睹

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python实现调用科大讯飞语音听写(将音频识别成文字输出) 的相关文章

随机推荐

  • React基础-生命周期

    1 引出生命周期 unmountComponentAtNode 卸载组件 componentDidMount 组件挂载完毕 componentWillReceiveProps 组件将要接受参数 子组件将要接受新参数时触发的生命周期函数 sh
  • 【JavaWeb】练习五

    1 gt 过滤器实现登录过滤 WebFilter urlPatterns do initParams WebInitParam name driver value com mysql jdbc Driver public class Log
  • Springboot 拦截器,拦截所有请求,判断是否登录,验证权限

    Java的三大器 拦截器的作用 Java里的拦截器是动态拦截Action调用的对象 它提供了一种机制可以使开发者在一个Action执行的前后执行一段代码 也可以在一个Action执行前阻止其执行 同时也提供了一种可以提取Action中可重用
  • libevent 事件循环

    include
  • Dubbo zookeeper 初探

    原文地址 http blog csdn net wxwzy738 article details 16330383 转 http blog csdn net u011270461 article details 12144623 建议参考资
  • 信息隐藏技术--图像置乱

    图像置乱 图像置乱是信息隐藏技术的一种 图像置乱后图像无法辨认 可以达到对图像信息的隐藏和保护作用 分类 空域置乱 频域置乱 空频域混合置乱 图像置乱对信息起到了隐藏和保护的作用 既可以对信息进行加密传送 也可以作为图像处理的预处理 图像置
  • Spring系列文章:Bean的获取⽅式

    一 简介 Spring为Bean提供了多种实例化 式 通常包括4种 式 也就是说在Spring中为Bean对象的创建准 备了多种 案 的是 更加灵活 第 种 通过构造 法实例化 第 种 通过简单 模式实例化 第三种 通过factory be
  • ffmpeg中sws_scale()用法实例

    ffmpeg中sws scale 用法实例 视频编码 2009 06 30 10 02 27 阅读1185 评论0 字号 大 中 小 订阅 Copyright C 2003 Michael Niedermayer
  • vue 表单相互校验

    这里举例校验姓和名的长度和不少于3
  • 4个java死锁工具:jstack、jconsole、jvisualvm、jmc

    在 Java 中 死锁 Deadlock 情况是指 两个或两个以上的线程持有不同系统资源的锁 线程彼此都等待获取对方的锁来完成自己的任务 但是没有让出自己持有的锁 线程就会无休止等待下去 线程竞争的资源可以是 锁 网络连接 通知事件 磁盘
  • GB28181视频监控国标平台EasyGBS角色绑定设备通道的功能优化

    GB28181视频监控国标平台EasyGBS是基于国标GB28181协议 支持多路设备同时接入的视频监控 视频云服务平台 支持对多平台 多终端分发RTSP RTMP FLV HLS WebRTC等格式的视频流 国标GB28181平台Easy
  • go网站收藏

    golang修养之路 go每日新闻 go语言社区 go语言设计与实现
  • 报错解决:Process finished with exit code -1073741819 (0xC0000005)

    简单记录一下程序异常终止 抛出 Process finished with exit code 1073741819 0xC0000005 的解决方法 一 程序中文件位置错误 缺少文件 位置错误1 如果使用相对路径的话 推荐换成绝对路径进行
  • 剑指 Offer 11. 旋转数组的最小数字(java+python)

    把一个数组最开始的若干个元素搬到数组的末尾 我们称之为数组的旋转 给你一个可能存在 重复 元素值的数组 numbers 它原来是一个升序排列的数组 并按上述情形进行了一次旋转 请返回旋转数组的最小元素 例如 数组 3 4 5 1 2 为 1
  • Java日志的占位符

    如果日志中是集合 且集合的对象为基本数据类型 那么占位符和基本数据类型保持一致 如果集合对象为自定义对象 那么需要获取对应的实例后再获取对应的属性 看属性的基本数据类型 如果不需要获取属性 就把对象toString后用 s接收 payloa
  • Parse方法解析字符串

    今天才注意到Parse方法解析字符串时可以通过NumberStyles枚举和IFormatProvider接口分析字符串的格式
  • Qt的事件过滤器installEventFilter

    一 介绍 WPF中使用AddHandler来监听事件 那么QT呢 Qt的事件模型是使用一个QObject对象 来监视发送其他QObject对象的事件 在事件到达之前对其进行处理 这里要使用一个函数 void QObject installE
  • Typora主题推荐

    Typora主题推荐 官网 https theme typora io 以前我用的是github主题 现在是Drake 但是字体有点小 改了css 进行微调一下 1 cobalt主题 2 Drake主题 3 fluent主题 4 gitbo
  • 读《自己动手写操作系统》(于渊著)第一节

    最近开始看 自己动手写操作系统 虽然很早以前就读过一点点 但一直没有机会动手实践 本着光说不练假把式的原则 今天动手实践了开头的一部分 说得这么正经其实你就是看了一点点吧 囧 废话不多说 在这里做一个小小的总结 实验环境 操作系统 win7
  • python实现调用科大讯飞语音听写(将音频识别成文字输出)

    一 大致流程 1 申请科大讯飞账号 https passport xfyun cn register 2 创建应用 应用平台选择WebAPI 3 查看开发文档 4 根据开发文档和示例代码进行调试 二 申请科大讯飞账号 首先我们先去科大讯飞开