基于百度短语音API的语音识别实现

2023-05-16

基于百度短语音API的语音识别实现

一. 前言
二. API介绍
- 2.1 简介
- 2.2 API的调用流程
三. 执行代码
四. 总结

一. 前言

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

二. API介绍

2.1 简介

百度短语音识别可以将 60 秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景。

接口类型：通过 REST API 的方式提供的通用的 HTTP 接口。适用于任意操作系统，任意编程语言
接口限制：需要上传完整的录音文件，录音文件时长不超过 60 秒。浏览器由于无法跨域请求百度语音服务器的域名，因此无法直接调用API接口。
支持音频格式：pcm、wav、amr、m4a
音频编码要求：采样率 16000、8000（仅支持普通话模型），16 bit 位深，单声道（音频格式查看及转换）

2.2 API的调用流程

创建账号及应用：在 ai.baidu.com 控制台中，创建应用，勾选开通 ”语音技术“-”短语音识别、短语音识别极速版“ 能力。获取AppID、API Key、Secret Key，并通过请求鉴权接口换取 token ，详细见 “接入指南”。
创建识别请求： POST 方式，音频可通过 JSON 和 RAW 两种方式提交。JSON 方式音频数据由于 base64 编码，数据会增大1/3。其他填写具体请求参数，详见 ”请求说明“。
短语音识别请求地址： http://vop.baidu.com/server_api
返回识别结果：识别结果会即刻返回，采用 JSON 格式封装，如果识别成功，识别结果放在 JSON 的 “result” 字段中，统一采用 utf-8 方式编码。详见 ”返回说明“。

三. 执行代码

import wave
import requests
import time
import base64
from pyaudio import PyAudio, paInt16


framerate = 16000  # 采样率
num_samples = 2000  # 采样点
channels = 1  # 声道
sampwidth = 2  # 采样宽度2bytes
FILEPATH = 'audio_frequency.wav'

base_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=%s&client_secret=%s"
APIKey = ""  # 填写自己的APIKey
SecretKey = ""  # 填写自己的SecretKey

HOST = base_url % (APIKey, SecretKey)


def getToken(host):
    res = requests.post(host)
    return res.json()['access_token']


def save_wave_file(filepath, data):
    wf = wave.open(filepath, 'wb')
    wf.setnchannels(channels)
    wf.setsampwidth(sampwidth)
    wf.setframerate(framerate)
    wf.writeframes(b''.join(data))
    wf.close()


def my_record():
    pa = PyAudio()
    stream = pa.open(format=paInt16, channels=channels,
                     rate=framerate, input=True, frames_per_buffer=num_samples)
    my_buf = []
    # count = 0
    t = time.time()
    print('环境搭建中...')
    print('环境搭建完毕，正在录音...')

    while time.time() < t + 4:  # 秒
        string_audio_data = stream.read(num_samples)
        my_buf.append(string_audio_data)
    print('录音结束.')
    save_wave_file(FILEPATH, my_buf)
    stream.close()


def get_audio(file):
    with open(file, 'rb') as f:
        data = f.read()
    return data


def speech2text(speech_data, token, dev_pid=1537):
    FORMAT = 'wav'
    RATE = '16000'
    CHANNEL = 1
    CUID = '*******'
    SPEECH = base64.b64encode(speech_data).decode('utf-8')

    data = {
        'format': FORMAT,
        'rate': RATE,
        'channel': CHANNEL,
        'cuid': CUID,
        'len': len(speech_data),
        'speech': SPEECH,
        'token': token,
        'dev_pid': dev_pid
    }
    url = 'https://vop.baidu.com/server_api'
    headers = {'Content-Type': 'application/json'}
    # r=requests.post(url,data=json.dumps(data),headers=headers)
    print('正在进行语音识别...')
    r = requests.post(url, json=data, headers=headers)
    Result = r.json()
    if 'result' in Result:
        return Result['result'][0],r
    else:
        return Result


if __name__ == '__main__':
    flag = 'y'
    while flag.lower() == 'y':
        my_record()
        TOKEN = getToken(HOST)
        speech = get_audio(FILEPATH)
        result,r = speech2text(speech, TOKEN)
        print('语音识别结果：',result)
        print('返回的响应结果：',r.json())
        flag = input('Continue?(y/n):')

四. 总结

可以根据自己的需要选取dev_pid参数来识别不同语言的语音
在安装pyaudio库的时候，可能会提示下载错误，原因是缺少一个文件。通过whl文件下载网站 https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyaudio下载对应版本的whl文件，这里面cp38是python3.8用的，win_amd64是64位用的，win32是32位用的。whl文件下载到一个目录里，用命令行或者pycharm终端安装，输入pip install 目录+whl文件名（例如我自己的：pip install E:\py\PyAudio-0.2.11-cp38-cp38-win32.whl，如果在安装目录下，可以不要绝对路径）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基于百度短语音API的语音识别实现的相关文章

Python -pip安装/升级指定版本

基本pip pip install some span class token operator span package 指定版本pip pip install some span class token operator span pa
ubuntu 16.04 上安装OpenStack Mitaka （all-in-one）：环境准备

原本在虚拟机上面安装的Liberty版本 xff0c 实在是太慢了现在决定直接安装在物理机器上先是双系统直接安装了ubuntu 14 04 desktop版 xff0c 结果进去一看 xff0c 界面显示有问题 xff0c 有的字符与背
ubuntu 16.04 上安装OpenStack Mitaka （all-in-one）：Glance 安装与配置

本文介绍在ubuntu 16 04下单点安装Mitaka Glance的过程步骤1 xff1a 进入mysql xff0c 创建glance数据库 xff1a create database glance xff1b 步骤2 xff1a
Kolla-ansible 离线部署多节点高可用性 queens（ceph baremetal aodh ceilometer gnocchi grafana)

环境 vmware exsi 6 5虚拟平台 centos 7 6 openstack queens版本 xff0c 三controller节点启用高可用性 xff0c 三compute节点多挂硬盘复用为ceph的osd xff0c mon
gnocchi 4.2.0 简介配置实际使用(全网首测)

一简介 gnocchi 主要用来提供资源索引和存储时序计量数据 xff0c 其架构如下图所示 xff1a 从图可以看出Gnocchi的服务主要包含两大服务 xff0c API和Metricd服务同时可以看到有三个存储 xff0c 传入度
odoo13 win10 安装源码设置开发环境

一环境准备 1 python3 Odoo13 requires Python gt 61 3 6 to run 上python官网下载安装文件https www python org ftp python 3 6 8 python 3 6
远程桌面RDP C#使用Microsoft RDP Client Control 演示

系统环境 xff1a window10 visual studio 2019 net framework 4 0 Microsoft RDP Client Control redistributable version 7 步骤 xff1a
kolla-ansible 安装部署 openstack 开发调试环境

一原理根据kolla ansible的资料 xff0c 其部署openstack开发环境的原理是 xff0c 先在本地部署all in one的openstack可执行环境 xff0c 在其基础上将需开发的项目源码clone到本地机器上
openstack - horizon - 14.1.0 安装部署源码开发测试环境 centos7

一系统环境 CentOS Linux release 7 8 2003 Core Python 2 7 5 pip 20 2 from usr lib python2 7 site packages pip python 2 7 Pyth
以传统程序员看Vue2.X开发-极简速成

一开发环境搭建 1 安装Node js 下载地址 xff1a https nodejs org zh cn download 按提示安装 xff0c 根据系统环境不同 xff0c 可能需要安装C 43 43 Build和Python 验证
浅析软件架构

一软件架构的定义用简单的定义来说 xff0c 架构就是对系统中的实体以及实体之间的关系所进行的抽象描述在由人类所构建的系统中 xff0c 架构可以表述为一系列的决策纯软件系统的架构可以理解为是对现实世界或期望中的运行模式或模型的抽象
解决 GitHub 下载缓慢问题

为了更加愉快地使用全球最大同性交友网站上的优质资源 xff0c 我们来做一些简单的本机上的调整通过查看下载链接 xff0c 能够发现最终被指向到 Amazon 的服务器 xff08 http github cloud s3 amazo
IdentityServer4 (IDS4) 快速入门

一系统环境 win10 C Users zhoujy gt dotnet version 5 0 102 IdentityServer4 4 0 0 Microsoft Visual Studio Community 2019 版本 16
IdentityServer4 (IDS4) UI界面使用

在本快速入门中 xff0c 将对通过OpenID Connect协议进行的交互式用户身份验证的支持添加到上一章中构建的IdentityServer中实现后 xff0c 我们将创建一个将使用IdentityServer进行身份验证的MVC应
ML.NET 奇异谱分析（SSA Singular spectrum analysis）预测实践

一奇异谱分析 Singular Spectrum Analysis SSA 简介奇异谱分析 Singular Spectrum Analysis SSA 是一种处理非线性时间序列数据的方法 xff0c 通过对所要研究的时间序列的轨迹矩阵
ASP .Net Core内置 Identity 简介使用

一简介 1 概况 ASP NET Core Identity是一个成员身份系统 xff0c 可将用户注册和登录功能添加到 ASP NET Core Web UI 成员身份系统处理身份验证和授权问题身份验证涉及你的身份授权涉及允许你进行
sql 2008 安装失败 mof语法错误处理

这几天比较忧闷 xff0c 在一台比较老的win2003机器上安装sql2008一直出 MOF语法错误安装失败 xff0c 浪费了我几天的时间才搞定现把经历写出来以帮他人可以少走歪路这台机器是一个平时当开发平台的机器 xff0c AM
十年老撕鸡分享，五分钟搭建个人轻论坛

点击关注爪哇笔记给公众号标星置顶更多精彩第一时间直达前言 09 年开始接触论坛 xff0c 那会微信还没有诞生 xff0c 也没有什么移动互联网 xff0c 大家还都在用功能机玩着 2G 的文字游戏 xff01 那会玩论坛的还比
sql server之在存储过程中利用OpenJson将Json字符串转化为表格

在Sql server2016的版本后 xff0c 数据库增加了对Json格式的支持 xff0c 详细信息可以参考微软官方文档链接应用背景在线订餐系统中 xff0c 购物车的内容存储在浏览器缓存中所以数据库关于订单的设计是订单表 xf
生活大爆炸版石头剪刀布

如果大家认为写的不错 xff0c 请点赞关注收藏 xff01 题目描述石头剪刀布是常见的猜拳游戏 xff1a 石头胜剪刀 xff0c 剪刀胜布 xff0c 布胜石头如果两个人出拳一样 xff0c 则不分胜负在生活大爆炸第二季第8

随机推荐

debian10安装docker

使用root登录将已安装的软件包更新到最新版本 xff1a apt update apt upgrade 安装通过 HTTPS 添加新存储库所需的依赖项 xff1a apt install apt transport https ca c
黑盒（功能）测试以及测试用例设计

概念 xff1a 黑盒测试是把测试对象看做一个黑盒子 xff0c 利用黑盒测试法进行动态测试时 xff0c 需要测试软件产品已经实现的功能是否符合功能设计要求 xff0c 不需测试软件产品的内部结构和处理过程黑盒测试注重于测试软件的功能性
2018.09.27 网络协议（tarjan）

描述一些学校连接在一个计算机网络上学校之间存在软件支援协议每个学校都有它应支援的学校名单 xff08 学校 a 支援学校 b xff0c 并不表示学校 b 一定支援学校 a xff09 当某校获得一个新软件时 xff0c 无论是直接得
golang exec 执行 shell 如何同步输出/得到执行结果

背景项目中需要执行shell命令 xff0c 虽然exec包提供了CombinedOutput 方法 xff0c 在shell运行结束会返回shell执行的输出 xff0c 但是用户在发起一次任务时 xff0c 可能在不停的刷新log x
Android下USB的虚拟串口功能

1 先关闭usb的gadge功能 echo 0 gt sys class android usb android0 enable 2 设置acm transports为 34 TTY 34 的功能 echo 34 TTY 34 gt sys
ubuntu鼠标灵敏度设置

ubuntu鼠标灵敏度设置安装ubuntu以后使用系统鼠标灵敏度设置总觉得不太管用 xff0c 于是各方搜索 xff0c 最终找到一个有效的解决方案具体命令如下 xff1a span class hljs built in sudo s
Win10安装Anaconda和TensorFlow

Anaconda与TensorFlow Anaconda是一个开源的Python发行版本包含了很多科学包 Tensorflow是谷歌近几年发行的机器学习框架安装过程 Anaconda安装其安装过程简单 Anaconda安装成功测试卸载
Navicat报错2003:can't connect to MySQl server on localhost

好久没用Navicat来操作Mysql 今天一用出现错误解决方法控制面板大图标管理工具服务 MYSQL启动
vscode编辑c++报错undefined reference to `Point::setY(int)‘ collect2.exe: error: ld returned 1 exit statu

提示 xff1a 文章写完后 xff0c 目录可以自动生成 xff0c 如何生成可参考右边的帮助文档 64 TOC 文vscode编辑c 43 43 报错undefined reference to 96 Point setY int co
解决RuntimeError: Expected all tensors to be on the same device, but found at least two devices,

问题描述说明网络中有的数据在gpu运算有的在cpu运算解决方法报错的行加上 cuda 即可参考 https www cnblogs com tanyahuang p 15522833 html
线性表顺序存储 C语言实现

线性表顺序存储 C语言实现关于线性表8个基本操作的c语言实现注意顺序表用数组表示线性表位序从1开始数组元素下标从0开始顺序表插入删除判断插入删除位置是否合法的表示方法 include lt stdio h gt SqLis
百度飞桨：春节写春联：你写上联，AI写下联

写春联 xff1a 你写上联 xff0c AI写下联一前言二项目简介三基本要求四代码实现五项目成果六总结百度飞桨系列文章 xff1a 百度飞桨 xff1a 给出关键词 xff0c AI自动生成元宵节祝福百度飞桨 xff1a
百度飞桨：（情人节特辑）想做就做，让爱豆对你说情话，过凡尔赛式情人节~

想做就做 xff0c 让爱豆对你说情话 xff0c 过凡尔赛式情人节 xff01 一前言二项目简介三代码实现四项目成果五总结百度飞桨系列文章 xff1a 百度飞桨 xff1a 春节写春联 xff1a 你写上联 xff0c AI写
ECS的概念

服务器的部署模式发展历程单机架构 xff1a 一台服务器提供给客户所有应用缺点 xff1a 单机架构要求服务器的性能非常强大纵向扩展 xff1a 换高主频的CPU xff0c 增大CPU xff0c 增大内存纵向扩展的缺陷 xff1a
Python基础详解（十三）：(视频符号化)将视频转换成ASCII符号形式展示出来

目录一前言二项目简介三基本要求四代码实现4 1 安装ffmpeg exe4 2 安装you get库4 2 1 下载4 2 2 检查视频信息4 2 3 下载 mp3 格式视频 4 3 执行代码五总结一前言今天手把手教大家
百度飞桨：给出关键词，AI自动生成元宵节祝福~

元宵节 xff0c 祝福语一前言二模型介绍三数据准备四执行代码4 1 安装依赖4 2 开始训练4 3安装模型五预测输出六元宵节快乐七总结百度飞桨系列文章 xff1a 百度飞桨 xff1a 春节写春联 xff1a 你写上联
Python基础详解(十五)：json.dump()、json.dumps()、json.load()、json.loads()

Python基础详解一函数用法二执行代码2 1 json dumps 2 2 json dump 2 3 json loads 2 4 json load 一函数用法 json dumps xff1a 将Python数据结构转换为J
基于卷积神经网络VGG实现水果分类识别

基于卷积神经网络VGG实现水果分类识别一前言二模型介绍三数据处理四模型搭建4 1 定义卷积池化网络4 2 搭建VGG网络4 3 参数配置4 4 模型训练4 5 绘制loss和acc图像五模型评估六模型预测七总结资源百度飞
改进粒子群算法二维平面路径规划

改进粒子群算法二维平面路径规划一前言二模型介绍三算法改进四执行代码五总结一前言路径规划是运动规划的主要研究内容之一运动规划由路径规划和轨迹规划组成 xff0c 连接起点位置和终点位置的序列点或曲线称之为路径 xff0c
基于百度短语音API的语音识别实现

基于百度短语音API的语音识别实现一前言二 API介绍2 1 简介2 2 API的调用流程三执行代码四总结一前言语音识别是一门交叉学科近二十年来 xff0c 语音识别技术取得显著进步 xff0c 开始从实验室走向市场人们

基于百度短语音API的语音识别实现

基于百度短语音API的语音识别实现

一. 前言

二. API介绍

2.1 简介

2.2 API的调用流程

三. 执行代码

四. 总结

基于百度短语音API的语音识别实现 的相关文章

随机推荐

热门标签

基于百度短语音API的语音识别实现的相关文章