如何使用 Python 中的 Bing Speech API 转录语音文件？

2024-02-18

如何使用 Python 中的 Bing Speech API 转录语音文件？我的语音文件超过 15 秒。

我知道人们可以在 Python 中使用 Bing Speech REST API。https://gist.github.com/jellis505/973ea6de12508c7c720da4a074e7d065 https://gist.github.com/jellis505/973ea6de12508c7c720da4a074e7d065给出了Python 2中的一个例子：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import requests
import httplib
import uuid
import json

class Microsoft_ASR():
    def __init__(self):
        self.sub_key = 'YourKeyHere'
        self.token = None
        pass

    def get_speech_token(self):
        FetchTokenURI = "/sts/v1.0/issueToken"
        header = {'Ocp-Apim-Subscription-Key': self.sub_key}
        conn = httplib.HTTPSConnection('api.cognitive.microsoft.com')
        body = ""
        conn.request("POST", FetchTokenURI, body, header)
        response = conn.getresponse()
        str_data = response.read()
        conn.close()
        self.token = str_data
        print "Got Token: ", self.token
        return True

    def transcribe(self,speech_file):

        # Grab the token if we need it
        if self.token is None:
            print "No Token... Getting one"
            self.get_speech_token()

        endpoint = 'https://speech.platform.bing.com/recognize'
        request_id = uuid.uuid4()
        # Params form Microsoft Example 
        params = {'scenarios': 'ulm',
                  'appid': 'D4D52672-91D7-4C74-8AD8-42B1D98141A5',
                  'locale': 'en-US',
                  'version': '3.0',
                  'format': 'json',
                  'instanceid': '565D69FF-E928-4B7E-87DA-9A750B96D9E3',
                  'requestid': uuid.uuid4(),
                  'device.os': 'linux'}
        content_type = "audio/wav; codec=""audio/pcm""; samplerate=16000"

        def stream_audio_file(speech_file, chunk_size=1024):
            with open(speech_file, 'rb') as f:
                while 1:
                    data = f.read(1024)
                    if not data:
                        break
                    yield data

        headers = {'Authorization': 'Bearer ' + self.token, 
                   'Content-Type': content_type}
        resp = requests.post(endpoint, 
                            params=params, 
                            data=stream_audio_file(speech_file), 
                            headers=headers)
        val = json.loads(resp.text)
        return val["results"][0]["name"], val["results"][0]["confidence"]

if __name__ == "__main__":
    ms_asr = Microsoft_ASR()
    ms_asr.get_speech_token()
    text, confidence = ms_asr.transcribe('Your Wav File Here')
    print "Text: ", text
    print "Confidence: ", confidence

但是，根据规定，Bing Speech REST API 无法转换长度超过 15 秒的音频文件https://learn.microsoft.com/en-us/azure/cognitive-services/speech/home https://learn.microsoft.com/en-us/azure/cognitive-services/speech/home:

您可以使用 bing 语音转换长达 10 分钟的大文件，但您需要为其构建一个 websocket，因为它是 bing 中用于大型音频文件的另一种选择。这是 github 存储库必应演讲 https://github.com/jjuraska/cruzhacks2018

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Python 中的 Bing Speech API 转录语音文件？的相关文章

如何将base64字符串直接解码为二进制音频格式

音频文件通过 API 发送给我们该文件是 Base64 编码的 PCM 格式我需要将其转换为 PCM 然后再转换为 WAV 进行处理我能够使用以下代码解码 gt 保存到 pcm gt 从 pcm 读取 gt 保存为 wav decod
xlrd.biffh.XLRDError：Excel xlsx 文件；不支持[重复]

这个问题在这里已经有答案了我正在尝试使用读取启用宏的 Excel 工作表pandas read excel与 xlrd 库它在本地运行良好但是当我尝试将其推送到 PCF 时我收到此错误 2020 12 11T21 09 53 441
Flask+Nginx+uWSGI：导入错误：没有名为站点的模块

我安装为http www reinbach com uwsgi nginx flask virtualenv mac os x html http www reinbach com uwsgi nginx flask virtualenv
切片稀疏（scipy）矩阵

我将不胜感激任何帮助以理解从 scipy sparse 包中切片 lil matrix A 时的以下行为实际上我想根据行和列的任意索引列表提取子矩阵当我使用这两行代码时 x1 A list 1 x2 x1 list 2 一切都很好
从Python中的字符串中提取货币金额

我正在制作一个程序从字符串中获取货币并将其转换为其他货币例如如果字符串是 the car cost me 13 250 我需要得到 and 13250 我已经有了这个正则表达式 1 确实如此但是该字符串很有可能有多个价格并且全部使
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
可以用 Django 制作移动应用程序吗？

我想知道我是否可以在我的网站上使用 Django 代码并以某种方式在移动应用程序 Flutter 等框架中使用它那么是否可以使用我现在拥有的 Django 后端并在移动应用程序中使用它所以就像models views etc 是的有
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以

随机推荐

将元数据添加到tensorflow freeze graph pb

为了分享我们训练有素的张量流网络我们将图冻结成 pb文件我们还创建一个包含一些元数据的 xml 文件例如输入张量和输出张量要应用的预处理类型训练数据信息等然后使用 Java 或 C 通过加载图形和评估张量等来提供模型为了使共享
WPF IsEditable=true 填充对象的 ComboBox 将 ToString() 显示为所选项目

Wpf 组合框允许编辑如果所有组合框项目都是字符串或者在它们上定义了 ToString 方法那么这很好当您选择一个项目时它显示为文本它不使用 DataTemplate 它只是对所选项目调用 ToString 我在组合下拉列表中得
为什么我们应该在用户表中包含 ID 列？

显然我们已经有了关于每个用户的另一个独特信息那就是用户名那么为什么我们需要为每个用户提供另一个独特的东西呢为什么我们还应该为每个用户提供一个 id 如果我们省略 id 列会发生什么即使您的用户名是唯一的使用额外的 id 列而不
从 Swift 4 中的后台线程调用 UI API 并运行 Firebase 4

这些是我下载 beta 版本后当前项目中出现的错误Xcode 9 这直接连接到这个帖子 https stackoverflow com questions 44391367 swift 4 uiapplication registerfor
循环跨列相乘

我有一个数据框其中标有列sales1 sales2 price1 price2我想通过乘以计算收入sales1 price1以迭代的方式对每个数字进行依此类推 data lt data frame sales1 c 1 2 3 sales
在 R 中通过 Arrow 包编写 Parquet 文件的问题

只是想知道在 Windows 和 Linux 操作系统中运行时 R 中的 arrow 包的读写 parquet 功能是否有区别示例代码在数据框中插入任何内容 mydata data frame write parquet mydata
基于 AJAX 输入构建 HTML 的正确方法

所以我正在 Django 中开发这个 Web 应用程序确切的 Web 框架并不重要但重点是我们在代码数据和实际 HTML 之间有很好的分离然而我们走得越远我们就越发现我们希望保留在单个网页上并让界面通过 AJAX 请求响应用户
Python3 html 转 pdf

如何在Python3中将HTML转换为PDF Xhtml2pdf 在 Python3 中不起作用出现错误将 xhtml2pdf pisa 导入为 pisa 回溯最近一次调用最后一次文件第 1 行位于文件 home hound
即使提供了known_hosts文件，pysftp也会抛出paramiko.ssh_exception.SSHException？

出现错误 paramiko ssh exception SSHException 找不到主机 target org 的主机密钥使用时pysftp 对于需要特定端口的连接即使我提供了最初用于连接到该位置的相同的known hosts文件
在 Notepad ++ 中双击捕获 PHP 变量

我刚刚从 eclipse 切换到 Notepad 并修改了记事本的一些行为但仍有一个未解决当我双击一个变量时我希望我的编辑器能够捕获整个变量记事本自动排除 php 前缀效率不高有什么办法可以改变我的行为吗谢谢从版本 7 3
在 Instagram 中打开 AVMutableComposition 时出现白色视频

当我导出一个AVMutableComposition I use PHPhotoLibrary将视频保存到相机胶卷在里面creationRequestForAssetFromVideoAtFileURL 完成处理程序然后我在 Insta
停止进程显示 C# 窗口

我正在尝试自动化一个应用程序该应用程序在启动时创建一个没有用户交互的 GUI 窗口但我不知道如何隐藏实际的窗口我尝试使用 ProcessStartInfo 因此 Process Start new ProcessStartInfo U
SQL输出：是否可以创建临时输出列？

例如我的数据库中有一个如下表商品编号商品名称价格项目状态其中商品 ID int 商品名称 string 价格 int 项目状态枚举至于物品状态假设 2 代表即将推出 1 代表可用而 0 代表售完我想显示信息以便
我可以扩展类并覆盖封闭的枚举类型吗？

如果我有一个类包含enum类型我可以扩展此类并覆盖枚举类型或向此枚举添加更多常量吗目的是用户能够调用getColor 方法而不知道动态对象是来自基类还是派生类例如 public class Car private String nam
如何获取不同值节点XML

我是 XML 新手所以希望得到您的帮助我有以下 XML
粘胶参数

我是 openGL 的初学者在所有简单的示例中 main 函数都有参数而 glutinit func 使用这些参数但我不明白为什么它们是必要的我在命令参数中什么也没写程序仍然有效它们有什么用你能给个例子吗 glutInit a
Django 多表继承和左外连接

最近我遇到了 Django 关于模型继承的常见问题我有一堆不同的模型我想单独或作为一组显示读作查询数据库中的所有内容或仅查询某个类别型号的项目最终我选择了多表继承我的模型看起来像 class Unit models M
Matplotlib：多个轮廓变量的轮廓图的多个图例

我需要在同一页面上绘制多个变量的多个等高线图我可以使用 MATLAB 来完成此操作请参阅下面的 MATLAB 代码我无法让 matplotlib 显示多个图例任何帮助将非常感激 Python代码 import numpy as np
pandas.Series/DataFrame.fillna 限制中的错误？

我一直在尝试使用填充 DataFrame 和 Seriesfillna与value and limit关键词这limit不包括时受到尊重value 但只要包括value限制不再受到尊重这是使用 DataFrame 的示例 import
如何使用 Python 中的 Bing Speech API 转录语音文件？

如何使用 Python 中的 Bing Speech API 转录语音文件我的语音文件超过 15 秒我知道人们可以在 Python 中使用 Bing Speech REST API https gist github com jelli

如何使用 Python 中的 Bing Speech API 转录语音文件？

如何使用 Python 中的 Bing Speech API 转录语音文件？ 的相关文章

随机推荐

热门标签

如何使用 Python 中的 Bing Speech API 转录语音文件？的相关文章