如何增加谷歌语音API的收听时间？

2024-04-14

我已经使用谷歌语音到文本 api 制作了一个工作语音到文本程序，该程序记录语音并将其复制到 .txt 中，但是，谷歌语音 api 不会监听很长时间（大约 9 秒），有什么办法可以增加这个时间，或者在 python 中使用更好的 api，可以边听边写？

import time
import speech_recognition as sr
import sys
import fileinput
r=sr.Recognizer()
#tells the program to use a mic and to listen
with sr.Microphone() as source:
    audio=r.listen(source)
#asking the program to try to listen
try:
    spoken = r.recognize_google(audio)

    print("I heard:"+spoken)

except Exception:
    print ("Somthing went wrong")
#writing what was recorded by the mic into a .txt
with open("name-of-file.txt", "a") as f:
    f.write("\n")
    f.write(time.strftime("%H:%M:%S") + " " + time.strftime("%d/%m/%Y"))
    f.write("\n")
    f.write(spoken)

预期结果：程序同时听和写或者该程序可以监听直到关闭。实际结果：程序监听约 9 秒，然后打印到 .txt

语音识别是一个非常好的库，但我也不得不与录音长度作斗争。以下是我解决该问题的方法：

将音频保存到磁盘

with sr.AudioFile('path/to/audiofile.wav') as source:
    audio = r.record(source)

优点：与流媒体相比，录制到音频文件然后向谷歌发送更长的块给了我更一致的录制长度。

缺点：根据音频文件的大小，这可能会带来将响应时间延长到几秒钟的缺点，这在您的情况下可能无法使用。

最小化本底噪声

您可能已经非常清楚，更好的信噪比将提供更好的 STT 准确性 - 但我也发现这对于语音识别库的良好块大小至关重要。

仔细检查您的本底噪声是否可以轻松与源区分开。录制音频也可以帮助您解决此问题。有时，使用语音识别库可能会导致音频过早中断，因为它无法清楚地检测到您正在说话。

如果无法提高麦克风的质量或接近度，库中包含一个工具，可以校准音频电平以实现最佳的信号噪声区分。

要激活此功能，而不是使用以下命令：

audio=r.listen(source)

尝试使用：

audio=r.adjust_for_ambient_noise(source)

请注意，此功能在某些情况下会增加少量延迟。在其他情况下，如果您向它提供嘈杂的音频，它会无限期地继续监听。

结合一切

with sr.AudioFile('path/to/audiofile.wav') as source:
    audio = r.adjust_for_ambient_noise(source)

这是这个库的一个很好的指南 -Python 语音识别终极指南 https://realpython.com/python-speech-recognition/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

googlespeechapi

如何增加谷歌语音API的收听时间？的相关文章

嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
如何在 Jupyter Notebook 中运行 Python 异步代码？

我有一些 asyncio 代码在 Python 解释器 CPython 3 6 2 中运行良好我现在想在具有 IPython 内核的 Jupyter 笔记本中运行它我可以运行它 import asyncio asyncio get ev
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du

随机推荐

如果没有可用的指定分区路径，SPARK SQL 会失败

我在 EMR 中使用 Hive Metastore 我可以通过 HiveSQL 手动查询表但是当我在 Spark Job 中使用同一个表时它说输入路径不存在 s3 导致 org apache hadoop mapred InvalidI
在rails3中创建新记录之前如何检查记录是否存在？

这就是我想要实现的目标我有一个标签系统创建帖子时会创建标签帖子 has many tags through gt tag joins 当使用标签创建帖子时会自动创建标签连接我想检查该标签是否已经存在如果是这样我想使用 tag
在 textView 中，当我单击“完成”按钮时，键盘不会退出

单击完成按钮后我在退出键盘时遇到问题我正在使用文本视图 BOOL textViewShouldReturn UITextView textView if textView addressView if isNotif self se
根据步行速度在 2 个 GPS 位置之间进行插值

Problem 给定两个位置 L1 latitude1 longitude1 timestamp1 L2 latitude2 longitude2 timestamp2 以及可配置但恒定的移动速度 v 1 39 米每秒例如 How can
Android，traceview 的独立版本已弃用

我想看到我的踪迹 1 在代码中我添加了以下代码行 Start trace recording android os Debug startMethodTracing hc traceview and Stop trace recordin
如何将 inproc 传输与 pyzmq 一起使用？

我已经设置了两个小脚本来模仿 pyzmq 的发布和订阅过程但是我无法使用inproc运输我能够使用tcp 127 0 0 1 8080好吧只是不是 inproc pub server py import zmq import ran
如何将fasttext模型保存为vec格式？

我使用以下方法训练了我的无监督模型fasttext train unsupervised python 中的函数我想将其保存为 vec 文件因为我将使用该文件pretrainedVectors参数输入fasttext train sup
Android MVVM 设计模式

我在最近发布的 Android 最佳实践一书中读到用于 Android 编程的一个很好的设计模式是 MVVM 我自己在最新的项目中尝试过它似乎确实有利于将代码分成更易于管理的部分 View 仅处理视图项的创建和 ViewModel 的
使用 JSON asp.net core api 上传多部分/表单数据图像

如何在单个 POST 中同时 POST 图像和 JSON 使用多部分我有一个表单其中包含一些数据我将其放入 JSON 中用户可以添加 0 到 6 张照片并将其提交到 API 有人可以解释我该怎么做吗编辑感谢您的帮助这是我的代码
如何使用Flutter Desktop打开windows资源管理器？

I want to open the windows explorer application not open a dialog for example the Edge s display in a folder 你可以通过file 目
为什么 Symfony 表单不使用约束注释验证我的 DTO？

所以我有一个 DTO 如下所示 namespace App DTO use Symfony Component Validator Constraints as Assert class Task Assert Type string As
内核编程中如何执行shell命令？

我想用system 的函数stdlib h在我的c代码中我实际上正在从事内核编程每当我想使用system 其中它给出了错误stdlib h说没有找到这样的文件这很简单 include
Xcode 新手如何创建类 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何从区分大小写的查询参数变量中获取值？

我有一个带有查询字符串的 URLid 但是变量id可以作为 id 或 id 在网址中根据我的理解这两个将被区别对待为了处理以下 URL 我编写了如所附屏幕截图中的代码 http xxx abc id 10 http xxx abc
如何用 Marshal.SizeOf() 替换 Marshal.SizeOf(Object)？

我正在构建一个普遍的现有代码中的类库我收到一些编译器警告我一生都无法弄清楚如何处理我有这样的代码 void SomeMethod Object data var size Marshal SizeOf data 代码构建但在普遍的项
如何将参数传递给asp.net web api get方法？

以下是我在 ASP NET Web API 中的 get 方法 HttpGet public IHttpActionResult GetDetails FromBody RetrieveDetails eDetails 以下是课程 publ
为什么我应该使用 HttpClient 而不是 fetch？

Angular 2 介绍HttpClient它发出一个 HTTP 请求并将它们发送到一个 RxJS observable 中我的问题是为什么我会选择使用HttpClient s API https angular io guide htt
检查Java版本是否大于Java中的某个迭代？

我想检查用户的 Java 版本是否至少为 1 8 0 171 我的意思是特定迭代或更高版本例如 1 8 0 151 将不起作用我原本计划使用 org apache commons lang3 SystemUtils isJavaVers
C# 如何检查一个对象是否是多维数组

我是 C 的新手我有一个 C 对象如何检查它是单维数组还是多维数组 int array new int 2 3 object obj object array if obj is Array if obj Rank 2 I need t
如何增加谷歌语音API的收听时间？

我已经使用谷歌语音到文本 api 制作了一个工作语音到文本程序该程序记录语音并将其复制到 txt 中但是谷歌语音 api 不会监听很长时间大约 9 秒有什么办法可以增加这个时间或者在 python 中使用更好的 api 可以边听

热门标签