如何优雅地结束 Google Speech-to-Text 流识别并取回待处理的文本结果？

2023-11-23

我希望能够结束 Google 语音转文本流（创建于streamingRecognize），并获取待处理的 SR（语音识别）结果。

简而言之，相关的 Node.js 代码：

// create SR stream
const stream = speechClient.streamingRecognize(request);

// observe data event
const dataPromise = new Promise(resolve => stream.on('data', resolve));

// observe error event
const errorPromise = new Promise((resolve, reject) => stream.on('error', reject));

// observe finish event
const finishPromise = new Promise(resolve => stream.on('finish', resolve));

// send the audio
stream.write(audioChunk);

// for testing purposes only, give the SR stream 2 seconds to absorb the audio
await new Promise(resolve => setTimeout(resolve, 2000));

// end the SR stream gracefully, by observing the completion callback
const endPromise = util.promisify(callback => stream.end(callback))();

// a 5 seconds test timeout
const timeoutPromise = new Promise(resolve => setTimeout(resolve, 5000)); 

// finishPromise wins the race here
await Promise.race([
  dataPromise, errorPromise, finishPromise, endPromise, timeoutPromise]);

// endPromise wins the race here
await Promise.race([
  dataPromise, errorPromise, endPromise, timeoutPromise]);

// timeoutPromise wins the race here
await Promise.race([dataPromise, errorPromise, timeoutPromise]);

// I don't see any data or error events, dataPromise and errorPromise don't get settled

我的经历是 SR 流成功结束，但我没有收到任何数据事件或错误事件。两者都不dataPromise nor errorPromise得到解决或拒绝。

如何发出音频结束信号、关闭 SR 流并仍然获得待处理的 SR 结果？

我需要坚持streamingRecognize API因为我正在流式传输的音频是实时的，即使它可能会突然停止。

澄清一下，只要我继续传输音频，它就可以工作，我确实会收到实时 SR 结果。但是，当我发送最终音频块并像上面那样结束流时，我不会得到我期望的最终结果。

为了得到最终结果，我实际上必须再保持流静默几秒钟，这可能会增加 ST 费用。我觉得一定有更好的方法来获得它们。

Updated:看来，结束一场战争的唯一合适时机streamingRecognize溪流即将来临data活动地点StreamingRecognitionResult.is_final is true。此外，我们预计将继续传输音频，直到data事件被触发，以获得任何结果，最终的或临时的。

这对我来说看起来像是一个错误，提交了一个issue.

Updated:现在看来已经得到证实as a bug。在修复之前，我正在寻找潜在的解决方法。

Updated:以供将来参考，这是清单当前和之前跟踪的问题涉及streamingRecognize.

我希望这对于那些使用的人来说是一个常见问题streamingRecognize，很惊讶以前没有报道过。正在提交as a bug to issuetracker.google.com，还有。

我的错——毫不奇怪，这变成了我的代码中一个模糊的竞争条件。

我已经整理了一个独立的示例，可以按预期工作（gist）。它帮助我追踪问题。希望它可以帮助其他人和我未来的自己：

// A simple streamingRecognize workflow,
// tested with Node v15.0.1, by @noseratio

import fs from 'fs';
import path from "path";
import url from 'url'; 
import util from "util";
import timers from 'timers/promises';
import speech from '@google-cloud/speech';

export {}

// need a 16-bit, 16KHz raw PCM audio 
const filename = path.join(path.dirname(url.fileURLToPath(import.meta.url)), "sample.raw");
const encoding = 'LINEAR16';
const sampleRateHertz = 16000;
const languageCode = 'en-US';

const request = {
  config: {
    encoding: encoding,
    sampleRateHertz: sampleRateHertz,
    languageCode: languageCode,
  },
  interimResults: false // If you want interim results, set this to true
};

// init SpeechClient
const client = new speech.v1p1beta1.SpeechClient();
await client.initialize();

// Stream the audio to the Google Cloud Speech API
const stream = client.streamingRecognize(request);

// log all data
stream.on('data', data => {
  const result = data.results[0];
  console.log(`SR results, final: ${result.isFinal}, text: ${result.alternatives[0].transcript}`);
});

// log all errors
stream.on('error', error => {
  console.warn(`SR error: ${error.message}`);
});

// observe data event
const dataPromise = new Promise(resolve => stream.once('data', resolve));

// observe error event
const errorPromise = new Promise((resolve, reject) => stream.once('error', reject));

// observe finish event
const finishPromise = new Promise(resolve => stream.once('finish', resolve));

// observe close event
const closePromise = new Promise(resolve => stream.once('close', resolve));

// we could just pipe it: 
// fs.createReadStream(filename).pipe(stream);
// but we want to simulate the web socket data

// read RAW audio as Buffer
const data = await fs.promises.readFile(filename, null);

// simulate multiple audio chunks
console.log("Writting...");
const chunkSize = 4096;
for (let i = 0; i < data.length; i += chunkSize) {
  stream.write(data.slice(i, i + chunkSize));
  await timers.setTimeout(50);
}
console.log("Done writing.");

console.log("Before ending...");
await util.promisify(c => stream.end(c))();
console.log("After ending.");

// race for events
await Promise.race([
  errorPromise.catch(() => console.log("error")), 
  dataPromise.then(() => console.log("data")),
  closePromise.then(() => console.log("close")),
  finishPromise.then(() => console.log("finish"))
]);

console.log("Destroying...");
stream.destroy();
console.log("Final timeout...");
await timers.setTimeout(1000);
console.log("Exiting.");

输出：



Writting...
Done writing.
Before ending...
SR results, final: true, text:  this is a test I'm testing voice recognition This Is the End
After ending.
data
finish
Destroying...
Final timeout...
close
Exiting.

要测试它，需要 16 位/16KHz 原始 PCM 音频文件。任意 WAV 文件无法按原样工作，因为它包含带有元数据的标头。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

javascript

nodejs

asyncawait

SpeechRecognition

googlecloudspeech

如何优雅地结束 Google Speech-to-Text 流识别并取回待处理的文本结果？的相关文章

ES6 类文字中的 IIFE

在 ES5 中我们都可以这样做 myClass prototype myMethod function return function 我可以对 ES6 类文字执行同样的操作吗不至少现在还没有 ES6 类仅支持声明方法因此任何不直接为
刷新页面后保留输入值

我有一个带有输入字段的表单该输入包含一个下拉菜单从数据库中读取信息如果用户输入值并且当他到达下拉菜单时他没有找到他想要的内容他会转到另一个页面将此信息添加到下拉菜单然后转到第一页继续输入信息如果他转到另一个页面向下拉菜单添加
Strongloop 环回如何使用路由进行静态服务？

我想做类似的事情 server js app use client loopback static dirname client using middleware json 但该示例仅适用于根 files loopback static p
如何显示/隐藏jsf组件

在我的一个 JSF 应用程序中顶部的标题部分包含 selectOneMenu 底部的内容部分显示过滤器组件默认情况下应用程序首先在顶部显示 selectOneMenu 数据在底部显示相应的 Filter 信息如果用户选择不同的se
使用 jquery 更改锚文本和图标

我有一个隐藏或显示 div 的锚标记但我无法更改它的文本和图标如何更改文本和图标标签因为目前它将图标标签解析为常规文本锚标记 a class collapse info btn i class icon arrow up icon
使用淘汰赛动态显示/隐藏元素

我有一个表有四列即代码名称数量和价格其中我想动态更改数量列的内容元素通常它应该显示其中显示数量的元素当用户单击元素时我想显示该元素以便用户可以编辑数量我正在尝试按照示例2 来实现淘汰赛文档链接 http knoc
如何将OpenLayers多边形坐标转换为纬度和经度？

我正在使用开放层 https openlayers org en latest examples draw freehand html绘制多边形并保存坐标的技术这是我的代码 var raster new ol layer Tile sou
Google 地图 Javascript v3 折线点击事件

我正在尝试显示一张地图其中有多条路线布置为折线单击多段线时我想显示特定于该线的数据将数据与线关联不是问题但无论单击哪条线显示的数据都会与最近绘制的线关联就好像每条新折线都会覆盖最后一条线一样我有一个数据库其中包含 gpx
如何获取 Spotify API 的访问令牌？

我已经研究 Spotify api 和示例源代码几天了但我仍然不知道如何获取访问令牌来访问用户的播放列表数据我已经到达了拉起登录窗口用户登录然后收到授权码的地步此时我尝试做这样的事情 window open https acco
JavaScript/jQuery - “$ 未定义 - $function()”错误

我正在尝试运行 JavaScript jQuery 函数并且Firebug http en wikipedia org wiki Firebug 28software 29得到错误 is not defined function JavaS
如何在socket.io Nodejs服务器上列出房间

在问题取得进展后如何创建socket io多播组 https stackoverflow com questions 6616922 how to create socket io multicast groups 6624604 6624
Flask 和 Reactjs 抛出 JSX 转换错误

我已经开始将 ReactJS 与 Python Flask 后端结合使用通过 Flask 渲染模板时我在 Chrome 控制台中收到以下客户端错误错误找不到模块 jstransform visitors es6 templates
如何处理 setTimeout() 的多个实例？

阻止创建 setTimeout 函数的多个实例在 JavaScript 中的最推荐最佳方法是什么一个例子伪代码 function mouseClick moveDiv div 0001 mouseX mouseY function
如何在使用类型分散时将箭头添加到行尾

如何在 y 不等于 0 且系列类型以线宽 2 分散的情况下正确地将箭头添加到行的每一端在这里我可以看到箭头已添加但未正确添加请看这个部分工作小提琴 http jsfiddle net vnYCX 这是我的 JS 最初的原型是由 sta
jQuery 模板插件：如何创建双向绑定？

我开始使用 jQuery 模板插件微软创建的但现在我面临这个问题模板用于绑定到对象数组的一堆表单当我更改其中一个表单上的某些内容时我希望更新绑定的对象但我不知道如何自动执行该操作这是一个简单的例子现实生活中的模板和对象要复杂
使用mockery和sinon模拟类方法

我正在学习使用带有 sinon 的节点模块模拟进行单元测试仅使用模拟和普通类我就可以成功注入模拟不过我想注入一个 sinon 存根而不是一个普通的类但我在这方面遇到了很多麻烦我试图嘲笑的班级 function LdapAuth
使用 Node.js 访问用 C++ 编写的 SDK

我有一个用 C 语言编写的 SDK 可以与我的扫描仪设备进行通信我需要开发一个可以访问扫描仪设备的电子应用程序我知道有很多库可用于扫描仪但我想使用这个 SDK 因为它允许我访问设备的完整功能而且它是由设备制造商提供的那么有没有什
如何在react.js中将/n替换为换行符？

我正在尝试更换每一个 n to a br tag in ReactJS In my note note对象有一个包含多个的字符串 n in it 示例注释注释 test ntest ntest 我尝试过的ReactJS note note
如何使用 Chart.js 版本 3.2.1 在圆环图中添加文本

我正在使用 Canvas 在 HTML 中使用如何使用在圆环图中添加文本这是我的 javascript 代码和 HTML 代码我使用了图表js版本3 2 1 所以请给出相同版本 3 的解决方案 var overallStatsCanv
为什么 phantomjs 不能在 MacOS Sierra 中工作？

我们正在使用phantomjs 1 9 1 macosx phantomjs 2 0 0 macosx哪一个工作得很好OS X 埃尔卡皮坦更新后macOS 塞拉利昂它会引发以下错误 phantomjs 1 9 1 macosx phanto

随机推荐

在基于Web的Spring范围中使用Thymeleaf处理HTML文件并将处理后的模板存储为字符串

我正在尝试使用 thymeleaf 渲染 HTML 文件并将生成的 HTML 内容保存在 String 变量中web based scopes of Spring这样我以后就可以用它来发送电子邮件或将内容转换为 pdf 我已经完成了中给出
查找字符串中最短的重复模式

我想知道是否有办法在 Octave Matlab 中进行模式匹配我知道 Maple 10 有执行此操作的命令但不确定我需要在 Octave Matlab 中做什么所以如果一个数字是12341234123412341234模式匹配将是1
为什么 &[T] 参数也接受 &Vec？

我正在阅读 Rust 书即迷你grep项目在那里我遇到了以下片段 fn main let args Vec
计算文件中单词数的最简单方法

我正在尝试以最简单的方式编写一个程序来计算 Scala 语言文件中单词出现的次数到目前为止我有这些代码 import scala io Codec string2codec import scala io Source import sc
在遍历表达式时提取实例变量的当前值

我目前正在尝试编写一些将 C 表达式转换为文本的代码为此我不仅需要遍历表达式树还需要评估其中的一小部分以获得局部变量的当前值我发现很难用语言来表达所以这里是伪代码缺少的部分在第一种方法中 public class Progra
如何将时间戳转换为可读的日期/时间？

我有一个 APIresult像这样给出时间戳1447804800000 如何使用 Javascript jQuery 将其转换为可读格式您可以使用以下命令将其转换为可读日期new Date method 如果有特定的日期戳可以通过以下方
我应该如何理解 dis.dis 的输出？

我想了解如何使用dis Python字节码的反汇编器具体来说应该如何解释输出dis dis or dis disassemble 这是一个非常具体的示例在 Python 2 7 3 中 dis dis heapq nsmallest
克隆整个对象图

使用此代码序列化对象时 public object Clone var serializer new DataContractSerializer GetType using var ms new System IO MemoryStrea
(Hadoop) MapReduce - 链作业 - JobControl 不会停止

我需要链接两个 MapReduce 作业我使用 JobControl 将 job2 设置为依赖于 job1 它有效输出文件已创建但它并没有停止在 shell 中它保持这种状态 12 09 11 19 06 24 WARN mapre
Windows 中的 GetDesktopWindow 和 OpenInputDesktop API 有什么区别？

两者的用法有什么区别GetDesktopWindow and OpenInputDesktopWindows 中的 API 至于他们做什么 GetDesktopWindow 返回根 HWND调用线程当前与哪个桌面关联也许更好的想法是扎
冒充用户名和密码？

WindowsIdentity identity new WindowsIdentity accessToken WindowsImpersonationContext context identity Impersonate contex
Swift 的 size 方法采用 Int 的理由是什么？

我注意到很多快速的内置函数接受或返回Int是而不是UInts 以下是一些示例Array mutating func reserveCapacity minimumCapacity Int var capacity Int get init
我的表格视图在滚动时重用选定的单元格——在 SWIFT 中

早上好我的问题是当我再次向下和向上滚动时我的表格视图会重用所选的单元格我的意思是当我从向上选择一个单元格然后向下滚动时我未选择的一些单元格会显示为选中状态还有一些从上往下选择的单元格也会被选中当我再次向上滚动时未显示选中状
使用 Propel ORM 进行 UNION 查询

我正在尝试使用 Propel ORM 创建 UNION 查询例如 criterion1 UNION criterion2 有谁知道如何做到这一点您无法使用 Criteria 创建联合查询相反您可以自己创建 SQL 字符串并用它来水
iReport：在详细信息带中获取表的多个副本

我是新来的iReport 所以我想根据数据做一个简单的报告我的问题是当我的行数小于详细信息带的大小时整个表会在详细信息带中重复并且我不想再次出现如果我的行数大约为 5 那么同一个表会在详细信息带中复制 4 次不仅是表而且是我放
检测您的手指在 Android 中滑过哪个视图

虽然相似问题过去曾被问过但他们似乎并没有真正得到回答这可能是由于对所问的内容感到困惑简而言之我想检测当您的手指在屏幕上滑动时正在进入哪个视图最好的例子就是任何 Android 手机上的软键盘当您按任意键时它会显示为弹出窗口告
删除空格和任何非字母数字的内容

我试图删除所有非字母数字的内容或者是带的空格 filename preg replace a zA Z0 9 s filename 我在这里做错了什么它似乎不起作用我尝试了几种正则表达式组合而且我通常不是很聪明尝试这个 file
请求的资源上不存在“Access-Control-Allow-Origin”标头 - ionic 2 应用程序

当我尝试使用 POST 请求访问本地服务器时收到以下错误 XMLHttpRequest 无法加载http 127 0 0 1 8000 api v1 users login 请求的资源上不存在 Access Control Allow O
C 中有 bool 的格式说明符吗？

在下面的示例中我尝试扫描布尔类型变量的值当我在 GCC 中编译时我收到以下警告 warning format d expects argument of type int but argument 2 has type Bool Wf
如何优雅地结束 Google Speech-to-Text 流识别并取回待处理的文本结果？

我希望能够结束 Google 语音转文本流创建于streamingRecognize 并获取待处理的 SR 语音识别结果简而言之相关的 Node js 代码 create SR stream const stream speechC

如何优雅地结束 Google Speech-to-Text 流识别并取回待处理的文本结果？

如何优雅地结束 Google Speech-to-Text 流识别并取回待处理的文本结果？ 的相关文章

随机推荐

热门标签

如何优雅地结束 Google Speech-to-Text 流识别并取回待处理的文本结果？的相关文章