如何访问Microsoft Speech SDK录制的音频流

2024-01-23

我正在使用 Microsoft 的 JavaScript 语音 SDK 转录麦克风流。录音和转录都是使用语音 SDK 完成的，我无法找到在录音完成后如何访问和保存录制的音频文件的方法。

创建录音机并录音的代码

recognizer = new SpeechSDK.SpeechRecognizer(speechConfig, audioConfig);
// to start the recording
recognizer.startContinuousRecognitionAsync(
    () => {
      portFromCS.postMessage({ type: "started", data: "" });
    },
    err => {
      recognizer.close();
    },
  );
// used after user input to stop the recording
recognizer.stopContinuousRecognitionAsync(
    () => {
      window.console.log("successfully stopped");
      // TODO: somehow need to save the file
    },
    err => {
      window.console.log("error on stop", err);
    },
  );

The 文档 https://learn.microsoft.com/en-us/javascript/api/microsoft-cognitiveservices-speech-sdk/?view=azure-node-latest相当糟糕，我无法找到如何使用他们的 SDK 访问原始音频的内置方法。我唯一的选择是使用两个音频流进行录制并使用单独的录制流保存文件吗？这意味着什么？

SDK 不保存音频，也没有内置的功能。

在版本 1.11.0 中，连接对象中添加了一个新的 API，以允许您查看发送到服务的消息，您可以从中提取音频并自行组装波形文件。

这是一些执行此操作的打字稿：

import * as SpeechSdk from "microsoft-cognitiveservices-speech-sdk";
import * as fs from "fs";

const filename: string = "input.wav";
const outputFileName: string = "out.wav";
const subscriptionKey: string = "<SUBSCRIPTION_KEY>";
const region: string = "<SUBSCRIPTION_REGION>";

const speechConfig: SpeechSdk.SpeechConfig = SpeechSdk.SpeechConfig.fromSubscription(subscriptionKey, region);

// Load the audio from a file, alternately you could use 
// const audioConfig:SpeechSdk.AudioConfig = SpeechSdk.AudioConfig.fromDefaultMicrophone() in a browser();
const fileContents: Buffer = fs.readFileSync(filename);
const inputStream: SpeechSdk.PushAudioInputStream = SpeechSdk.AudioInputStream.createPushStream();
const audioConfig: SpeechSdk.AudioConfig = SpeechSdk.AudioConfig.fromStreamInput(inputStream);
inputStream.write(fileContents);
inputStream.close();

const r: SpeechSdk.SpeechRecognizer = new SpeechSdk.SpeechRecognizer(speechConfig, audioConfig);
const con: SpeechSdk.Connection = SpeechSdk.Connection.fromRecognizer(r);

let wavFragmentCount: number = 0;

const wavFragments: { [id: number]: ArrayBuffer; } = {};

con.messageSent = (args: SpeechSdk.ConnectionMessageEventArgs): void => {
    // Only record outbound audio mesages that have data in them.
    if (args.message.path === "audio" && args.message.isBinaryMessage && args.message.binaryMessage !== null) {
        wavFragments[wavFragmentCount++] = args.message.binaryMessage;
    }
};

r.recognizeOnceAsync((result: SpeechSdk.SpeechRecognitionResult) => {
    // Find the length of the audio sent.
    let byteCount: number = 0;
    for (let i: number = 0; i < wavFragmentCount; i++) {
        byteCount += wavFragments[i].byteLength;
    }

    // Output array.
    const sentAudio: Uint8Array = new Uint8Array(byteCount);

    byteCount = 0;
    for (let i: number = 0; i < wavFragmentCount; i++) {
        sentAudio.set(new Uint8Array(wavFragments[i]), byteCount);
        byteCount += wavFragments[i].byteLength;
    }

    // Set the file size in the wave header:
    const view = new DataView(sentAudio.buffer);
    view.setUint32(4, byteCount, true);
    view.setUint32(40, byteCount, true);

    // Write the audio back to disk.
    fs.writeFileSync(outputFileName, sentAudio);
    r.close();
});

它从文件加载，因此我可以在 NodeJS 而不是浏览器中进行测试，但核心部分是相同的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

javascript

audiorecording

speechtotext

azurecognitiveservices

如何访问Microsoft Speech SDK录制的音频流的相关文章

为任何更新查询增加 Mongoose 文档版本的简单方法？

我想开始利用 Mongooses 文档版本控制 v key 我在实际增加版本值时遇到了问题然后我发现您必须添加this increment 执行查询时有没有办法自动递增目前我只是将其添加到pre用于更新类型查询的中间件 module
如何打开新选项卡并更改当前页面
检测单选按钮/复选框状态的变化

我需要可靠地检测页面上单选按钮复选框的状态变化以便查看表单是否被修改现在这是一个完全独立的脚本我无法修改任何控制表单的内容目前我只能看到两种方法 onchange事件处理程序有助于处理文本框文本区域和选择但不会针对复选框
如何恢复文本框数据

我有一个小小的要求我们已经恢复了之前清除的文本框数据下面是我的 HTML 代码 table tr td td tr table
有没有办法动态更改 jqGrid 的单元格值？

这个问题可能已经被问过很多次了但我想知道是否可以动态更改 jqgrid 的单元格值我基本上有一个网格它通过 JSON 字符串加载数据在特定列的某些行上该值可能为 null 因此预先知道哪个行 ID 是一个问题然后能够将 nul
JavaScript 字符串中的脚本标签[重复]

这个问题在这里已经有答案了我遇到一个问题即 JavaScript 中带引号的字符串内有结束脚本标记并且它正在杀死脚本我认为这不是预期的行为可以在这里看到这样的示例 http jsbin com oqepe edit http js
JAVASCRIPT - 为什么这个对象没有改变？

function myFunc theObject theObject make Ford model Focus year 2006 var mycar make Honda model Accord year 1998 var x my
获取被调用的 javascript 文件的查询字符串

是否可以在调用的 javascript 文件上使用 javascript 获取查询参数如下所示 in html in file js console log this location query 这是否可能以某种方式实现或者我必须使用
以下文档我无法创建 Vue.js 3 的实例

The code https stackblitz com edit vue ttt file src main js https stackblitz com edit vue ttt file src main js 问题我正在尝试在
检测 Webkit/Chrome 中 HTML5 数字控件更改的事件？

HTML5 为我们提供了一些新的输入元素例如
Angular UI 路由器嵌套视图问题

我在理解 Angular UI Router 嵌套视图的工作原理时遇到了一些问题我的 stateProvider 看起来像这样 stateProvider state login url login views main template
JavaScript 相当于 Python 的参数化 string.format() 函数

这是 Python 示例 gt gt gt Coordinates latitude longitude format latitude 37 24N longitude 115 81W Coordinates 37 24N 115 81W
使用javascript以编程方式触发iOS safari中的复制菜单？

我正在尝试实现一种用户友好的方式将一些文本从文本输入字段复制到 iOS Safari 上的剪贴板我知道无法在这个平台上以编程方式完成此操作但我希望能够尽可能地指导用户体验在 iOS Safari 上当用户手动突出显示某些文本时会
通过 JavaScript 单击按钮/页面提交

我想了解 asp net 框架如何知道何时单击了按钮因此一旦收到请求就会在服务器上触发其单击事件我需要了解它是如何工作的因为我想从 JavaScript 触发按钮的服务器单击事件我能够从 JavaScript 执行页面提交 doc
Chrome --app 相当于 Firefox\IE

我有一个网络应用程序客户要求单击不同按钮时更改浏览器窗口大小我发现在那link https stackoverflow com questions 13436855 launch google chrome from the comma
播放没有音频标签的音频

是否可以在没有音频标签的情况下仅使用 javascript 播放音频我通过 tinyMce 编辑器注入脚本因为我无权访问网站的后端并且它不支持客户端的音频标签她只想要当您将鼠标悬停在图像上时发出简单的声音我已经完成了所有设置但是
从字节数组设置 img src

我需要设置img src我在对象中拥有的字节数组的属性 img
为什么 call 比 apply 快那么多？

我想知道是否有人知道why call比apply 在 Chrome 中速度大约快 4 倍在 Firefox 中快 30 倍我什至可以制作自定义原型 apply2 在大多数情况下运行速度是apply 这个想法取自角度 Function
React Redux - 在辅助函数中访问现有存储

我试图在反应组件之外获取存储实例存储状态即在单独的辅助函数中我有我的减速器我的动作我在最上面的组件中创建了一个商店 configStore js import createStore from redux import gener
如何解决“消息端口在收到响应之前已关闭”的问题。在 JavaScript 中的 window.location.reload() 之后

我遇到了 javascript 问题从 chrome v73 0 3683 86 开始每当我在 window location reload 函数之后运行 javascript 代码时它总是给我错误 Unchecked runtime

随机推荐

检测菜单项单击上的鼠标左键/右键吗？

在Delphi XE2中如何检测用户是否用鼠标左键或右键单击了弹出菜单项使用该单元将其作为组件安装并替换标准TPopupMenu这增加了一个OnMenuRightClick event unit RCPopupMenu interfa
如何在使用 iframe 时停止 IE 11 上的自动下载

我已经在 Iframe 标记中给出了源我的问题是当页面在 IE 上加载时下载会自动开始并且通常发生在 Windows 8 上安装的 IE 上 div div 下载可能是因为没有Adobe Reader插件安装在这种情况下 IE
在 SoundCloud iOS 应用程序中打开曲目的 URL

我想在 SoundCloud iOS 应用程序中打开 SoundCloud 曲目我的印象是使用正确的 url 方案是soundcloud track track id 这将打开 SoundCloud 应用程序但不会选择正确的曲目任何人
无法在 Python 3.10 上安装 Matplotlib

python3 10 m pip install user matplotlib 当我运行上面的命令来安装 Matplotlib 时我不断收到以下错误我最初遇到 C 错误然后我安装了 Visual Studio Time Elapse
任何像 recyclerview 或 javafx 的可重用视图之类的东西

我正在创建一个滚动窗格它显示从 sqlite 数据库获取的数据集这些数据以这样的方式显示即它们排列在重复的 ui 集中就像在 android 中的 recyclerview 中一样有什么方法可以实现它因为使用 javafx 定位
如何阻止 Exchange 自动将纯文本电子邮件转换为 HTML？

我已经为将由我的代码解析的电子邮件设置了一个 Exchange 2003 邮箱电子邮件以纯文本形式发送我的代码希望以纯文本形式接收它们但是 Exchange 似乎会自动将它们转换为 HTML 我如何阻止它这样做并只按照发送的方式接收电
在 pandas 中使用元组作为索引键时，如何“通过传入类别参数显式指定类别顺序”？

我一直在试图弄清楚如何使这些元组索引键pandas但我收到错误我如何使用错误中的建议pd Categorical下面修复这个错误我知道我可以转换为字符串但我很好奇错误消息中的建议是什么意思当我运行它时效果非常好0 22 0 我已经
emberjs：如何在视图中触发自定义事件

我想将原始事件单击转换为语义事件例如 deleteTodo 这是描述的here http emberjs com guides views 但不知道如何实施我有以下代码 App TodoView Em View extend cli
在编译时进行字符串驻留以进行分析

Context 我正在开发一个仪器分析器它使您能够通过字符串命名不同的测量结果例如 MEASURE SCOPE text rendering code MEASURE SCOPE password hashing MEASURE STA
使用 jQuery 获取单元格的“坐标”

我正在构建一个不同的网站下面是我的 HTML 标记和我的问题请不要被这堵文字吓倒我确信对于那些知道自己的东西的人来说这确实不是一个难题但需要一些解释 div class cell table border 0 cellpadding
当 HEALTHCHECK 失败时 Docker 容器会发生什么

码头工人docs https docs docker com engine reference builder healthcheck说什么HEALTHCHECK说明是如何检查容器的健康状况但我无法弄清楚健康检查失败时会发生什么就像按照
MySQL复制用户

我想在我的 MySQL 测试数据库上创建两个用户一个对与生成报告等相关的表具有只读访问权限另一个对同一表具有读写访问权限这是为了测试通常与只读用户连接但切换到读写用户以执行某些任务的子系统我已经创建了具有正确权限的读写用户现在我需
使用 RxJava 处理长时间运行的任务

我正在尝试迁移AsyncTask向服务器发送消息使用 RxJava 粗略地说该任务执行以下操作 1 创建一条将要发送的消息保存到数据库 2 向用户显示消息状态正在发送 3 向服务器发送消息代码片段如下 4 将消息标记为已发送或失
如何向表视图添加“加载更多”选项

我的应用程序有一个由 Sqlite DB 填充的表其中包含大量数据所以它会导致表视图中的延迟加载这是代码 void searchData i 0 newSearchBar setShowsCancelButton YES animat
IMDB 是否提供 API？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我最近发现了一个电影组织者应用程序它从互联网电影数据库 http www imdb com Does
无法调试 Go 代码：无法启动进程：在偏移量 0x0 处解码 dwarf 部分信息：太短

我们正在尝试调试 Go 代码并收到此错误 could not launch process decoding dwarf section info at offset 0x0 too short 我们的设置 WITSC02X6385JGH
BluetoothGatt：协商新的 MTU 成功，但无法使用新的大小（相差 3 个字节）

我正在开发一个使用 BLE 在设备之间交换数据的应用程序为了获得更好的性能在连接两个设备后我正在协商增加 MTU 以便通过 BLE 交换更大的数据包连接蓝牙设备并读取所有服务和特征后我请求使用以下方法增加 MTU private
我想为图像创建一个单独的域

我想设置一个名为 img mydomain com 的域这将是一个虚拟域就像我的实际域一样除了一个区别它只提供以 jpg jpeg gif png 等结尾的文件这样我就可以参考 img mydomain com some imag
如何在wxFrame上设置图标？

如何向 wxFrame 添加图标 ico 文件我正在寻找docs http www wxpython org docs api wx Frame class html但找不到任何提及icon Thanks 凤凰wxpython frame
如何访问Microsoft Speech SDK录制的音频流

我正在使用 Microsoft 的 JavaScript 语音 SDK 转录麦克风流录音和转录都是使用语音 SDK 完成的我无法找到在录音完成后如何访问和保存录制的音频文件的方法创建录音机并录音的代码 recognizer new S

如何访问Microsoft Speech SDK录制的音频流

如何访问Microsoft Speech SDK录制的音频流 的相关文章

随机推荐

热门标签

如何访问Microsoft Speech SDK录制的音频流的相关文章