如何从 Google Cloud 文本转语音 API 获取 SSML 时间戳

2023-12-27

我想用SSML标记 https://www.w3.org/TR/2009/REC-speech-synthesis-20090303/#edef_mark通过 Google Cloud 文本转语音 API 来请求音频流中这些标记的计时。为了向用户提供效果、单词/部分突出显示和反馈的提示，这些时间戳是必要的。

I found 这个问题 https://stackoverflow.com/questions/55320826/google-cloud-text-to-speech-word-timestamps这是相关的，尽管问题指的是每个单词的时间戳而不是 SSML<mark> tag.

以下 API 请求返回 OK，但显示缺少请求的标记数据。这是使用Cloud Text-to-Speech API v1.

{
 "voice": {
  "languageCode": "en-US"
 },
 "input": {
  "ssml": "<speak>First, <mark name=\"a\"/> second, <mark name=\"b\"/> third.</speak>"
 },
 "audioConfig": {
  "audioEncoding": "mp3"
 }
}

回复：

{
 "audioContent":"//NExAAAAANIAAAAABcFAThYGJqMWA..."
}

它仅提供合成音频，没有任何上下文信息。

是否有一个我忽略的 API 请求可以公开有关这些标记的信息，例如IBM沃森 https://cloud.ibm.com/docs/services/text-to-speech?topic=text-to-speech-timing and 亚马逊波莉 https://docs.aws.amazon.com/polly/latest/dg/using-speechmarks.html?

在撰写本文时，时间点数据可在v1beta1谷歌云文本转语音功能发布。

除了默认访问之外，我不需要登录任何额外的开发人员计划即可访问测试版。

Python 中的导入（例如）来自：

from google.cloud import texttospeech as tts

to:

from google.cloud import texttospeech_v1beta1 as tts

又好又简单。

我需要修改发送综合请求的默认方式以包括enable_time_pointing flag.

我发现通过混合探索机器可读的API描述在这里 https://texttospeech.googleapis.com/%24discovery/rest?version=v1beta1并阅读我已经下载的Python库代码。

值得庆幸的是，通用版本中的源代码还包括v1beta版本 - 谢谢谷歌！

我在下面放置了一个可运行的示例。运行此程序需要与一般文本转语音示例相同的身份验证和设置，您可以通过遵循官方文档来获取该示例。

这就是它对我的作用（为了可读性而进行了轻微的格式化）：

$ python tools/try-marks.py
Marks content written to file: .../demo.json
Audio content written to file: .../demo.mp3

$ cat demo.json
[
  {"sec": 0.4300000071525574, "name": "here"},
  {"sec": 0.9234582781791687, "name": "there"}
]

这是示例：

import json
from pathlib import Path
from google.cloud import texttospeech_v1beta1 as tts


def go_ssml(basename: Path, ssml):
    client = tts.TextToSpeechClient()
    voice = tts.VoiceSelectionParams(
        language_code="en-AU",
        name="en-AU-Wavenet-B",
        ssml_gender=tts.SsmlVoiceGender.MALE,
    )

    response = client.synthesize_speech(
        request=tts.SynthesizeSpeechRequest(
            input=tts.SynthesisInput(ssml=ssml),
            voice=voice,
            audio_config=tts.AudioConfig(audio_encoding=tts.AudioEncoding.MP3),
            enable_time_pointing=[
                tts.SynthesizeSpeechRequest.TimepointType.SSML_MARK]
        )
    )

    # cheesy conversion of array of Timepoint proto.Message objects into plain-old data
    marks = [dict(sec=t.time_seconds, name=t.mark_name)
             for t in response.timepoints]

    name = basename.with_suffix('.json')
    with name.open('w') as out:
        json.dump(marks, out)
        print(f'Marks content written to file: {name}')

    name = basename.with_suffix('.mp3')
    with name.open('wb') as out:
        out.write(response.audio_content)
        print(f'Audio content written to file: {name}')


go_ssml(Path.cwd() / 'demo', """
    <speak>
    Go from <mark name="here"/> here, to <mark name="there"/> there!
    </speak>
    """)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 Google Cloud 文本转语音 API 获取 SSML 时间戳的相关文章

Multiple markers at this line @Override的解决方法

使用Eclipse 进行项目开发 xff0c 在实现类中的方法前面如果添加 64 Override就提示 Multiple markers at this line 的错误 xff0c 问题描述如下 Multiple markers at
【OpenCV3.2】Detection of ArUco Markers 翻译OpenCV文档:ArUco Marker的检测

这个其实是翻译的opencv的官方文档的aruco部分 https docs opencv org 3 1 0 d5 dae tutorial aruco detection html 视觉降落的二维码检测用到这里面摘自 xff1a ht
[OpenCV] aruco Markers识别

reference http docs opencv org 3 1 0 d5 dae tutorial aruco detection html 姿态估计 xff08 Pose estimation xff09 在计算机视觉领域扮演着十分
如何优雅地结束 Google Speech-to-Text 流识别并取回待处理的文本结果？

我希望能够结束 Google 语音转文本流创建于streamingRecognize 并获取待处理的 SR 语音识别结果简而言之相关的 Node js 代码 create SR stream const stream speechC
Google Actions sdk 无法从 Firebase 存储中播放 ssml 中的音频

Google Actions SDK 无法从 Firebase 存储播放 SSML 音频标记中的音频文件虽然我可以播放维基百科上相同的 ogg 格式文件 https upload wikimedia org wikipedia en 9
在 Javascript 中使用 Google 文本转语音

我需要玩谷歌文本转语音在 JavaScript 中这个想法是使用网络服务并在某个动作上播放它例如单击按钮但它似乎不像加载普通的 wav mp3 文件
如何在android中播放.opus音频文件？

我正在开发一个应用程序用于使用谷歌云语音 APi 识别语音并同时录制音频 git link https github com rowntreerob Google speech Opus Recorder我尝试播放录制的 opus 音频文
如何从 Google Cloud 文本转语音 API 获取 SSML 时间戳

我想用SSML标记 https www w3 org TR 2009 REC speech synthesis 20090303 edef mark通过 Google Cloud 文本转语音 API 来请求音频流中这些标记的计时为了向用户
使用只有很棒的字体的标记图标，没有周围的气球

我的代码运行良好但我只需要显示要显示的图标而不是带有阴影的气球我尝试过删除 markerColor 但这只是更改为默认的蓝色标记气球如何只显示图标及其大小和颜色 pointToLayer function feature lat
是否可以更改Matlab绘图功能中的标记？ [复制]

这个问题在这里已经有答案了我正在尝试使用 matlab 绘图函数来创建绘图然而可用的标记是有限的例如 plot x y o 将用圆形标记绘制但是如果我想要带有箭头符号或字母的标记这是不可能的有谁知道有什么方法可以做到这一点
R Shiny with Leaflet - 单击后更改标记的颜色

我正在开发一个闪亮的应用程序它显示带有标记的传单地图标记是可点击的我收集被点击标记的 ID 但我还想更改单击标记的颜色当标记为蓝色时它应更改为红色标记反之亦然到目前为止我已经有了跟踪单击的标记的代码并且可以将 ID 存储在
将地图标记设置为自定义颜色 Android

我正在制作一个应用程序可以在地图的某些点添加图钉我希望我的图钉颜色与我们应用程序的主题颜色相匹配抱歉我真的是菜鸟 int color Color rgb 255 201 14 mMap MapFragment getFragmentM
是否可以在不编写新文件的情况下将文本合成语音？

我想使用 GCP 文本到语音 API 合成文本到语音几乎我能找到的每个示例都会写入一个新文件我想在该函数输入文本并通过计算机扬声器读取它时执行此操作我一直在尝试转换 GCP 上传的代码表示你好世界我还没有找到一种方法可以在转换
无法加载库：[netty_tcnative_linux_arm_32、netty_tcnative_linux_arm_32_fedora、netty_tcnative_arm_32、netty_tcnative]

我正在尝试在 raspberry pi modal 3 上使用 jar 运行 java 应用程序我无法解决此问题有人可以建议我如何在树莓派上进行这项工作吗在 pom 中我包含了 google cloud speech 依赖项 0 5
如何在 Google colab 中循环播放音频

我试图在 google colab 中循环运行音频但它没有给 mi 任何输出 from gtts import gTTS from IPython display import Audio for voice in Aniket sach
使用 API 密钥通过 Android 上的 GRPC 验证 Google Cloud Speech

我已经成功地通过 GRPC 使用流模式下的服务帐户让 Google Cloud Speech 适用于我的 Android 应用程序但是根据我所读到的内容出于安全原因我不应该部署包含这些凭据当前作为 JSON 文件存储在资源中的
计算 MarkerCluster 中的元素数量

所以我的地图上有几家商店作为图层我的所有商店都已添加到 MarkerCluster 并且该商店已添加到地图一切正常但我想在我的 viewPort 中显示有关商店的简短信息对于通常的商店层这是第一次尝试但集群组不起作用我从这个
使用没有 json 文件的 Google 应用程序默认凭据

我使用 C 创建了一个控制台应用程序我使用了谷歌云语音API 我跟着this https github com GoogleCloudPlatform dotnet docs samples tree master speech api
当 Edgecolor = 'none' 时，Matplotlib 标记消失

我正在尝试绘制一些 PCA 数据的散点图我做了一些非常典型的代码 plt plot pca 0 pca 1 ms 3 markerfacecolor self colors k markeredgecolor none 我希望它只显示标记
Google 文本转语音 API 音调调整

如何在此代码中将音调调整为 1 20 from google cloud import texttospeech def text to wav voice name text language code join voice name s

随机推荐

file_get_contents() 有效链接上出现“无法打开流：网络无法访问”错误

有一个在 php 中使用 Youtube API 的极其简单的示例但在我的情况下却无法正常工作而且我找不到明确的解决方案我希望自己使用 Youtube API 而无需任何包装器来获取视频数据下列search list当我尝试通过浏览
值/对象的 NSDictionary 键？ [复制]

这个问题在这里已经有答案了我们能得到一个对象的密钥吗 NSDictionary通过传递特定值或对象 NSDictionary allKeysForObject http developer apple com library ios do
我如何使用指定参数获取 jenkins 中的最新版本

我的目标是获得具有特定参数的最新 Jenkins 作业作业名称 hanna 我这样做的唯一原因是当我从脚本触发时 Jenkins 不会返回内部版本号因此我必须传入一个参数但我必须能够稍后查询该参数现在我有这个它不返回构建 ID c
在 Android 中将字符串转换为 Uri

我有一根绳子 songchoice 我希望它成为 Uri 这样我就可以使用MediaPlayer create context Uri 如何将歌曲选择转换为 Uri Uri myUri Uri parse http www google c
使用 JavaScript 删除 URL 中的片段，不会导致页面重新加载

背景我有一个 HTML 页面可让您扩展某些内容由于此类扩展只需要加载页面的一小部分因此它是通过 JavaScript 完成的而不是通过定向到新的 URL HTML 页面然而作为奖励用户可以永久链接到此类扩展部分即向其他人发
带 Retrofit API 的 MalformedJsonException？

我需要发送一个 json 到我的网络服务 json 是 Sala usuario adversario atualizacao device device tipo ios 我正在尝试使用 Retrofit API 1 8 来完成此操作当
在 ng-repeat 中显示子数组

在我的 Angular 应用程序中我有以下内容
kernel.h中min宏中的“(void)(&_min1 == &_min2)”的作用是什么？

In kernel h http lxr linux no linux tools perf util include linux kernel h L41分钟定义为 define min x y typeof x min1 x typeo
在 Angular.JS 中获取数据后更改 ng-view

我将使用 http 和 JSON 响应从服务器获取一些数据 http get 路由更改后调用但在下载数据之前模板已更改我的目标是用户按下菜单中的超链接可以更改路线显示正在加载微调器 DOM 元素位于另一个控制器中该控制器每次都在
Java中有什么好的动态SQL生成器库吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案任何人都知道一些好的 Java SQL 构建器库例如Squiggle http code googl
在 Heroku Post Build 期间，找不到文件

这是一个 React 应用程序具有样式化的组件并通过 Node 后端部署到 Herokugit push heroku master 我从单独的文件中导入每个组件的样式import from style 其中文件结构是 OptionsC
将 pandas 数据框从分类重塑为计数

我正在尝试重塑具有两列的数据框 ID 和分类以便每个唯一的分类值都有一列这是我所拥有的 ID Animal foo cat foo dog bar cat baz cat biz dog biz cow biz dog 这就是我想要的
我试图掌握创建使用 SQL Server 数据库的程序的概念，但我习惯于仅在本地计算机上运行它

如何使程序使用 SQL Server 数据库并让该程序在安装它的任何计算机上运行如果您今天一直在关注我的一系列问题您就会知道我正在为中小型企业制作一个开源且免费的帮助台套件客户端应用程序客户端应用程序是 Windows 窗体应用程
获取查询结果列中重复值的计数

我想获取查询结果列中结果中重复的值的计数我从复杂查询中得到的结果集是 svn rvn eng count 1 1 Boy 1 2 1 Teacher 1 3 1 Chair 1 3 2 Chairwoman 1 3 3 Chairpers
如何在 Kotlin 中获取泛型类型参数的类

我想从泛型类型获取类属性T 我决定延长至Any但我收到错误 https kotlinlang org api latest jvm stdlib kotlin any index html extension properties http
如何在 rspec 中调用 rake 任务

我正在尝试在我的 rspec 中调用 rake 任务 require rake rake Rake Application new Rake application rake rake init rake load rakefile rak
:focus-within 当聚焦第一个孩子而不是最后一个时

我有一个 section 仅当第一个子元素接收焦点而不是第二个子元素时我才想在其中设置焦点的元素我尝试使用 not伪类但这没有成功值得注意的是我仍然需要将焦点放在第二个元素上只是不想有两个焦点元素父元素子元素如下例所示 C
每个请求调用 Django 自定义上下文处理器两次

我创建了一个简单的自定义上下文处理器只需运行每个请求一次添加一些日志挂钩后我发现它每个请求被调用两次这是文档中遗漏的已知功能吗与继承树中模板的数量有关吗是1 03的bug吗这不是预期的行为上下文处理器执行一次每次实例
设置输入值而不是 sendKeys() - Selenium WebDriver nodejs

我有很长的字符串要测试sendKeys 需要太长时间当我尝试设置的值时text程序崩溃我知道硒sendKeys 是测试实际用户输入的最佳方法但对于我的应用程序来说它需要太多时间所以我试图避免它有没有办法立即设置该值请参阅这个简
如何从 Google Cloud 文本转语音 API 获取 SSML 时间戳

我想用SSML标记 https www w3 org TR 2009 REC speech synthesis 20090303 edef mark通过 Google Cloud 文本转语音 API 来请求音频流中这些标记的计时为了向用户

如何从 Google Cloud 文本转语音 API 获取 SSML 时间戳

如何从 Google Cloud 文本转语音 API 获取 SSML 时间戳 的相关文章

随机推荐

热门标签

如何从 Google Cloud 文本转语音 API 获取 SSML 时间戳的相关文章