Google Cloud 文本转语音界面混乱（如何下载 mp3 文件？）

2023-12-25

我想以这样的事实作为序言：我不是程序员/开发人员 - 我是多媒体设计师。我使用文本转语音来生成占位符音频文件，这些文件可用于在录制官方音频旁白之前为动画计时。

之前我使用的是 Amazon Polly，但我想尝试一下 Google Cloud。然而，我实际上最难弄清楚如何生成 mp3 文件并保存它们。

使用 Amazon Polly，您只需访问网站，在字段中输入文本，然后单击按钮，它就会将您的文件保存为 mp3 文件。对于 Google Cloud，情况似乎比这复杂得多。 “快速入门”指南让我启用 API、下载 JSON 文件、设置环境凭据、初始化 SDK 以及在命令提示符中输入代码。

我在其文档页面上阅读的每一个指南似乎都不可避免地引导我进入我根本不理解的步骤。我讨厌听起来像个彻头彻尾的小丑，但这似乎有点超出我的理解范围。我不想创建软件或将机器学习集成到网站中，我只是想输入几行文本并生成 mp3 文件。

有没有办法用谷歌云来做到这一点？启动页面（https://cloud.google.com/text-to-speech/ https://cloud.google.com/text-to-speech/）提供的正是我想要的，但没有下载文件的选项，只能预览它们。

预先感谢您为这个新手提供的任何帮助。

所有 Google 的 ML 相关工具的“普通用户”用户体验都相当差，而且都是专门为编程使用而设计的。如果您只是在寻找一些具有合理良好用途的基本工具，那么目前 GCP 可能不是。

鉴于此，如果您愿意在开始时付出一些努力，那么将这些样本变成更多的东西并不困难。我建议使用此处描述的命令行。 https://cloud.google.com/text-to-speech/docs/quickstart-client-libraries

我将添加一些初始步骤。 1）下载并设置 Gcloud SDK 工具。 https://cloud.google.com/sdk/install2）在终端运行gcloud auth application-default login。这将打开一个浏览器，像登录 GCP Console 一样登录。 3）他们提供了通用文件的示例请求：

curl -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
  -H "Content-Type: application/json; charset=utf-8" \
  --data "{
    'input':{
      'text':'Android is a mobile operating system developed by Google,
         based on the Linux kernel and designed primarily for
         touchscreen mobile devices such as smartphones and tablets.'
    },
    'voice':{
      'languageCode':'en-gb',
      'name':'en-GB-Standard-A',
      'ssmlGender':'FEMALE'
    },
    'audioConfig':{
      'audioEncoding':'MP3'
    }
  }" "https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-text.txt

这就是我所说的体验不佳的意思，代码https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-text.txt将文本转语音操作的结果写入synthesize-text.txt，txt里面就是你的mp3文件。但是等等，他们希望您以编程方式使用它，因此 MP3 不仅仅是一个直接文件，您可能想用它做其他事情，因此它以名为 Base64 的编码返回，这使得通过 http 使用二进制数据变得更容易（其中文本最常见）。因此，您得到的不是 mp3，而是 json 文件，例如：

{“音频内容”： “//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW..”}

以 // 开头的文本是您的音频。但是因为您是手动执行此操作，所以您需要将引号内的所有内容（这将是一串以 //... 开头的非常长的文本字符，保留 // 字符）复制到一个名为任何您想要的文件的新文件中，他们将其命名为“synthesize-output-base64.txt”。然后运行base64 synthesize-output-base64.txt --decode > synthesized-audio.mp3

你就完成了......原始请求让你指定文本、语音等。但实际上，如果你正在寻找具有漂亮 UI 的休闲文本到语音转换功能，GCP 还没有。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Google Cloud 文本转语音界面混乱（如何下载 mp3 文件？）的相关文章

用于 C# XNA 的 Javascript（或类似）游戏脚本

最近我准备用 XNA C 开发另一个游戏上次我在 XNA C 中开发游戏时遇到了必须向游戏中添加地图和可自定义数据的问题每次我想添加新内容或更改游戏角色的某些值或其他内容时我都必须重建整个游戏或其他内容这可能需要相当长的时间有没
在 GWT 中，在任何主机页标记上添加事件处理程序

我想为任何标签添加 MouseOver 事件处理程序举个例子我想为旧版 HTML 页面中的每个锚点页面添加事件处理程序继GWT指南 http code google com webtoolkit doc 1 6 DevGuideUse
没有 OAuth 的 Spring Security JWT

最近我开始学习如何使用oauth 2 0 jwt配置spring boot 我有一个问题是否可以使用spring boot security jwt避免oauth 2 0 是的可以使用JWT无需使用标准化的功能OAuth 2 0 flo
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
使用 crypt() 加密

我目前正在做一个非常安全的登录系统但我是 crypt 函数的新手需要一些快速帮助我在注册过程中使用 crypt 加密密码字符串并将其保存到数据库中但是我如何在登录过程中解密密钥或者我应该怎么做或者是否可以对提交的密码字符串进行
带重定向标准流的 C# + telnet 进程立即退出

我正在尝试用 C 做一个脚本化 telnet 项目有点类似于Tcl期望 http expect nist gov 我需要为其启动 telnet 进程并重定向和处理其 stdin stdout 流问题是生成的 telnet 进程在
Googletest：如何异步运行测试？

考虑到一个包含数千个测试的大型项目其中一些测试需要几分钟才能完成如果按顺序执行整套测试需要一个多小时才能完成通过并行执行测试可以减少测试时间据我所知没有办法直接从 googletest mock 做到这一点就像 async选项
NGinx $proxy_add_x_forwarded_for 和 real_ip_header

我在 NGinx 下有一个 web 应用程序和另一个前端负载均衡器如下所示 x x x x IP 地址客户端 a a a a gt LB b b b b gt NGX c c c c gt WEBAPP d d d d 这是我的 NGi
Typescript 函数接口重载

我有以下代码 interface MySecondInterface a type A interface MyInterface val1 string val2 string MySecondInterface a
自定义 Visual Studio 2008 中的位置栏

有人成功定制了 VS 2008 的 Places Bar 吗我从 VS 2005 进行的自定义设置并没有转移到 2008 显然并且无论我如何处理注册表我都无法使我的自定义位置出现在打开对话框中我已经阅读并应用了相关的MS KB文
是否可以在 C# 中强制接口实现为虚拟？

我今天遇到了一个问题试图重写尚未声明为虚拟的接口方法的实现在这种情况下我无法更改接口或基本实现而必须尝试其他方法但我想知道是否有一种方法可以强制类使用虚拟方法实现接口 Example interface IBuilder
使用泛型全面实现特征

我正在通过实现矩阵数学来练习 Rust 但遇到了一些障碍我定义了我认为与矩阵相关的特征 trait Matrix
Android：如何检测手机设置中的语言已更改

我如何检测我的手机语言是否已更改例如 Facebook 应用程序将向我们宣布 please wait we preparing your language i used myString Locale getDefault getDisp
错误：无效使用不完整类型“类 Move”/未定义对 Move::NONE 的引用

拜托我不知道为什么这个简单的代码被拒绝它给了我 2 个编译错误请帮帮我 I use 代码块 20 03 我的编译器是GNU GCC 移动 hpp class Move public Move Move int int public
Android 和 Java 中绘制椭圆的区别

在Java中由于某种原因Ellipse2D Double使用参数 height width x y 当我创建一个RectF在Android中参数是 left top right bottom 所以我对适应差异有点困惑如果在 Java 中创
保存符号方程以供以后使用？

From here http www mathworks com help releases R2011a toolbox symbolic brvfu8o 1 html brvfxem 1 我正在尝试求解这样的符号方程组 syms x y
当ScrollView滚动到底部时加载更多数据

我有一个带有动态加载内容的滚动视图有时可能会有很多内容所以我想在用户滚动到底部时加载更多内容我搜索了合适的方法发现了两种 onScrollChanged and getScrollY 但我不知道如何将它用于我的目的请给我一些建议
如果产品重量超过1000克，如何以公斤为单位显示

在 Storefront 主题中我使用下面的代码将格式化重量从 1000g 更改为 1kg add action woocommerce after shop loop item title show weight 10 function
android ndk 硬件调试内存

背景我对 C 很有经验对 Android 和 Java 还很陌生但这是编程的环境问题我已经用 ANSI C 开发了一个管理应用程序可以移植到任何操作系统只需在依赖于操作系统的代码中添加 UI 即可它使用相当多的内存特别是对于
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do

随机推荐

R XTS to.mines5()，未按“I”预期进行转换

您好我正在将一些 1 分钟的数据转换为 5 分钟的数据我发现第一次增量需要 4 分钟然后继续执行 5 分钟的增量我尝试过使用所有 indexAt 参数但没有一个给我想要的从 5 开始然后是 10 15 20 等我试过了 x5
在2.0.0M1中安装Grails Spock插件

我正在尝试 Grails 2 0 0M1 和 Springsource Tool Suite 2 7 1 但在安装 spock 插件时遇到问题当我运行 grails install plugin spock 0 6 groovy 1 8
如何在 Android 市场中从免费应用程序链接到付费应用程序？

如果我在 Android 市场上有付费应用程序的免费版本如何在免费应用程序中放置一个按钮来打开市场中的付费版本更好的是使用 market details 而不是 market search Intent intent new Inten
模拟器网络IP地址和虚拟路由器

我在 Windows 上使用 Android 模拟器 Android 开发人员文档表示模拟器的每个实例都在虚拟路由器防火墙服务后面运行每个实例的虚拟路由器管理 10 0 2 24 网络地址空间但是当我使用以下命令连接到模拟器时ad
如何检查程序空闲时间而不是系统空闲时间？

我有一个程序偶尔需要递归地扫描一些目录这部分程序的改进正在酝酿中但暂时还没有准备好为了避免用户必须等待此扫描我希望尽可能在用户不使用我的程序时进行扫描我打算通过运行一个检查空闲时间的计时器来实现它我发现以下内容用于检查系统空闲
带有递归的字符串排列

我是一名java初学者正在尝试从java编程书中进行字符串排列练习我定义了两种方法 public static void displayPermutation String s public static void displayPer
预留座位软件：C#即时抽取大量座位

我正在使用 C 构建座位预订软件但我很困惑如何立即抽取大量座位我正在尝试三种方法即使用用户控件 public void DrawUsercontrol int x int y int space 4 int SeatLimit 16
添加动态/通配符 FACEBOOK 有效的 OAuth 重定向 URI [重复]

这个问题在这里已经有答案了我希望能够在不同的子域上登录 Facebook 例如 www 123 mywebsite com www 456 mywebsite com 有办法实现这一点吗而不是手动将它们一一添加也许像通配符例如 ww
在文件中搜索多个字符串（来自文件）并打印该行

再次为这里的菜鸟道歉尝试下面的代码来搜索从关键字读取的多个字符串并搜索f并打印该行如果我只有一个关键字它会起作用但如果我有多个关键字它就不起作用 keywords input Please Enter keywords path
从url下载文件，保存到手机存储

我正在开发一个项目该项目需要我在点击按钮后从 URL 下载文件并将其存储到手机存储可能是下载文件夹关于如何做到这一点有什么想法吗正在下载的文件也不总是相同的可以是从图像到 pdf 的任何文件 Use https pub dart
字符大小是 8 位还是 16 位？

http docs oracle com javase tutorial java nutsandbolts datatypes html http docs oracle com javase tutorial java nutsandb
在oracle中如何将xml转换为json？

如果我有
使用（单个）LINQ 查询计算与组中前一项的差异

当数据需要分组时我试图弄清楚如何计算与前一项的差异我有这样的数据 City Area Date Citizens New York 1 2010 11 20 5 New York 1 2010 11 21 8 New York 1 20
MinGW 与 MSVS 下的 Windows 导出/导入符号； CMake 的 WINDOWS_EXPORT_ALL_SYMBOLS 被忽略

要使用 Visual Studio 构建 C 库请使用 CMake 命令 set WINDOWS EXPORT ALL SYMBOLS ON 让我免于添加 declspec dllexport or declspec dllimport
用户的 Facebook Messenger PSID PageScope 是否恒定

我正在开发一个聊天机器人我想从我的服务器 ping 需要 PSID 的 FB 用户我使用帐户链接 API 获取 PSID 有没有办法链接用户电子邮件和 PSID 因为我们使用电子邮件作为识别用户的唯一参数如果用户注销下次登录时 PS
Firebird 数据库中的 Netbeans Hibernate 映射文件和 POJO 向导中的 NullPointerException [重复]

这个问题在这里已经有答案了我正在使用 netbeans hibernate 和 firebird 开发桌面应用程序该向导不会给我创建文件 hibernate cfg xml 带来麻烦或 HibernateUtil java 但通过尝试
将图像坐标系的原点更改为左下角而不是默认的左上角

有没有一种简单的方法可以将OpenCV图像坐标系的原点更改为左下角使用numpy例如我正在使用 OpenCv 2 4 12 和 Python 2 7 有关的 Numpy 翻转坐标系 https stackoverflow com que
HTML 音频无法设置 currentTime

我正在使用 Chrome 在我的开发工具控制台中我尝试了以下操作除了最后一行之外一切都按预期工作为什么我不能设置currentTime on it 总的来说我发现整个 HTML5 Audio 的东西不是很可靠是否有一个强大的 j
Java 中有 TimeSpan 类吗

我只是想知道是否需要 TimeSpanjava util这样我就可以定义这两个时间之间有多少小时分钟和秒由此TimeSpan我们可以在两个时间之间设置一个时间间隔喜欢 TimeSpan getTimeSpan Date before
Google Cloud 文本转语音界面混乱（如何下载 mp3 文件？）

我想以这样的事实作为序言我不是程序员开发人员我是多媒体设计师我使用文本转语音来生成占位符音频文件这些文件可用于在录制官方音频旁白之前为动画计时之前我使用的是 Amazon Polly 但我想尝试一下 Google Cloud 然

Google Cloud 文本转语音界面混乱（如何下载 mp3 文件？）

Google Cloud 文本转语音界面混乱（如何下载 mp3 文件？） 的相关文章

随机推荐

热门标签

Google Cloud 文本转语音界面混乱（如何下载 mp3 文件？）的相关文章