同步文本和音频。有 NLP/语音转文本库可以做到这一点吗？

2024-01-05

我想将语音录音与已知文本同步。是否有一个语音到文本/自然语言处理库可以促进这一点？我想我想要检测单词边界并计算字典中的候选匹配项。我在 SO 上发现的大多数问题都与书面语言有关。

期望但不是必需的：

开源
开箱即用，兼容美式英语
跨平台
详尽记录

编辑：我意识到这是一个非常广泛，甚至天真的问题，所以提前感谢您的指导。

到目前为止我发现了什么：

OpenEars http://www.politepix.com/openears/（iOS Sphinx/Flite 包装器）

强制对齐

听起来你想做强制对齐 http://www.isip.piconepress.com/projects/speech/software/tutorials/production/fundamentals/v1.0/section_04/s04_04_p01.html在您的音频和已知文本之间。

几乎所有研究/工业级语音识别系统都能够做到这一点，因为强制对齐是在没有数据的情况下训练识别系统的重要部分。phone http://en.wikipedia.org/wiki/Phoneme音频和文字记录之间的电平对齐。

对齐 CMUSphinx

The Sphinx4-1.0 beta 5 发布 http://cmusphinx.sourceforge.net/2010/09/sphinx4-1-0-beta-4-released-2/卡耐基梅隆大学的开源语音识别系统现在包括一个有关如何在文字记录和长语音录音之间进行对齐的演示。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

同步文本和音频。有 NLP/语音转文本库可以做到这一点吗？的相关文章

SGDClassifier 每次为文本分类提供不同的准确度

我使用 SVM 分类器将文本分类为好文本和乱码我正在使用 python 的 scikit learn 并按如下方式执行 Created on May 5 2017 import re import random import numpy
python 中单词的动名词形式

我想获得字符串的动名词形式我还没有找到调用库来获取动名词的直接方法我应用了以 ing 结尾的单词的规则但是因为异常导致我收到了一些错误然后我检查 cmu 单词以确保生成的动名词单词正确代码如下 import cmudict im
如何检测（心电图）波的模式？

我正在尝试读取心电图图像并检测其中的每个主波 P 波 QRS 波群和 T 波我可以读取图像并获得向量例如 4 2 4 4 4 9 4 7 我需要一种算法来遍历这个向量并检测每个波何时开始和结束一个例子如果它们总是具有相同的大小或者
词干函数错误：词干需要一个位置参数

这里的stem函数显示错误指出stem需要循环中的一个位置参数如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
BERT - 池化输出与序列输出的第一个向量不同

我在 Tensorflow 中使用 BERT 有一个细节我不太明白根据文档 https tfhub dev google bert uncased L 12 H 768 A 12 1 https tfhub dev google bert
Spacy 中的自定义句子分割

I want spaCy使用我提供的句子分割边界而不是它自己的处理例如 get sentences Bob meets Alice SentBoundary They play together gt Bob meets Alice Th
从 Google 语音识别中删除脏话审查

我正在尝试使用 Google 的语音到文本 API 在 iOS 应用程序中将语音转换为文本我只是将一些音频数据发送到 URL 并且它返回了我所说的大部分正确的单词但是它用替换了任何脏话我如何用实际的咒语替换只是一些附加信息
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
如何在Python程序中嵌入Google Speech to Text API？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个项目在其中创建了客户端和主机之间的聊天程序并且我必须在其中嵌入语音到文本有什么方法可以在
gensim如何计算doc2vec段落向量

我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出段落向量和词向量被平
NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
阻止斯坦福核心 NLP 服务器输出它收到的文本

我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe
如何在Python中使用多处理来加速循环执行

我有两个清单列表 A 包含 500 个单词列表 B 包含 10000 个单词我正在尝试为列表 A 找到与 B 相关的相似单词我正在使用 Spacy 的相似函数我面临的问题是计算需要很长时间我是多处理使用的新手因此请求帮助如何
如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中进行主题提取以便我能够根据主题获得情感我在用nltk在 python2 7 中用于此目的以下面的句子为例 Donald Trump is the worst president of USA but Hillary
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
如何从 Pandas DataFrame 转换为 Tensorflow BatchDataset 以进行 NLP？

老实说我想弄清楚如何转换数据集格式 pandasDataFrame或 numpy 数组转换为简单文本分类张量流模型可以训练用于情感分析的形式我使用的数据集类似于 IMDB 包含文本和标签正面或负面我看过的每个教程要么以不同的方式
获取 NLTK 索引的所有结果

我正在使用 NLTK 来查找单词的一致性但我不知道如何获取所有结果并将它们放入list or set 例如 text concordance word 仅打印前 25 个结果 TL DR text concordance lines 10
Java文本输出中的UTF-8编码问题

我一直致力于测试高棉语 Unicode Wordbreaker 的各种解决方案高棉语单词之间没有空格这使得拼写检查和语法检查变得困难以及从旧高棉语转换为高棉语 Unicode 我得到了一些源代码现在在线 http www white
java中的语音识别

我想在我的项目中使用语音识别我找到了这段代码但是当我运行它时我收到一个错误 run java lang NullPointerException at newpackage HelloWorld main HelloWorld jav

随机推荐

在 3D 数组中设置一个值会改变其他值

我正在用 0 一行初始化一个 2x2 3D 数组 let matrix new Array 2 fill new Array 2 fill 0 这导致 0 0 0 0 Doing matrix 0 0 1结果是 1 0 1 0 这里发生了什
限制滚动条长度

我正在尝试使用 Perl Tk 创建一个像 GUI 一样的简单记事本我已经用过Scrolled小部件来创建一个Text带有两个滚动条的小部件一个在右侧一个在底部两个滚动条相遇的地方如下所示不过我想让它看起来像微软的记事本应用
如何在 AES CryptoSwift 密码后将字节转换为 NSString

我正在使用 CryptoSwift 来加密我将在 URL 中传递的数据为此我需要将数据片段的数据类型设置为字符串以便连接到 NSURL 请求中数据加密后以字节为单位输出如何将字节转换为无意义的字符串以传递 PHP 脚本可以解密的
将简单的 Node.js 和 Socket.io 聊天应用程序与 Rails 应用程序桥接（在 Heroku 上）

我有一个在 Heroku 上运行的基本 Node js 和 Socket io 聊天应用程序我想将其集成到我的主 Rails 网站中我知道做到这一点的方法是拥有两个独立的 Heroku 应用程序一个用于 Rails 一个用于 Node
使用Friendly_Id实现/YYYY/MM/Title-Slug URL结构

我真的希望有人可以帮助这个 Rails n00b 解决这个问题在过去的几天里我一直在研究尝试崩溃和燃烧如何为我正在整理的博客实现标准 YYYY MM Title Slug URL 结构我发现并成功实现了Friendly Id来
Django ManyToMany 字段未在模型中创建

这是我的教师课程模型 class Teacher Profile class Meta db table teacher user models OneToOneField User unique True verbose name use
如何在不加载 Java 类的情况下检查它？

我想加载一些 Java class 文件并从中提取信息我不想加载它们有很多原因尤其是性能然后我想检查它们看看它们有什么注释字段方法等谁能建议什么工具最适合这个怎么样使用字节码操作工具例如ASM http asm ow2 o
MongoClient 和 MongoClient.connect() 方法回调中得到的客户端对象有什么区别

const MongoClient ObjectID require mongodb const debug require debug mongodb connect MongoClient connect mongodb localho
使用 yum 进行安装/删除/升级的 rpm scriptlet 排序

我正在解决 rpm scriptlet 中的一个错误该错误可能源于包安装删除升级期间 scriptlet 的执行顺序我们在 Redhat Enterprise 上使用 yum 显然我首先需要很好地理解 rpm scriptlet
不属于 Presto 与 Spark SQL 的实现

我得到了一个非常简单的查询该查询在同一硬件中运行 Spark SQL 和 Presto 3 小时与 3 分钟时显示出显着的性能差异 SELECT field FROM test1 WHERE field NOT IN SELECT fi
不使用任何内置函数从数组中捕获重复项

我的任务是编写自己的实现以从数组中删除重复的对象该数组未排序作为一个例子我有这个对象数组 ItemsList objects new ItemsList ob1 new ItemsList ob2 new ItemsList ob2
使用 purrr::pwalk 从 tibble 创建多个闪亮的observeEvents

我正在尝试做什么我想迭代一个 tibble 并创建多个observeEvents 我下面有一个可重现的例子注释掉的代码有效但我想使用 pwalk 以编程方式创建observeEvents 基本上我正在尝试完成与这篇文章类似的事情使用
使用 ffmpeg 在视频上添加水印，例如 tiktok 水印

我想使用 ffmpeg 在视频上添加水印就像 tiktok 视频一样意味着带有徽标名称和用户 ID 的水印并且每 5 秒或相同的时间间隔对角反射一次对于简单的水印我正在使用以下命令请帮助 ffmpeg i video mp4 i
glutCloseFunc 不终止应用程序 [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我创建了一个窗口glutCreateWindow并使用开始循环glutMainLoop 我想结束该循环并关闭窗口所以我
UIWebView 中的后台音频播放

我的应用程序允许用户访问通过网络播放有声读物的服务我正在使用 UIWebView 来处理这个问题当应用程序退出或设备进入睡眠状态时音频将停止播放由于我只是显示网页视图而不直接播放音频文件因此我无法使用这些方法在后台播放音频但是
无法在启动方法中获取“通过 java web start 启动代理”选项

我已经从 ubuntu 服务器安装了 jenkins 我正在尝试创建一个新的 Windows 从属节点但我无法在启动方法中选择启动 Java Web Start 从属代理选项我已经尝试过这个转到 Jenkins 仪表板 gt 管理
TextView - 检测字符串是否超出可用空间

这是我的布局 RelativeLayout ImageView iv1 TextView toTheRightOf iv1 toTheEndOf iv1 toTheLeftOf iv2 ImageView iv2 RelativeLayou
举例说明：keras 中嵌入层的工作原理

我不明白Keras的Embedding层虽然有很多文章解释了但我还是很困惑例如下面的代码来自imdb情感分析 top words 5000 max review length 500 embedding vecor length 3
R 在 python 中的等价顺序

任何想法什么是Python的R的等价物order order c 10 2 1 20 decreasing F 3 2 1 4 numpy中有一个函数叫argsort import numpy as np lst 10 2 1 20 np
同步文本和音频。有 NLP/语音转文本库可以做到这一点吗？

我想将语音录音与已知文本同步是否有一个语音到文本自然语言处理库可以促进这一点我想我想要检测单词边界并计算字典中的候选匹配项我在 SO 上发现的大多数问题都与书面语言有关期望但不是必需的开源开箱即用兼容美式英语跨平台详尽记

同步文本和音频。有 NLP/语音转文本 库可以做到这一点吗？

同步文本和音频。有 NLP/语音转文本 库可以做到这一点吗？ 的相关文章

随机推荐

热门标签

同步文本和音频。有 NLP/语音转文本库可以做到这一点吗？

同步文本和音频。有 NLP/语音转文本库可以做到这一点吗？的相关文章