用于转录音频文件中的语音的开源软件[关闭]

2024-03-22

谁能推荐可靠的开源软件来在 wav 文件中转录英语语音？我研究过的两个主要程序是Sphinx http://cmusphinx.sourceforge.net/ and Julius http://julius.sourceforge.jp/en_index.php，但我从来没有能够让其中任何一个工作，并且每个转录文件的文档充其量都是粗略的。

我正在 64 位 Ubuntu 10.04 上进行开发，其存储库包括 sphinx2 和 julius，以及 voxforge 的英语 julius 声学模态。我专注于转录文件，而不是直接处理麦克风中的声音，因为我已经放弃了期望这样的项目能够与 Ubuntu 的声音系统配合使用。这并不是对 Ubuntu 的打击，因为我可以使用 Audacity 完美地用麦克风录制声音，但这两个系统似乎都无法访问我的麦克风，所以我希望我可以通过读取文件来简单地配置它们。

我首先尝试了 Ubuntu 软件包 sphinx2-bin 中的 Sphinx2。尽管示例 sphinx2-demo 似乎可以转录文件，但实际上没有有关配置的文档，所以我不确定如何自定义它以从任意 wav 中读取。演示中使用的音频文件是一些未记录的“16k”格式，通过2个配置文件间接引用。有一个简短的简介将 sphinx2-demo 描述为正在运行 sphinx2-batch，但检查脚本表明它实际上是在调用 sphinx2-连续。更糟糕的是，每个脚本的 --help 文档列出了大约六打选项，并且没有提及哪些是必需的或可选的。总的来说，sphinx 文档的缺乏以及现有文档的质量很差，这让我抓狂。

接下来我尝试了 Julius，再次来自 Ubuntu 软件包，考虑到 Voxforge 的快速入门中使用的版本是 3.5，它是令人惊讶的最新版本 (4.1)。该软件包似乎包含稍微好一点的文档，甚至还有一个用 Python 编写的示例 (/usr/share/doc/julius-voxforge/examples/controlapp)。阅读示例的文档后，我尝试通过创建文件来调整它以从文件中读取filelist.txt包含文本“hello.wav”，引用同名文件，其中包含某人说“hello”的录音。将它们放在同一目录中，我运行：

julius -input file -filelist filelist.txt -C julian.jconf

得到回应：

### read waveform input
Error: adin_file: sampling rate != 16000 (8000)
Error: adin_file: error in parsing wav header at hello.wav
Error: adin_file: failed to read speech data: "hello.wav"
0 files processed

通过为 filelist.txt 和 hello.wav 指定绝对文件名来重试会产生相同的错误。

我还尝试了示例中使用的 Julius 调用，直接从麦克风录音：

julius -input mic -C julian.jconf

我多次调用此方法，并且错误之间的响应各不相同：

Cannot read /dev/dsp

and:

STAT: AD-in thread created
<<< please speak >>>

在后一种情况下，无论我对着麦克风说什么，都不会发生。我无法判断它是否仍然无法读取麦克风，或者是否正在读取某些内容，但只是无法转录音频。

我不知道该怎么办。我遇到的错误并没有让我有太多的进展。为什么不能读取wav？为什么无法读取/dev/dsp？为什么它似乎能够读取 /dev/dsp，但没有任何反应？

还有其他人有过吗any开源语音识别器（尤其是在 Linux 上）取得成功了吗？

为什么不能读取wav？

它告诉您文件的采样率 (8000) 错误，而不是请求的采样率 (16000)。采样率对于语音识别软件非常重要。

为什么无法读取/dev/dsp？

在最新版本的Ubuntu中，使用pulseaudio框架代替OSS。您正在尝试的版本正在使用 OSS，因此您需要从您的发行版中安装 oss-compatibility 包才能恢复 OSS 支持。

您可以尝试更新的 Julius，它支持pulseaudio

为什么它似乎能够读取 /dev/dsp，但没有任何反应？

音频输入无法正常工作。

有其他人在开源语音识别器方面取得过成功吗？特别是在 Linux 上？

当然，请查看此视频，作为人们使用 CMUSphinx 进行操作的示例：

http://www.youtube.com/watch?v=vfaNLIowSyk http://www.youtube.com/watch?v=vfaNLIowSyk

我建议您重新访问 CMUSphinx 软件包，它是一个领先的开源语音识别引擎。网站上有大量文档，您只需阅读它们即可。请记住，语音识别是一个复杂的领域，您可以获得很好的结果，但您也需要投入时间来理解该技术。就像任何其他域一样。

简而言之，要使用 CMUSPhinx 转录文件，您需要执行以下 3 个简单步骤：

获取 wav 文件并使用 sox 将其重新采样为 8khz 16 位单声道文件：


    sox input.wav -r 8000 -c 1 resampled.wav

安装pocketsphinx 0.7


   apt-get install pocketsphinx

解码文件


    pocketsphinx_continuous -samprate 8000 -infile resampled.wav

结果将打印到标准输出。要抑制记录器，请将 stderr 重定向添加到 /dev/null


    pocketsphinx_continuous -infile resampled.wav 2> /dev/null

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于转录音频文件中的语音的开源软件[关闭] 的相关文章

python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
如何将 Jfreechart（饼图）添加到 netbeans 的面板中

我正在使用 netbeans gui 编辑器并且正在尝试添加一个本身位于内部框架中的 Jfreechart 并且这个内部框架我想将其添加到面板中正如您在此图中看到的那样抱歉我无法直接发布图像因为我新手 http www flick
计算日期之间的天数差异

在我的代码中日期之间的差异是错误的因为它应该是 38 天而不是 8 天我该如何修复 package random04diferencadata import java text ParseException import java t
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
如何记录来自 Akka (Java) 的所有传入消息

在 Scala 中您可以使用 LoggingReceive 包装接收函数如何通过 Java API 实现相同的目标 def receive LoggingReceive case x do something Scala API 有Lo
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
如何配置 WebService 返回 ArrayList 而不是 Array？

我有一个在 jax ws 上实现的 java Web 服务此 Web 服务返回用户的通用列表它运行得很好 Stateless name AdminToolSessionEJB RemoteBinding jndiBinding Admi
Espresso 和 Proguard 的 Java.lang.NoClassDefFoundError

我对 Espresso 不太有经验但我终于成功地运行了它我有一个应用程序需要通过 Proguard 缩小才能处于 56K 方法之下该应用程序以 3 秒的动画开始因此我需要等到该动画结束才能继续这就是我尝试用该方法做的事情waitF
如何在 Eclipse Java 动态 Web 项目中使用 .properties 文件？

我正在 Eclipse 中开发动态 Web 项目我创建了一个 properties 文件来存储数据库详细信息用户名密码等我通过右键单击项目和 New gt File 添加它我使用了Java util包Properties类但它不
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
解析输入，除了 System.in.read() 之外不使用任何东西

我很难找到具体的细节System in read 有效也许有人可以帮助我似乎扫描仪会更好但我不允许使用它我被分配了一个任务我应该以 Boolean Operator Boolean 的形式读取控制台用户输入例如T F 或 T T
为什么java中的for-each循环中需要声明变量

for 每个循环的通常形式是这样的 for Foo bar bars bar doThings 但如果我想保留 bar 直到循环结束我可以not使用 foreach 循环 Foo bar null Syntax error on toke
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
解决错误javax.mail.AuthenticationFailedException

我不熟悉java中发送邮件的这个功能我在发送电子邮件重置密码时遇到错误希望你能给我一个解决方案下面是我的代码 public synchronized static boolean sendMailAdvance String emai
Android - 9 补丁

我正在尝试使用 9 块图片创建一个新的微调器背景我尝试了很多方法来获得完美的图像但都失败了 s Here is my 9 patch 当我用Draw 9 patch模拟时内容看起来不错但是带有箭头的部分没有显示或者当它显示时这部
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
嵌入式 Jetty - 以编程方式添加基于表单的身份验证

有没有一种方法可以按如下方式以编程方式添加基于表单的身份验证我用的是我自己的LdapLoginModule 最初我使用基本身份验证并且工作正常但现在我想在登录页面上进行更多控制例如显示徽标等有没有好的样品我正在使用嵌入式 jett
JAXB - 列表<可序列化>？

我使用 xjc 制作了一些课程 public class MyType XmlElementRefs XmlElementRef name MyInnerType type JAXBElement class required false
启动Java项目时发生类冲突：ClassMetadataReadingVisitor将接口org.springframework.asm.ClassVisitor作为超类

我正在使用最新的Spring框架版本 3 2 2 RELEASE 开发一个Java Web项目但是现在项目启动时遇到了问题详细错误是 java lang IncompleteClassChangeError 类 org springfr
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f

随机推荐

Python：将参数传递给 threading.Thread 实例的正确方法是什么

我扩展了 threading Thread 我的想法是做这样的事情 class StateManager threading Thread def run self lock state while True lock acquire se
如何用 Canvas 绘制曲线动画？

我有很多点想慢慢画出来我尝试 setTimeOut 以及由此产生的效果tutorial http www html5canvastutorials com advanced html5 canvas linear motion anima
如何从 MySQL 检索 JSON 数据？

我有下表及其关系我将 JSON 数据存储在 client services 表中他们有什么方法可以使用 MySQL 查询检索 JSON 值如下所示 SELECT getJson quota as quota client id FRO
在 tkinter 文件对话框中指定文件路径

我有一个文件对话框来打开文件但是我要打开的文件与我编写的程序位于不同的目录中文件对话框打开到我所在的目录有没有办法指定文件对话框打开的位置这是相关代码 root Tk root fileName tkFileDialog asko
调整通话状态栏的大小？

如何根据笔尖上的通话状态栏调整视图大小我认为它只是设置调整大小属性但它们没有为根 UIView 启用我认为我的主要问题是我不知道这一切叫什么除了谈论模拟器菜单命令之外我在任何文档中都找不到对通话中状态栏的任何引用 iOS 将调用你
Kendo Grid：如何在一个单元格中显示 List？

我尝试迭代列表并将所有元素显示到列中的单元格中但我无法使其正常工作这是我到目前为止所拥有的在网格定义中 columns Bound x gt x locationList Title Locations Included Client
在 Windows 上运行 libxlsxwriter

我正在尝试使用libxlsxwriter 但我似乎可以让事情正确编译或运行我按照 Windows 的说明使用Mingw w64 and msys2可以在这里找到 http libxlsxwriter github io getting s
减少小程序加载时间

我有一个 html 文件其中包含一个作为小程序的 jar 文件当我打开 html 文件时加载小程序的时间太多了有什么方法可以减少加载时间吗这里有三个主要因素在起作用 1 Java 启动时间冷启动过去需要 5 10 秒但是随着J
如何修复 Mavericks 上 Gemfile 中的 libv8 错误？

当我跑步时bundle install I get An error occurred while installing libv8 3 11 8 17 and Bundler cannot continue Make sure that
在准备好的语句中使用 COLLECT() 时，为什么会收到“ORA-00932：不一致的数据类型：预期 - 得到 -”？

我将此查询与Perl DBI https metacpan org module DBI SELECT c change id COLLECT t tag AS the tags FROM changes c LEFT JOIN tags
Cassandra 返回数值的无序结果集

我是 No SQL 新手刚刚开始学习 Cassandra 我有以下问题要问我创建了一个包含一列的简单表来了解 Cassandra 分区和集群并尝试在插入后查询所有值我的表结构 create table if not exists m
SQL Server 如何将 5 分钟的间隔重新组合为 15 分钟的间隔？

我正在建立一个网站您可以在其中在线预约我不会详细解释所有内容但我有一张桌子上面有我可以预约的时间以 5 分钟为间隔进行分配这是一个例子 ID StartDate EndDate 492548 2016 12 16 08 00 0
这是在关系数据库中对地址信息进行建模的好方法吗？

我想知道这是否是一个好的设计我有许多需要地址信息的表例如街道邮政编码邮政编码国家地区传真电子邮件有时同一个地址会重复多次例如可以针对供应商存储地址然后在发送给他们的每个采购订单上存储地址然后供应商可以更改其地址
如何对二维numpy数组的所有列进行逻辑运算

假设我有以下内容2D NumPy由四行三列组成的数组 gt gt gt a numpy array True False False False True False gt gt gt array True False False Fals
在数据库中存储从客户收到的 hl7 消息的最佳方法

大家好我是新欢我想知道将 hl7 消息存储在 mysql 数据库中的表中的最佳方法该表仅将一列存储为 hl7 消息或者存储在行和列中例如发送应用程序列接收应用程序列等我无法找到合适的答案所以请帮助我提前致谢解析 HL7
如何解决“恐慌：sql：未知驱动程序“postgres”（忘记导入？）»？

我正在尝试使用 GO 将 csv 预先固定宽度表格中的数据插入到 POSTGRES 中我做了什么 package main import bufio database sql encoding csv encoding json fm
在运行时创建委托类型

我尝试使用 Expression 类创建委托类型但是当我尝试从 MethodInfo 实例创建委托时我遇到了 ArgumentException 我使用 NET 4 0 这里的代码 var method List
jsf 中每个 SelectOneMenu 项的工具提示

我的要求是提供一个tooltip对于每个选项SelectOneMenu因为选项标签太大不可能提供这么大尺寸的 SelectOneMenu 所以标签正在切割这就是为什么我需要工具提示来显示鼠标悬停在 SelectOneMenu 中的选
使用discord.js 加入discord 服务器时的欢迎消息

我正在使用node js 和discord js 制作一个discord 机器人目前我正在尝试制作它以便当用户加入discord 服务器时会发送自定义欢迎消息这是我的代码 bot on guildMemberAdd message
用于转录音频文件中的语音的开源软件[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案谁能推荐可靠的开源软件来在 wav 文件中转录英语语音我研究过的两个主要程序是Sphinx http

用于转录音频文件中的语音的开源软件[关闭]

用于转录音频文件中的语音的开源软件[关闭] 的相关文章

随机推荐

热门标签