用于语音检测和辨别的开源代码

2024-02-22

我有 15 盘录音带，我相信其中一盘包含我祖母和我谈话的旧录音。快速尝试找到合适的地方并没有找到。我不想听20个小时的磁带才能找到它。该位置可能不在其中一盘磁带的开头。大多数内容似乎分为三类——按照总长度的顺序，最长的在前：沉默、语音广播和音乐。

我计划将所有磁带转换为数字格式，然后再次查找录音。最明显的方法是在我做其他事情时在后台播放它们。这对我来说太简单了，所以：是否有任何开源库或其他代码可以让我找到，以提高复杂性和实用性：

非静音区域
包含人类语音的区域
包含我自己的讲话（以及我祖母的讲话）的区域

我更喜欢 Python、Java 或 C。

由于我对该领域一无所知，因此如果没有答案，有关搜索词的提示将不胜感激。

我知道我很容易会在这上面花费 20 多个小时。

大多数时候你可能会节省的就是说话人分类。它的工作原理是用说话者 ID 注释录音，然后您可以轻松地将其手动映射到真实的人。错误率通常约为记录长度的 10-15%，这听起来很糟糕，但这包括检测太多说话者并将两个 ID 映射到同一个人，这并不难修复。

一个这样的好工具是喊叫工具包 http://shout-toolkit.sourceforge.net/(C++)，尽管它对输入格式有点挑剔。查看此工具的用法来自作者 https://stackoverflow.com/a/8292994。它输出语音/语音活动检测元数据和说话人分类，这意味着您获得第 1 点和第 2 点 (VAD/SAD) 以及一点额外的内容，因为它注释了录音中同一个发言者何时处于活动状态。

另一个有用的工具是LIUM spkdiaization http://lium3.univ-lemans.fr/diarization/doku.php/scripting（Java），它基本上做同样的事情，除了我还没有付出足够的努力来弄清楚如何获取 VAD 元数据。它具有很好的即用性可下载包 http://lium3.univ-lemans.fr/diarization/doku.php/download.

通过一点点编译，这应该会在一小时内完成。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于语音检测和辨别的开源代码的相关文章

在 iOS 中同时管理文本转语音和语音识别

我想要我的iOS我正在开发一个应用程序使用文本转语音功能向用户朗读从服务器接收到的一些信息并且我还想允许用户通过语音命令停止此类语音我尝试过 iOS 的语音识别框架例如OpenEars我发现问题在于它正在监听和检测应用程序本身说
如何通过 websocket 将音频发送到 Nexmo Voice

我正在尝试在 Net Core 2 Web api 中使用 websockets 实现 Nexmo 的语音 api This api needs to 通过电话接收音频Nexmo https developer nexmo com voic
使用 Microsoft 认知语音 API 和非麦克风实时音频流进行语音识别

Problem 我的项目由一个实时录制音频的桌面应用程序组成我打算为此接收来自 API 的实时识别反馈与一个麦克风使用 Microsoft 新的 Speech to Text API 进行实时实现是微不足道的我的场景与此的不同之处仅
Android PocketSphinx：系统如何知道调用了哪个识别器？

我正在研究源码TestPocketSphinxAndAndroidASR java https github com mistrykajal16 AndroidPocketSphinx blob master src ca ilanguag
Android 连续语音识别 - 无间隙

我有一个实施的活动RecognitionListener 为了使其每次都连续onEndOfSpeech 我再次启动监听器 speech startListening recognizerIntent 但是它需要一些时间大约半秒才能开始
语音识别引擎未在 Windows 服务中触发事件

所以我有一个使用 system speech 识别引擎实现语音识别的 Windows 服务当我启动服务时我的语音识别代码运行良好但没有语音识别火灾事件奇怪的是如果我运行完全相同的代码但在控制台或 WPF 应用程序中则语音识别的
离线语音识别时出现错误 ERROR_RECOGNIZER_BUSY

我对谷歌离线语音识别进行了研究但它在 google Nexus 5 操作系统 4 4 中工作正常但如果我在三星 Galaxy s5 操作系统 5 0 中实现相同的版本它无法识别并且显示此错误 8 ERROR RECOGNIZER BU
用于语音检测和辨别的开源代码

我有 15 盘录音带我相信其中一盘包含我祖母和我谈话的旧录音快速尝试找到合适的地方并没有找到我不想听20个小时的磁带才能找到它该位置可能不在其中一盘磁带的开头大多数内容似乎分为三类按照总长度的顺序最长的在前沉默语音广播和音
Python语音识别速度很慢

我目前正在开发一个智能助手程序基本上它只是听用户说的话并据此对代码执行某些操作直到今天我切换到笔记本电脑时它都运行良好该程序不会打印出任何错误但它也不会打印出我所说的内容我正在使用Python语音识别 https pypi o
语音转文本在 apk 中包含语音引擎

我的应用程序中需要为真正的非极客提供语音转文本功能有没有办法在编译时为各种平板电脑包含语音引擎您可以包含自己的引擎例如 CMU Sphinx 引擎这还具有无需数据连接即可工作的优点看到这个post http cmusphinx s
USB 麦克风无法与 Windows IOT Core 配合使用

我尝试了 2015 年 11 月版本版本 10586 和 2016 年 2 月 Insider Preview 版本版本 14262 但是我的USB 麦克风无法与 Windows 10 IOT 核心配合使用设想我正在使用 Windo
同时进行语音转文本和文本转语音

介绍我正在开发一个应用程序我需要在其中使用 Booth SpeechRecognizer 和 TTS 但我在尝试这个时遇到了一些问题主要的一个问题是如果我初始化 TTS SpeechRecgonizer 似乎无法工作而如果我禁用
如何隐藏 toast 消息“您的音频将发送到谷歌以提供语音识别服务。”在安卓中？

我正在使用谷歌语音识别器在 Android 中集成语音服务但是当按下麦克风按钮时会显示这条烦人的 toast 消息请建议我一种隐藏此 toast 消息的方法这是我的java代码 public class FormActivity e
Google 语音转文本：额外语言设置为“打开”但不起作用

我正在尝试使用卡纳达语的 Google Speech to Text API 并且我将 EXTRA LANGUAGE 设置为 kn 但它不起作用下面是我正在使用的代码 Locale locale new Locale kn Locale
使用 Librosa 生成的频谱图看起来与 Kaldi 不一致？

我使用 Kaldi 的 egs tidigits 代码生成了七话语的声谱图使用 23 个 bin 20kHz 采样率 25ms 窗口和 10ms 偏移通过 MATLAB imagesc 函数可视化的频谱图如下所示我正在尝试使用 L
为什么我在此语音识别代码中缺少 an4-1-1.match 文件？

我在语音识别的解码部分遇到问题我按照步骤操作here http www speech cs cmu edu sphinx tutorial html 当我输入 perl scripts pl decode slave pl 我收到这些错误
iOS 将 URL 中的音频分成帧

我正在 iOS 上开发一个简单的网络广播应用程序具有非常简单的语音音乐识别功能主要思想是一个收音机它播放来自 url 的信号同时检查正在广播的信号类型当它检测到语音时它会改变频道等等我使用 Storyboards 和 AVF
Glass 的 SpeechRecognizer 权限不足错误

我正在使用 GDK 先睹为快构建一个应用程序但在沉浸式应用程序中无法进行语音识别这是我的第一个安卓项目我试着遵循这个如何在 Android 手机中使用语音识别而不出现烦人的对话框 https stackoverflow com qu
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
Javascript 使事件点击和语音识别与多个按钮一起工作

所以我正在使用 webkitSpeechRecognition 并且它工作得很好但问题是我想同时在多个地方使用它当我将它添加到页面上的另一个部分时它无法正常工作这是它自己工作的情况 var final transcript var

随机推荐

Spring MVC 和 Thymeleaf 资源版本控制

我正在尝试使用 Spring Mvc 4 进行资源版本控制我使用 thymeleaf 模板引擎但不适用于以下代码加载页面时当我查看页面源代码时我看不到新版本的 Url 那么我的代码有什么问题我想念什么 Override publ
如何从给定字符串查找给定编辑距离处的所有字符串

我们都在谷歌中看到过如果我们输入查询并输入错误谷歌会建议一个更清晰的查询版本通常是正确的现在他们是怎么做到的呢我能想到的一种可能的方法是找出距给定字符串编辑距离为 1 的所有其他字符串如果其中任何一个返回具有更高值 search
在绑定之前自动将一个数据框的所有列类型强制为另一个数据框的类型

假设我有两个要绑定的数据框 ds a lt data frame x 1 6 y 5 z 4 l 2 stringsAsFactors FALSE ds b lt data frame x as factor 1 6 y 5 p 2 str
AFNetworking 和 jSON

我正在跟踪来自 Web 服务 api 的 json 响应我想从 json 中提取产品数据我也想使用 AFNetworking 来实现这一点 products product id 1170 name zzzz sort order 0
计算 cobol 中的四舍五入

我对 cobol 中计算函数的舍入感到困惑宣言 VAR A PIC S9 9 V99 COMP 3 VAR B PIC S9 9 V9 6 COMP 3 程序 MOVE 12 08 TO VAR A MOVE 6 181657 TO VA
Jet4 中的日期时间和数字格式是如何编码的？

我正在编写一个低级工具来扫描损坏的 Jet4 MDB 文件并恢复数据我正在扫描页面解析行并解码列如果我有日期时间字段的原始 8 字节值如何将其转换为日期的字符串表示形式例如 MM DD YY HH MM SS 如果我有单字段大小和
以编程方式销毁/删除 Redis 队列 (rq) 中的 Queue()

Given from redis import Redis from rq import Queue yesterday Queue yesterday connection Redis today Queue today connecti
找不到 Jekyll 主题

按照此处找到的 jekyll 文档进行操作 https jekyllrb com docs themes https jekyllrb com docs themes 我试图安装和更改基于 gem 的主题因此我为此选择了 jekyll t
对 ruby 字符串中的特殊字符进行转义以匹配 Salesforce SOQL 要求

我正在为 Rails 应用程序开发 Salesforce 集成并且遇到了搜索提交包含特殊字符如的电子邮件的联系人的问题在 Salesforce 文档中他们提到某些字符是保留的并且需要在每个保留字符之前插入细节 https d
如何使用 Spring LDAP 和 Spring security 更改密码

我正在使用最新版本的 Spring LDAP 和 Spring security 另外我使用基于注释的配置并且没有 XML 配置文件我想要实现的目标非常基本我希望能够允许用户从我的网络应用程序更改密码我发现我可以通过 DirCon
如果使用返回引用的函数初始化“auto”var，为什么它不声明引用类型？

当使用返回引用的函数初始化 auto var 时为什么 var 类型不是引用例如在下面的示例中为什么 x 的类型是 Foo 而不是 Foo class TestClass public Foo GetFoo return mFoo p
如何创建 json 的字符串表示形式

嘿伙计们女孩们我有这段代码将 json 保存为字符串表示形式我在理解实体部分如何工作时仍然遇到一些困难并且需要知道如何更改我的代码以使其工作这是我收到的错误 Error saving string java lang Numbe
如何从我的选择器中获取值？ Xamarin 形式

我无法取出所选内容string从我的选择器中这是我的代码 XAML
为什么我们需要两个定义：整型常量表达式和转换常量表达式？

C 14 中的 5 19 3 定义了整型常量表达式和转换常量表达式 An 积分常量表达式是积分或的表达式无范围枚举类型隐式转换为纯右值其中转换后的表达式是核心常量表达式注此类表达式可以用作数组边界 8 3 4 5 3 4 位字
MS SQL 2008 连接 - 从多个结果中选择一个

我正在尝试运行以下查询但不确定如何将其限制为仅一个结果在下面的查询中 clientcontactid 21901 工作的客户端有 2 个地址这意味着返回 2 个结果 Query select cc contactpersonid cc
让 Mac 信任应用程序（登录窗口上的协同作用）

我试图在我的 mac 启动时加载协同作用以便我可以使用鼠标键盘登录我按照这些说明进行操作 http sourceforge net p synergy2 discussion 199580 thread 76cf630a http s
RCP 4 切换工具栏中的按钮

我正在尝试执行以下操作在工具栏中创建一个按钮已作为处理的工具项完成单击按钮让按钮看起来像被按下一样我读过一些有关使用 IAction AS CHECK BOX 的内容但我找不到任何关于如何执行此操作的明确 RCP 4 示例
可以使用 API GET 但不能使用 API POST

我正在 VS 2013 中处理现有的 Windows 服务项目我添加了一个 Web API 控制器类我现在不记得它是 v2 1 还是 v1 控制器类无论如何我将其称为 SyncPersonnelViaAwsApiController
“24:00”字符串中的 DateFormatter 返回 Nil

我似乎无法弄清楚为什么只有 24 00 返回 nil 而不是 12 00AM 而 23 59 则正确返回为 11 59PM let dateAsString 24 00 let dateFormatter DateFormatter dat
用于语音检测和辨别的开源代码

我有 15 盘录音带我相信其中一盘包含我祖母和我谈话的旧录音快速尝试找到合适的地方并没有找到我不想听20个小时的磁带才能找到它该位置可能不在其中一盘磁带的开头大多数内容似乎分为三类按照总长度的顺序最长的在前沉默语音广播和音

用于语音检测和辨别的开源代码

用于语音检测和辨别的开源代码 的相关文章

随机推荐

热门标签

用于语音检测和辨别的开源代码的相关文章