说话人识别[关闭]

2023-12-09

我如何区分两个人说话？就像有人说“你好”，然后另一个人说“你好”，我应该在音频数据中寻找什么样的签名？周期性？

非常感谢任何能回答这个问题的人！

这个问题的解决方案在于数字信号处理（DSP）。说话人识别是一个复杂的问题，需要计算机和通信工程齐头并进。大多数说话人识别技术都需要通过机器学习进行信号处理（对说话人数据库进行训练，然后使用训练数据进行识别）。可以遵循的算法概要 -

Record原始格式的音频。这作为数字信号需要进行处理。
涂抹一些预处理例程超过捕获的信号。这些例程可以只是信号正常化, or 过滤信号以消除噪声（使用带通滤波器来消除人声的正常频率范围。带通滤波器又可以使用低通滤波器和高通滤波器组合来创建.)
一旦相当确定捕获的信号几乎没有噪声，特征提取阶段开始。用于提取语音特征的一些已知技术是 - 梅尔频率倒谱系数（MFCC), 线性预测编码 (LPC）或简单FFT特征。
现在，有两个阶段——培训和测试.
首先系统需要通过语音特征进行训练在能够区分不同说话者之前。为了确保正确计算特征，建议必须收集多个（>10）说话人的语音样本用于训练目的。
可以使用不同的技术来完成训练，例如神经网络或基于距离的分类找出不同说话者的声音特征的差异。
在测试阶段，训练数据用于找到与被测信号距离最近的语音特征集。不同的距离比如欧几里得或切比雪夫距离可以用来计算这种接近度。

有两种开源实现可以实现说话者识别 -ALIZE: http://mistral.univ-avignon.fr/index_en.html and MARF: http://marf.sourceforge.net/.

我知道回答这个问题有点晚了，但我希望有人觉得它有用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Audio

SpeechRecognition

signatures

说话人识别[关闭] 的相关文章

如何使用python将下载的音频文件扩展名重命名为mp3

目前我正在尝试根据艺术家姓名和歌曲标题将 YouTube 音乐视频下载为音频文件下载所有视频后我尝试将所有音频文件从 webm 或 mp4 扩展名重命名为 mp3 但似乎我在将文件名和扩展名更改为 mp3 时遇到了一些错误我的代码基
如何使用 Android 1.5 录制音频？

如何使用 Android 录制一些音频 package com benmccann android hello import java io File import java io IOException import android me
TarsosDSP 音高分析傻瓜式教程

我正在开发一个分析声音文件音调的程序我遇到了一个非常好的 API 称为 TarsosDSP 它提供了各种音高分析然而我在设置它时遇到了很多麻烦有人可以向我展示一些有关如何使用此 API 特别是 PitchProcessor 类的快
python中的语音识别持续时间设置问题

我有一个 Wav 格式的音频文件我想转录我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source
如何在iOS SDK中使用语音识别？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我知道 SIRI 服务没有公共 API 但是有没有简单的语音识别 API 因此如果我有一个文本字段并且
严格标准：在 wordpress/wp-includes/class-oembed.php 第 116 行中，仅应通过引用传递变量

我已经查看了很多类似的问题但关于我的代码我没有得到它错误 Strict Standards Only variables should be passed by reference in wordpress wp includes c
如何开始在 Ubuntu 20.04 上使用 Mozilla TTS 训练自定义语音模型？

我想使用我录制的音频样本在 Mozilla TTS 中创建自定义语音但不知道如何开始 Mozilla TTS 项目有文档和教程但我在将各个部分组合在一起时遇到了困难似乎缺少一些基本信息而初学者需要知道这些信息才能继续我有一些问题
Mediaplayer 播放几次后停止播放

我有一个按钮按下它会播放一个随机声音剪辑然后播放另一个声音剪辑然后通过一个媒体播放器播放另一个声音剪辑但是多次按下该按钮 15 20 次后所有音频都会停止我在播放最后一个音频剪辑后释放媒体播放器所以我不认为这是原因有什么指
使用 Android 播放任意音调

有没有办法让Android发出任意频率的声音意思是我不想预先录制声音文件我环顾四周音调发生器 http developer android com reference android media ToneGenerator html
如何在Java媒体框架中学习.wav持续时间？

我正在尝试使用 java 媒体框架将 mov 文件与 wav 文件合并因此我需要知道它们的持续时间我怎样才能做到这一点任何想法将不胜感激您可以使用以下方式了解声音文件的持续时间即 VitalyVal 的第二种方式 import
在浏览器中以低延迟捕获声音输入

是否可以在浏览器中捕获低延迟的声音输入主要用于录制吉他我知道这也取决于硬件但我们假设硬件足够好我尝试使用 Web Audio API 但它的延迟有点糟糕是否还有其他技术可以在浏览器中提供高性能的声音输入捕获可以使用Unity3D
C#：将音频文件从服务器流式传输到客户端

我目前正在编写一个应用程序该应用程序将允许用户安装某种形式的应用程序可能是 Windows 服务该应用程序将在其 PC 上打开一个端口并在硬盘上指定一个特定的目的地然后能够流式传输 mp3 文件然后我将有另一个应用程序该应用
使用 VBScript 切换当前活动声音设备？

我想在连接到我的计算机 Windows 7 32 位的两个音频设备之间切换我看了一下question https stackoverflow com questions 35709 change active sound card on
获取 .wav 文件长度或持续时间

我正在寻找一种方法来找出 python 中音频文件 wav 的持续时间到目前为止我已经了解了 pythonwave图书馆 mutagen pymedia pymad我无法获取 wav 文件的持续时间 Pymad给了我持续时间但它不一致
使用 xuggle 将 mp3 转换为 wav 出现异常

我正在尝试将 mp3 转换为 wav 代码在这里 String mp3 F work pic2talk38512 mp3 String wav F work pic2talk38512 wav TranscodeAudioAndVideo
使用 C# 将多个音频样本混合到单个文件中

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个能够创建音频文件 mp3 或 wav 的库 NAudio http www codeple
网络音频 API 和多输入麦克风设备

我有一个带有 4 个输入麦克风的音频设备有谁知道我是否可以通过 Web 音频 API 使用所有这些输入截至 2023 年 6 月 17 日这在基于 chromium 的浏览器中是不可能的这是一个问题 453876 https bug
c# AudioFingerprinting 和局部敏感哈希

我之前发现过类似的帖子但没有真正回答这个问题在我的指纹识别中我生成了一个包含 5 个整数的记录集例如 33 42 88 121 194 这些对应于特定音乐样本的最高幅度的频率例如对于 30ms 的音频样本我有以下频率的桶 0
Java Sound可以用来控制系统音量吗？

Java 声音优惠FloatControl各种声音线路功能的实例以及MASTER GAIN http docs oracle com javase 7 docs api javax sound sampled FloatControl T
在 Windows Phone 8 中以编程方式下载媒体文件

我们的应用程序是基于视频音频的应用程序我们已将所有媒体上传到 Windows Azure 上但需要方便用户点播下载音视频文件以便在本地播放所以我需要以编程方式下载音频视频文件并将其保存在IsolatedStorage中我们有每

随机推荐

如何对只读实例属性进行输入验证？

发布了一个非常相似的问题here 但没有公认的答案没有代码示例而且我不太喜欢按照那里提供的唯一一个答案所建议的使用外部库的想法以下代码允许定义只读实例属性 class Point def init self x y self x x
有充分的理由编写我自己的 daemonize 函数而不是使用 daemon(3) 吗？

网上有很多守护进程的示例实现我看到的大多数不使用 daemon 3 函数在后台运行程序这只是一个品味无知的问题还是有充分的理由编写我自己的守护函数使用 daemon 3 有什么具体的缺点吗是不是没有安全感 daemon 函数历史
核心数据中的可转换属性无法导出/与 iCloud 同步

我在用NSPersistentCloudKitContainer 所有数据均在 iCloud 中同步卸载应用程序后它会正确同步但是需要对敏感数据进行加密我将密码属性设置为可转换因此在本地工作得很好但是当我删除该应用程序时再次
在 Origin 中将破幂律实现为拟合函数

再会我正在尝试使用 origin OriginLab 中的函数生成器来创建一个新函数来适应破碎的幂律 http en wikipedia org wiki Power law Broken power law 所以我想我已经把实际的功能
从 GUI 类 PyQt4 以外的类更改进度条的值

我有一个由 Qt 设计器创建的 GUI 类其中有一个进度条还有另一个类其中完成所有数字运算在此期间我希望进度条定期更新我认为我会这样做的方式是在其他班级中做类似的事情 gui progressbar setValue some 但
在没有 xts 对象的情况下在 PortfolioAnalytics 中创建有效前沿

有没有办法在 PortfolioAnalytics 包中创建有效前沿而不指定资产回报的 xts 对象相反我想提供预期回报向量和协方差矩阵有两种方法首先您可以提供一个包含矩阵的列表其结构如下所示然后调用 Optimize por
在 Mac 应用程序中的保存对话框中包含 iCloud

我已经实施了iCloud支持我的 Mac 基于文档的应用程序 NSDocument子类可以处理本地存储上打开的保存文件并且iCloud 但是我可以将我的文件上传到iCloud只需将其拖动到打开新文件面板上即可当应用程序提示用户保存
如何区分 EOF 字符和实际的文件结尾？

When reading a file I understand the last character provided is an EOF Now what happens when I have an EOF character in
Mojarra 2.0.3 中复合组件所需属性抛出异常

我一直在使用 JSF 2 0 复合组件但我对其中的 require 属性有点困惑composite attribute标签的意思是做文档指出如果页面作者必须提供此属性的值则必需的属性为 true 我将其解释为必须为所有具有复合属性的
apollo-android可以用作java客户端吗？

我正在开发一个需要与 Github GraphQl API 通信的 Spring Boot 应用程序 apollo android 可以用于此目的吗由于所有可用的稀缺文档以及示例项目都是用 android 编写的所以我不确定维护者在这
获取距离直线最近的点

我想要一个直接的 C 函数来获取距离线段 AB 最近的点从点 P 抽象函数可能如下所示我已经搜索过了但没有找到可用的由我解决方案 public Point getClosestPointFromLine Point A Point
Pandas：根据子字符串删除重复项[重复]

这个问题在这里已经有答案了我有以下两列来自 Pandas DataFrame antecedents consequents apple orange orange apple apple water apple pineapple w
检查 PDO 是否存在的最佳方法是什么[重复]

这个问题在这里已经有答案了有人告诉我 rowCount 不安全所以我想在这里问它我有 2 个例子想知道检查某些东西是否存在的最安全和最好的方法是什么 sql SELECT count FROM users WHERE usernam
更改 XML 序列化中元素的类型

我在 XML 序列化方面遇到了巨大的问题我有两个类都需要可序列化在继承的类中我想更改序列化行为以便将字符串属性序列化为复杂类型 public class Animal XmlElement ElementName NAME pub
使用 $ 符号为上一行中存在的变量赋值

我正在尝试了解 MS DOS v2 0源代码特别是其中的一些代码MSDATA ASM 该代码最初是使用 35 多年历史的 MASM 汇编器未商用的版本进行汇编的我感兴趣的代码就在开头附近 SUBTTL Initialized dat
如何在两个项目共享的xaml文件中添加用户控件的引用

I have created a class library CustomMapControl in the solution and inside this class library I create a UserControl Map
如何在Android Studio中创建发布Android库包（AAR）（不是调试）

我已经构建了我的 Android 库包 AAR 并且构建的结果被创建在 app build outputs aar 文件夹这个文件夹中的文件名为 app debug aar 所以我猜它是在调试模式下构建的所以我想知道如何生成构建的版本
在 Angular4 的输入字段中添加千位分隔符

我在前端使用 Angular 4 我想在输入字段中插入千位分隔符我尝试了这段代码但它不起作用
获取我的应用程序中其他应用程序（进程）的上下文：Android

在我的应用程序中我需要访问其他已安装应用程序的上下文是否可以使用任何应用程序的包名称获取上下文如果我访问其他应用程序的上下文会出现任何安全问题吗任何帮助将不胜感激 try this public abstract Context
说话人识别[关闭]

Closed 这个问题需要多问focused 目前不接受答案我如何区分两个人说话就像有人说你好然后另一个人说你好我应该在音频数据中寻找什么样的签名周期性非常感谢任何能回答这个问题的人这个问题的解决方案在于数字信号处理 DS

说话人识别[关闭]

说话人识别[关闭] 的相关文章

随机推荐

热门标签