说话人识别[关闭]

2023-12-09

我如何区分两个人说话?就像有人说“你好”,然后另一个人说“你好”,我应该在音频数据中寻找什么样的签名?周期性?

非常感谢任何能回答这个问题的人!


这个问题的解决方案在于数字信号处理(DSP)。说话人识别是一个复杂的问题,需要计算机和通信工程齐头并进。大多数说话人识别技术都需要通过机器学习进行信号处理(对说话人数据库进行训练,然后使用训练数据进行识别)。可以遵循的算法概要 -

  1. Record原始格式的音频。这作为数字信号需要进行处理。
  2. 涂抹一些预处理例程超过捕获的信号。这些例程可以只是信号正常化, or 过滤信号以消除噪声(使用带通滤波器来消除人声的正常频率范围。带通滤波器又可以使用低通滤波器和高通滤波器组合来创建.)
  3. 一旦相当确定捕获的信号几乎没有噪声,特征提取阶段开始。用于提取语音特征的一些已知技术是 - 梅尔频率倒谱系数(MFCC), 线性预测编码 (LPC)或简单FFT特征。
  4. 现在,有两个阶段——培训和测试.
  5. 首先系统需要通过语音特征进行训练在能够区分不同说话者之前。为了确保正确计算特征,建议必须收集多个(>10)说话人的语音样本用于训练目的。
  6. 可以使用不同的技术来完成训练,例如神经网络或基于距离的分类找出不同说话者的声音特征的差异。
  7. 在测试阶段,训练数据用于找到与被测信号距离最近的语音特征集。不同的距离比如欧几里得或切比雪夫距离可以用来计算这种接近度。

有两种开源实现可以实现说话者识别 -ALIZE: http://mistral.univ-avignon.fr/index_en.html and MARF: http://marf.sourceforge.net/.

我知道回答这个问题有点晚了,但我希望有人觉得它有用。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

说话人识别[关闭] 的相关文章

  • 如何使用python将下载的音频文件扩展名重命名为mp3

    目前 我正在尝试根据艺术家姓名和歌曲标题将 YouTube 音乐视频下载为音频文件 下载所有视频后 我尝试将所有音频文件从 webm 或 mp4 扩展名重命名为 mp3 但似乎我在将文件名和扩展名更改为 mp3 时遇到了一些错误 我的代码基
  • 如何使用 Android 1.5 录制音频?

    如何使用 Android 录制一些音频 package com benmccann android hello import java io File import java io IOException import android me
  • TarsosDSP 音高分析傻瓜式教程

    我正在开发一个分析声音文件音调的程序 我遇到了一个非常好的 API 称为 TarsosDSP 它提供了各种音高分析 然而 我在设置它时遇到了很多麻烦 有人可以向我展示一些有关如何使用此 API 特别是 PitchProcessor 类 的快
  • python中的语音识别持续时间设置问题

    我有一个 Wav 格式的音频文件 我想转录 我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source
  • 如何在iOS SDK中使用语音识别? [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我知道 SIRI 服务没有公共 API 但是有没有简单的语音识别 API 因此 如果我有一个文本字段并且
  • 严格标准:在 wordpress/wp-includes/class-oembed.php 第 116 行中,仅应通过引用传递变量

    我已经查看了很多类似的问题 但关于我的代码 我没有得到它 错误 Strict Standards Only variables should be passed by reference in wordpress wp includes c
  • 如何开始在 Ubuntu 20.04 上使用 Mozilla TTS 训练自定义语音模型?

    我想使用我录制的音频样本在 Mozilla TTS 中创建自定义语音 但不知道如何开始 Mozilla TTS 项目有文档和教程 但我在将各个部分组合在一起时遇到了困难 似乎缺少一些基本信息 而初学者需要知道这些信息才能继续 我有一些问题
  • Mediaplayer 播放几次后停止播放

    我有一个按钮 按下它会播放一个随机声音剪辑 然后播放另一个声音剪辑 然后通过一个媒体播放器播放另一个声音剪辑 但是多次按下该按钮 15 20 次 后 所有音频都会停止 我在播放最后一个音频剪辑后释放媒体播放器 所以我不认为这是原因 有什么指
  • 使用 Android 播放任意音调

    有没有办法让Android发出任意频率的声音 意思是 我不想预先录制声音文件 我环顾四周 音调发生器 http developer android com reference android media ToneGenerator html
  • 如何在Java媒体框架中学习.wav持续时间?

    我正在尝试使用 java 媒体框架将 mov 文件与 wav 文件合并 因此我需要知道它们的持续时间 我怎样才能做到这一点 任何想法 将不胜感激 您可以使用以下方式了解声音文件的持续时间 即 VitalyVal 的第二种方式 import
  • 在浏览器中以低延迟捕获声音输入

    是否可以在浏览器中捕获低延迟的声音输入 主要用于录制吉他 我知道这也取决于硬件 但我们假设硬件足够好 我尝试使用 Web Audio API 但它的延迟有点糟糕 是否还有其他技术可以在浏览器中提供高性能的声音输入捕获 可以使用Unity3D
  • C#:将音频文件从服务器流式传输到客户端

    我目前正在编写一个应用程序 该应用程序将允许用户安装某种形式的应用程序 可能是 Windows 服务 该应用程序将在其 PC 上打开一个端口 并在硬盘上指定一个特定的目的地 然后能够流式传输 mp3 文件 然后 我将有另一个应用程序 该应用
  • 使用 VBScript 切换当前活动声音设备?

    我想在连接到我的计算机 Windows 7 32 位 的两个音频设备之间切换 我看了一下question https stackoverflow com questions 35709 change active sound card on
  • 获取 .wav 文件长度或持续时间

    我正在寻找一种方法来找出 python 中音频文件 wav 的持续时间 到目前为止我已经了解了 pythonwave图书馆 mutagen pymedia pymad我无法获取 wav 文件的持续时间 Pymad给了我持续时间 但它不一致
  • 使用 xuggle 将 mp3 转换为 wav 出现异常

    我正在尝试将 mp3 转换为 wav 代码在这里 String mp3 F work pic2talk38512 mp3 String wav F work pic2talk38512 wav TranscodeAudioAndVideo
  • 使用 C# 将多个音频样本混合到单个文件中

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在寻找一个能够创建音频文件 mp3 或 wav 的库 NAudio http www codeple
  • 网络音频 API 和多输入麦克风设备

    我有一个带有 4 个输入麦克风的音频设备 有谁知道我是否可以通过 Web 音频 API 使用所有这些输入 截至 2023 年 6 月 17 日 这在基于 chromium 的浏览器中是不可能的 这是一个问题 453876 https bug
  • c# AudioFingerprinting 和局部敏感哈希

    我之前发现过类似的帖子 但没有真正回答这个问题 在我的指纹识别中 我生成了一个包含 5 个整数的记录集 例如 33 42 88 121 194 这些对应于特定音乐样本的最高幅度的频率 例如 对于 30ms 的音频样本 我有以下频率的桶 0
  • Java Sound可以用来控制系统音量吗?

    Java 声音优惠FloatControl各种声音线路功能的实例 以及MASTER GAIN http docs oracle com javase 7 docs api javax sound sampled FloatControl T
  • 在 Windows Phone 8 中以编程方式下载媒体文件

    我们的应用程序是基于视频 音频的应用程序 我们已将所有媒体上传到 Windows Azure 上 但需要方便用户点播下载音视频文件 以便在本地播放 所以我需要以编程方式下载音频 视频文件并将其保存在IsolatedStorage中 我们有每

随机推荐

  • 如何对只读实例属性进行输入验证?

    发布了一个非常相似的问题here 但没有公认的答案 没有代码示例 而且我不太喜欢按照那里提供的唯一一个答案所建议的使用外部库的想法 以下代码允许定义只读实例属性 class Point def init self x y self x x
  • 有充分的理由编写我自己的 daemonize 函数而不是使用 daemon(3) 吗?

    网上有很多守护进程的示例实现 我看到的大多数不使用 daemon 3 函数在后台运行程序 这只是一个品味 无知的问题 还是有充分的理由编写我自己的守护函数 使用 daemon 3 有什么具体的缺点吗 是不是没有安全感 daemon 函数历史
  • 核心数据中的可转换属性无法导出/与 iCloud 同步

    我在用NSPersistentCloudKitContainer 所有数据均在 iCloud 中同步 卸载应用程序后 它会正确同步 但是 需要对敏感数据进行加密 我将密码属性设置为可转换 因此在本地工作得很好 但是当我删除该应用程序时 再次
  • 在 Origin 中将破幂律实现为拟合函数

    再会 我正在尝试使用 origin OriginLab 中的函数生成器来创建一个新函数来适应破碎的幂律 http en wikipedia org wiki Power law Broken power law 所以 我想我已经把实际的功能
  • 从 GUI 类 PyQt4 以外的类更改进度条的值

    我有一个由 Qt 设计器创建的 GUI 类 其中有一个进度条 还有另一个类 其中完成所有数字运算 在此期间我希望进度条定期更新 我认为我会这样做的方式是在其他班级中做类似的事情 gui progressbar setValue some 但
  • 在没有 xts 对象的情况下在 PortfolioAnalytics 中创建有效前沿

    有没有办法在 PortfolioAnalytics 包中创建有效前沿而不指定资产回报的 xts 对象 相反 我想提供预期回报向量和协方差矩阵 有两种方法 首先 您可以提供一个包含矩阵的列表 其结构如下所示 然后调用 Optimize por
  • 在 Mac 应用程序中的保存对话框中包含 iCloud

    我已经实施了iCloud支持我的 Mac 基于文档的应用程序 NSDocument子类可以处理本地存储上打开的保存文件 并且iCloud 但是 我可以将我的文件上传到iCloud只需将其拖动到 打开新文件 面板上即可 当应用程序提示用户保存
  • 如何区分 EOF 字符和实际的文件结尾?

    When reading a file I understand the last character provided is an EOF Now what happens when I have an EOF character in
  • Mojarra 2.0.3 中复合组件所需属性抛出异常

    我一直在使用 JSF 2 0 复合组件 但我对其中的 require 属性有点困惑composite attribute标签的意思是做 文档指出 如果页面作者必须提供此属性的值 则必需的属性为 true 我将其解释为必须为所有具有复合属性的
  • apollo-android可以用作java客户端吗?

    我正在开发一个需要与 Github GraphQl API 通信的 Spring Boot 应用程序 apollo android 可以用于此目的吗 由于所有可用的稀缺文档以及示例项目都是用 android 编写的 所以我不确定 维护者在这
  • 获取距离直线最近的点

    我想要一个直接的 C 函数来获取距离线段 AB 最近的点 从点 P 抽象函数可能如下所示 我已经搜索过了 但没有找到可用的 由我 解决方案 public Point getClosestPointFromLine Point A Point
  • Pandas:根据子字符串删除重复项[重复]

    这个问题在这里已经有答案了 我有以下两列 来自 Pandas DataFrame antecedents consequents apple orange orange apple apple water apple pineapple w
  • 检查 PDO 是否存在的最佳方法是什么[重复]

    这个问题在这里已经有答案了 有人告诉我 rowCount 不安全 所以我想在这里问它 我有 2 个例子 想知道检查某些东西是否存在的最安全和最好的方法是什么 sql SELECT count FROM users WHERE usernam
  • 更改 XML 序列化中元素的类型

    我在 XML 序列化方面遇到了巨大的问题 我有两个类 都需要可序列化 在继承的类中 我想更改序列化行为 以便将字符串属性序列化为复杂类型 public class Animal XmlElement ElementName NAME pub
  • 使用 $ 符号为上一行中存在的变量赋值

    我正在尝试了解 MS DOS v2 0源代码 特别是其中的一些代码MSDATA ASM 该代码最初是使用 35 多年历史的 MASM 汇编器 未商用的版本 进行汇编的 我感兴趣的代码就在开头附近 SUBTTL Initialized dat
  • 如何在两个项目共享的xaml文件中添加用户控件的引用

    I have created a class library CustomMapControl in the solution and inside this class library I create a UserControl Map
  • 如何在Android Studio中创建发布Android库包(AAR)(不是调试)

    我已经构建了我的 Android 库包 AAR 并且构建的结果被创建在 app build outputs aar 文件夹 这个文件夹中的文件名为 app debug aar 所以我猜它是在调试模式下构建的 所以我想知道如何生成构建的版本
  • 在 Angular4 的输入字段中添加千位分隔符

    我在前端使用 Angular 4 我想在输入字段中插入千位分隔符 我尝试了这段代码 但它不起作用
  • 获取我的应用程序中其他应用程序(进程)的上下文:Android

    在我的应用程序中 我需要访问其他已安装应用程序的上下文 是否可以使用任何应用程序的包名称获取上下文 如果我访问其他应用程序的上下文 会出现任何安全问题吗 任何帮助将不胜感激 try this public abstract Context
  • 说话人识别[关闭]

    Closed 这个问题需要多问focused 目前不接受答案 我如何区分两个人说话 就像有人说 你好 然后另一个人说 你好 我应该在音频数据中寻找什么样的签名 周期性 非常感谢任何能回答这个问题的人 这个问题的解决方案在于数字信号处理 DS