如何从音频文件中分离男声和女声(C++或Java)

2024-03-12

我想区分音频文件中的男声和女声并将它们分开。作为输出,我希望将两个声音分开。你能帮我一下吗?编码可以用java还是c++完成


这可能是一个非常复杂的问题,它类似于编写自己的语音识别(或识别)算法。

您首先可以将音频转换为频域,这是使用快速傅立叶变换 http://en.wikipedia.org/wiki/Fast_Fourier_transform.

对于您进行 FFT 的每个时间片,这将为您提供频率及其幅度的列表。您将需要通过分析谐波来检测基音。第二次和第三次谐波将是最清晰的。很难弄清楚它们是哪些谐波,尤其是考虑到背景噪音以及人声之间的自然差异(就哪些谐波最大而言)。然后,您可以尝试根据您猜测的基音来确定说话者是男性还是女性。

请记住,在许多词性中,例如齿音(“s”、“t”等),没有音调,只有噪音。它需要非常聪明。

希望这能让您朝着正确的总体方向前进。

注意:如果两个声音同时出现并且你想将它们完全分开,那么这对你没有帮助。我不相信活着的人能解决这样的问题。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何从音频文件中分离男声和女声(C++或Java) 的相关文章

  • 如何制作和播放程序生成的线性调频声音

    我的目标是创建一个 Chirper 课程 鸣叫器应该能够发出按程序生成的鸣叫声 具体想法是 鸣叫声必须按程序生成 而不是回放预先录制的声音 在 iPhone 上实现程序生成的鸣叫声的最简单方法是什么 正如您所说 您可以使用正弦波来做到这一点
  • FFT 的窗口大小与数据长度

    我正在尝试对流音频数据进行快速频谱分析以捕获元音 类似于 JLip sync 使用 PyAudio 在短时间内 0 0625 秒 捕获小块 1024 的语音数据 使用 numpy fft 进行分析 并使用 numpy hanning 窗口消
  • iOS Swift - 使用蓝牙外部扬声器时音质较差

    我正在使用从 url 广播应用程序 流式传输的 iOS 应用程序 一旦我尝试通过外部扬声器或汽车音响系统等蓝牙设备从应用程序进行流传输 音频质量就会非常差且刺耳 当从 iOS 设备本身播放时 一切听起来都很好 扬声器和耳机 override
  • Mojave/macOS 10.14.0:[AVPlayerItem 持续时间] 始终不确定

    我正在尝试使用以下代码读取本地存储的音频文件的持续时间 import
  • 在流 #1 中找不到编解码器 pcm_alaw 的标签,使用 ffmpeg 连接 2 个文件时容器当前不支持编解码器 [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我正在尝试连接两个文件 第一个文件包含音频和视频 第二个文件仅包含视频 我用以下ffmpeg命令 ffmpeg command ffmpe
  • iPhone 上的 SoundManager2 - 声音无法在 jQuery Load 上播放

    我正在尝试使用 SoundManager2 作为 iPhone Web 应用程序的一部分 以便在使用 jQuery 提交表单后播放声音 播放的特定声音取决于结果 因此结果页面设置一个变量来标识要播放的声音文件 这一切在桌面上运行都没有问题
  • 使用 Javascript 播放音频元素 (html5)

    我正在尝试弄清楚如何触发从 javascript 播放音频 我得到了一些 html 看起来像 div class audio foo div
  • MATLAB:让audioplayer()在函数结束后继续播放

    我正在使用使用以下子函数的代码 function playTone duration toneFreq Generate a tone samplesPerSecond 44100 the bit rate of the tone y si
  • iOS 将 URL 中的音频分成帧

    我正在 iOS 上开发一个简单的网络广播应用程序 具有非常简单的语音 音乐识别功能 主要思想是一个收音机 它播放来自 url 的信号 同时检查正在广播的信号类型 当它检测到语音时 它会改变频道等等 我使用 Storyboards 和 AVF
  • 使用 DirectSound 向后读取声音

    是否可以使用 DirectSound 的托管版本向后读取声音 如果没有 是否有另一个库可以轻松实现 您可以使用 WaveFileReader 和 WaveFileWriter 类NAudio http www codeplex com na
  • 在 Mobile Safari 中重用 HTML5 音频对象

    我希望在 iPad 上的 Mobile Safari 中运行的 Web 应用程序上播放一个简短 小于 1 秒 的音频文件 以响应用户输入 同时将事件和音频播放之间的延迟降至最低 在页面重新加载之间可以多次触发播放 因此我想缓存音频文件 以下
  • NAudio 音调变换

    我正在使用 NAudio DLL 并且正在寻找音调变换声音的示例代码 有一个使用的例子NAudio https github com naudio NAudio用于开源中的音高变换Skype 变声器 https github com mar
  • 如何使用python将下载的音频文件扩展名重命名为mp3

    目前 我正在尝试根据艺术家姓名和歌曲标题将 YouTube 音乐视频下载为音频文件 下载所有视频后 我尝试将所有音频文件从 webm 或 mp4 扩展名重命名为 mp3 但似乎我在将文件名和扩展名更改为 mp3 时遇到了一些错误 我的代码基
  • 如何使用 javascript 从 Audio Element 录制音频

    我正在使用 HTML5 和 Javascript 制作录音机 并且不想包含任何第三方 API 我的第一步是使用以下命令创建音频检索器和播放器
  • 如何在android中播放音频文件

    我的 Android 手机中有一个 mp3 文件 让它在我的 SD 卡中的某个位置成为 xyz mp3 如何通过我的应用程序播放它 只需您就可以使用MediaPlayer并播放音频文件 查看这个很好的例子 http www helloand
  • 如何在 iOS 中使用 AVPlayer 缓冲音频?

    我想播放来自互联网的流音频 我编写了播放流的代码 但它没有任何缓冲区 因此如果信号较弱 应用程序将停止播放音频 这是我的代码 import UIKit import AVFoundation import MediaPlayer impor
  • python:如何改变音量?

    I used winsound Beep frequency duration 因为我想以指定的频率播放声音 现在 我需要更改这些声音的音量 我怎样才能做到这一点 我试图寻求帮助pyaudio but 如果您对外部库开放 您可以使用pydu
  • Android 在通话期间播放音频文件[重复]

    这个问题在这里已经有答案了 对于我的 Android 应用程序 我想在从应用程序接听电话后播放音频文件 应用程序将发起电话呼叫 一旦接收者接听电话 应用程序应开始播放录制的音频文件 通过在谷歌上进行大量搜索 我发现这对于未root的设备来说
  • SoundEffect 和 SoundEffectInstance 类之间的区别

    就像有问题一样 我不明白使用这些类有什么区别 每个类别的优点和局限性是什么 我读了很多教程 但仍然无法决定我应该做什么 为了让事情更清楚 我得到了 AudioModule AudioEmitterComponent 和 AudioListe
  • 在 Qt 中播放通知(频率 x)声音 - 最简单的方法?

    Qt 5 1 或更高版本 我需要播放频率为 x 的通知声音 n 毫秒 如果我能像这样组合音调那就太好了 1000Hz 持续 2 秒 然后 3000Hz 持续 1 秒 最简单的方法是使用文件 WAV MP3 例如如此处所述 如何用Qt播放声音

随机推荐

  • 如何使用 JavaScript 检测 Ctrl+V、Ctrl+C?

    How to detect Ctrl V Ctrl C using JavaScript 我需要限制在文本区域中粘贴 最终用户不应复制和粘贴内容 用户应仅在文本区域中键入文本 我怎样才能实现这个目标 I just did this out
  • 自动 Java 错误报告系统

    有谁知道java中的自动错误报告系统吗 我们有一个安装在客户端服务器上的服务器产品 我们的想法是 我们的服务器会打电话回家 将错误的详细信息发送到我们的一台服务器 然后将错误输入到我们的错误跟踪器中 最好是通过 http 进行 并非所有异常
  • IllegalArgumentException:指定为非 null 的参数为 null:方法 kotlinx.coroutines.BuildersKt__Builders_commonKt.launch,参数上下文

    我正在尝试对以下使用 kotlin 协程的函数进行单元测试 fun authenticateWithUserAndPassword usernameOrEmail String password String launchUI strate
  • Android 数据绑定 XML 错误

    我在 Android Studio 项目上使用数据绑定库 每当我构建 运行 清理 重建等时 我都会收到以下错误 app processDebugResources AGPBI kind error text Error parsing XM
  • jqGrid不显示JSON数据

    我希望将 jqGrid 用于我当前正在开发的 Web 项目 问题是 我似乎无法让网格显示 JSON 数据 这是网格的初始化代码 fn loadjqgrid function httpposturl this jqGrid url httpp
  • 在 Visual Studio 中制作属性代码片段

    我厌倦了编写样板属性代码 例如 public string Name get return this name set SetProperty ref name value 因此 我决定在 Visual Studio 中制作一个代码片段来自
  • htaccess .html、.css、.js 的 UTF-8 编码 - 最好的方法是什么?

    对于 yslow 页面速度 我想删除我的元标记并将我的编码放入 htaccess 文件中 以下是我读过的所有方法 哪种方式是首选方式 另外 语言设置也是一个好主意 如果文件匹配之外 它将适用于所有文件类型吗 1 https github c
  • PyCharm 中的 PyQt4 没有自动完成功能

    在我使用的办公室电脑上 Python 3 4 PyQt4 版本 4 11 1 PyCharm 社区版 3 4 1 我按照上述顺序安装了所有内容 但是 代码完成不起作用 它适用于导入 但不适用于类和方法 我做了一个小示例程序 import s
  • 如何找到最大堆栈大小?

    我正在使用 Ubuntu 11 04 如何找出进程的最大调用堆栈大小以及堆栈的每个帧的大小 快速谷歌搜索应该会显示关于这个主题的一些信息 http www cs nyu edu exact core doc stackOverflow tx
  • 如果已在下拉列表中选择了项目,则 SelectedIndexChanged 事件不会触发?

    假设我有一个包含 2 个项目的下拉列表 并且默认情况下选择第一个项目 如果我选择单击下拉列表中的第一项 有没有办法让 SelectedIndexChanged 事件仍然触发 我以为我可以通过将下拉列表的 SelectedIndex 设置为
  • ImportError:找不到入口点('console_scripts','easy_install')

    我正在尝试安装一个软件包 其中一个说明如下 但出现错误 easy install U distribute pip Traceback most recent call last File Library Frameworks Python
  • 如何知道在jetpack compose的lazyrow视口中完全可见的项目?

    我有一个包含项目的惰性行 现在 我想对每当用户滚动惰性行时在视口中完全可见的项目进行 API 调用 我尝试过以下代码 listState rememberLazyListState LaunchedEffect listState snap
  • 计算机如何记录时间? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 时间在计算机中是如何表示的 我的意思是计算机不是尽可能快地完成所有计算吗 如果事物在不同的机器上以不同的速度运行 你如何跟踪时间的流逝
  • React Native - 无法在前端导入猫鼬(但它可以从后端运行)

    我无法在前端导入猫鼬 但它在后端有效 我有一个单独的后端目录 我有一些代码可以将几个用户添加到我的数据库中 这里是 import mongoose from mongoose import User from models user con
  • 信号量和互斥量在实现上有什么区别?

    我读到互斥锁和二进制信号量仅在一方面不同 在互斥锁的情况下 锁定线程必须解锁 但在信号量中 锁定和解锁线程可以不同吗 哪一种效率更高 假设您知道信号量和互斥体之间的基本区别 为了快速 简单的同步 请使用临界区 要跨进程边界同步线程 请使用互
  • PyQt:悬停按钮时更改光标

    我正在尝试制作一个按钮 或任何其他 Qwidget 这将在悬停时更改用户光标 例如 当我将鼠标悬停在 QPushButton 上时 它会将光标从箭头更改为指向手 我正在使用 Qt 样式表 所以我不完全确定 但是有没有办法在那里做类似的事情
  • WebSockets-将图像发送到连接的客户端

    这是我在 stackoverflow com 上发表的第一篇文章 所以我会尽量简单明了 我必须使用 websockets 开发 web 应用程序的功能 我能够发送文本数据 使用websockets 但不是图像 我已经查看并尝试了不同的可能性
  • 有没有办法创建由 `std::function<>` 包装的函数的哈希值?

    我有一个 C 函数 需要一个std function作为输入参数 具体来说 一个std function
  • IE 悬停选择问题

    我和一个朋友正在尝试解决 IE 7 8 我们在这里构建了一个规范的示例 http www mathgladiator com share ie select bug hover css menus htm http www mathglad
  • 如何从音频文件中分离男声和女声(C++或Java)

    我想区分音频文件中的男声和女声并将它们分开 作为输出 我希望将两个声音分开 你能帮我一下吗 编码可以用java还是c 完成 这可能是一个非常复杂的问题 它类似于编写自己的语音识别 或识别 算法 您首先可以将音频转换为频域 这是使用快速傅立叶