使用 Librosa 生成的频谱图看起来与 Kaldi 不一致?

2024-04-10

我使用 Kaldi 的“egs/tidigits”代码生成了“七”话语的声谱图,使用 23 个 bin、20kHz 采样率、25ms 窗口和 10ms 偏移。通过 MATLAB imagesc 函数可视化的频谱图如下所示:

我正在尝试使用 Librosa 作为 Kaldi 的替代品。我使用与上面相同的箱数、采样率和窗口长度/偏移设置了我的代码,如下所示。

time_series, sample_rate = librosa.core.load("7a.wav",sr=20000)
spectrogram = librosa.feature.melspectrogram(time_series, sr=20000, n_mels=23, n_fft=500, hop_length=200)
log_S = librosa.core.logamplitude(spectrogram)
np.savetxt("7a.txt", log_S.T)

然而,当我可视化同一 WAV 文件的 Librosa 频谱图时,它看起来有所不同:

有人可以帮我理解为什么这些看起来如此不同吗?在我尝试过的其他 WAV 文件中,我注意到使用上面的 Librosa 脚本,我的摩擦音(如上例中“七”中的 /s/)被截断,这极大地影响了我的数字分类准确性。谢谢你!


Kaldi 默认在 DCT 输出上应用 lifter,这就是上部系数衰减的原因。查看具体信息here https://dsp.stackexchange.com/questions/26019/sinusoidal-liftering-in-implementations-of-mfcc.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Librosa 生成的频谱图看起来与 Kaldi 不一致? 的相关文章

  • 使用 SemanticResultKey 时出现 TargetInitationException

    我想建立我的语法来接受多个数字 当我重复数字 例如说 二十一 时 它有一个错误 所以我不断减少代码来找出问题所在 我为语法生成器编写了以下代码 string numberString one Choices numberChoices ne
  • 在 iOS 中同时管理文本转语音和语音识别

    我想要我的iOS我正在开发一个应用程序 使用文本转语音功能向用户朗读从服务器接收到的一些信息 并且我还想允许用户通过语音命令停止此类语音 我尝试过 iOS 的语音识别框架 例如OpenEars我发现问题在于它正在监听和检测应用程序本身 说
  • 在 PyQt 中使用 pyttsx

    我正在 pyqt 中为我的聊天机器人制作 Gui 但我在这方面的代码中遇到了一些问题 def init self super Window self init self setGeometry 50 50 500 300 self setW
  • 如何通过 websocket 将音频发送到 Nexmo Voice

    我正在尝试在 Net Core 2 Web api 中使用 websockets 实现 Nexmo 的语音 api This api needs to 通过电话接收音频Nexmo https developer nexmo com voic
  • 语音识别在 Unity Hololens 项目中不起作用

    我正在尝试在 Hololens 中创建自己的具有语音识别功能的 Unity 项目 我复制粘贴了来自的说明tutorial https developer microsoft com en us windows holographic hol
  • 语音识别Python代码不起作用

    我在安装了 pyAudio 的 Python 2 7 中运行以下代码 import speech recognition as sr r sr Recognizer with sr Microphone as source use the
  • Android 连续语音识别 - 无间隙

    我有一个实施的活动RecognitionListener 为了使其每次都连续onEndOfSpeech 我再次启动监听器 speech startListening recognizerIntent 但是 它需要一些时间 大约半秒 才能开始
  • 绘制具有颜色渐变的矩阵“光谱图”

    使用 STFT 短时傅立叶变换 后 输出是一个表示 3d 图的矩阵 就像 A X Y M A是输出矩阵 X是时间 Y是频率 第三维M是由像素颜色强度表示的幅度 如下图所示 频谱图2 https i stack imgur com mtWqb
  • 如何在通话过程中将语音转换为文本,并为呼叫者和呼叫接收者提供不同的文本颜色?

    我想在通话期间将语音转换为文本 我还希望文本以不同的颜色显示 呼叫发起者为红色 呼叫接收者为绿色 在测试期间 我在通话期间将语音转换为文本 但无法区分呼叫发起者的声音和呼叫接收者的声音 提前致谢 请帮帮我 None
  • 在android语音识别中,如何增加考虑输入完成的时间?

    在android语音识别中 任何人都可以知道如何增加我们停止听到语音后考虑输入可能完成所需的时间 我需要防止端点在语音识别时在非常短的语音中间停顿期间中断 如果有人知道解决办法 请回复 任何回应将不胜感激 提前致谢 你好 我也遇到这个问题
  • 同时进行语音转文本和文本转语音

    介绍 我正在开发一个应用程序 我需要在其中使用 Booth SpeechRecognizer 和 TTS 但我在尝试这个时遇到了一些问题 主要的一个问题是 如果我初始化 TTS SpeechRecgonizer 似乎无法工作 而如果我禁用
  • 使用CamerX android进行视频录制时使用语音识别器API

    我目前正在使用cameraX 来录制带有音频的视频 并且工作得很好 但是现在我必须在录制视频时使用SpeechRecognizer 并获取用户所说内容的转录 UPDATE 我尝试从视频中提取音频 然后将其作为额外内容提供给意图 但它不起作用
  • 使用 Librosa 生成的频谱图看起来与 Kaldi 不一致?

    我使用 Kaldi 的 egs tidigits 代码生成了 七 话语的声谱图 使用 23 个 bin 20kHz 采样率 25ms 窗口和 10ms 偏移 通过 MATLAB imagesc 函数可视化的频谱图如下所示 我正在尝试使用 L
  • TypeScript 中的语音识别和语音合成

    我能够通过创建如下接口在 TypeScript 中运行 SpeechRecognition 并且工作正常 namespace CORE export interface IWindow extends Window webkitSpeech
  • 为 google-cloud-speech 、Java 桌面应用程序定义 GOOGLE_APPLICATION_CREDENTIALS

    我是全新使用的谷歌云java https github com GoogleCloudPlatform google cloud java 尝试做一些Speech Recognition使用谷歌云语音 https github com Go
  • 语音识别和语调检测

    我想做一个 iOS 应用来计算疑问句 我会寻找 WH 问题以及 我会吗 格式化问题 我对语音或音频技术领域不太了解 但我Google了一下 发现语音识别SDK很少 但仍然不知道如何检测和绘制语调 是否有支持语调或情感语音识别的 SDK 据我
  • 如何使用其他语言的语音识别 android

    我有一个曾经有效的代码 但由于某种原因它突然停止工作 我正在尝试使用希伯来语语音识别 但似乎从几天前开始它才开始英语语音识别 这是我的代码 sr SpeechRecognizer createSpeechRecognizer getAppl
  • Glass 的 SpeechRecognizer 权限不足错误

    我正在使用 GDK 先睹为快构建一个应用程序 但在沉浸式应用程序中无法进行语音识别 这是我的第一个安卓项目 我试着遵循这个 如何在 Android 手机中使用语音识别而不出现烦人的对话框 https stackoverflow com qu
  • 从 Google 语音识别中删除脏话审查

    我正在尝试使用 Google 的语音到文本 API 在 iOS 应用程序中将语音转换为文本 我只是将一些音频数据发送到 URL 并且它返回了我所说的 大部分 正确的单词 但是 它用 替换了任何脏话 我如何用实际的咒语替换 只是一些附加信息
  • Microsoft SAPI 是否像 system.speech api 一样支持离线模式下的语音识别?

    我已经阅读了Microsoft SAPI的官方文档 但我找不到该API是否可以在离线模式下使用 in there https stackoverflow com a 2982910 4606266 他们说微软SAPI是基于服务器的语音识别A

随机推荐