使用 Librosa 生成的频谱图看起来与 Kaldi 不一致？

2024-04-10

我使用 Kaldi 的“egs/tidigits”代码生成了“七”话语的声谱图，使用 23 个 bin、20kHz 采样率、25ms 窗口和 10ms 偏移。通过 MATLAB imagesc 函数可视化的频谱图如下所示：

我正在尝试使用 Librosa 作为 Kaldi 的替代品。我使用与上面相同的箱数、采样率和窗口长度/偏移设置了我的代码，如下所示。

time_series, sample_rate = librosa.core.load("7a.wav",sr=20000)
spectrogram = librosa.feature.melspectrogram(time_series, sr=20000, n_mels=23, n_fft=500, hop_length=200)
log_S = librosa.core.logamplitude(spectrogram)
np.savetxt("7a.txt", log_S.T)

然而，当我可视化同一 WAV 文件的 Librosa 频谱图时，它看起来有所不同：

有人可以帮我理解为什么这些看起来如此不同吗？在我尝试过的其他 WAV 文件中，我注意到使用上面的 Librosa 脚本，我的摩擦音（如上例中“七”中的 /s/）被截断，这极大地影响了我的数字分类准确性。谢谢你！

Kaldi 默认在 DCT 输出上应用 lifter，这就是上部系数衰减的原因。查看具体信息here https://dsp.stackexchange.com/questions/26019/sinusoidal-liftering-in-implementations-of-mfcc.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Librosa 生成的频谱图看起来与 Kaldi 不一致？的相关文章

使用 SemanticResultKey 时出现 TargetInitationException

我想建立我的语法来接受多个数字当我重复数字例如说二十一时它有一个错误所以我不断减少代码来找出问题所在我为语法生成器编写了以下代码 string numberString one Choices numberChoices ne
在 iOS 中同时管理文本转语音和语音识别

我想要我的iOS我正在开发一个应用程序使用文本转语音功能向用户朗读从服务器接收到的一些信息并且我还想允许用户通过语音命令停止此类语音我尝试过 iOS 的语音识别框架例如OpenEars我发现问题在于它正在监听和检测应用程序本身说
在 PyQt 中使用 pyttsx

我正在 pyqt 中为我的聊天机器人制作 Gui 但我在这方面的代码中遇到了一些问题 def init self super Window self init self setGeometry 50 50 500 300 self setW
如何通过 websocket 将音频发送到 Nexmo Voice

我正在尝试在 Net Core 2 Web api 中使用 websockets 实现 Nexmo 的语音 api This api needs to 通过电话接收音频Nexmo https developer nexmo com voic
语音识别在 Unity Hololens 项目中不起作用

我正在尝试在 Hololens 中创建自己的具有语音识别功能的 Unity 项目我复制粘贴了来自的说明tutorial https developer microsoft com en us windows holographic hol
语音识别Python代码不起作用

我在安装了 pyAudio 的 Python 2 7 中运行以下代码 import speech recognition as sr r sr Recognizer with sr Microphone as source use the
Android 连续语音识别 - 无间隙

我有一个实施的活动RecognitionListener 为了使其每次都连续onEndOfSpeech 我再次启动监听器 speech startListening recognizerIntent 但是它需要一些时间大约半秒才能开始
绘制具有颜色渐变的矩阵“光谱图”

使用 STFT 短时傅立叶变换后输出是一个表示 3d 图的矩阵就像 A X Y M A是输出矩阵 X是时间 Y是频率第三维M是由像素颜色强度表示的幅度如下图所示频谱图2 https i stack imgur com mtWqb
如何在通话过程中将语音转换为文本，并为呼叫者和呼叫接收者提供不同的文本颜色？

我想在通话期间将语音转换为文本我还希望文本以不同的颜色显示呼叫发起者为红色呼叫接收者为绿色在测试期间我在通话期间将语音转换为文本但无法区分呼叫发起者的声音和呼叫接收者的声音提前致谢请帮帮我 None
在android语音识别中，如何增加考虑输入完成的时间？

在android语音识别中任何人都可以知道如何增加我们停止听到语音后考虑输入可能完成所需的时间我需要防止端点在语音识别时在非常短的语音中间停顿期间中断如果有人知道解决办法请回复任何回应将不胜感激提前致谢你好我也遇到这个问题
同时进行语音转文本和文本转语音

介绍我正在开发一个应用程序我需要在其中使用 Booth SpeechRecognizer 和 TTS 但我在尝试这个时遇到了一些问题主要的一个问题是如果我初始化 TTS SpeechRecgonizer 似乎无法工作而如果我禁用
使用CamerX android进行视频录制时使用语音识别器API

我目前正在使用cameraX 来录制带有音频的视频并且工作得很好但是现在我必须在录制视频时使用SpeechRecognizer 并获取用户所说内容的转录 UPDATE 我尝试从视频中提取音频然后将其作为额外内容提供给意图但它不起作用
使用 Librosa 生成的频谱图看起来与 Kaldi 不一致？

我使用 Kaldi 的 egs tidigits 代码生成了七话语的声谱图使用 23 个 bin 20kHz 采样率 25ms 窗口和 10ms 偏移通过 MATLAB imagesc 函数可视化的频谱图如下所示我正在尝试使用 L
TypeScript 中的语音识别和语音合成

我能够通过创建如下接口在 TypeScript 中运行 SpeechRecognition 并且工作正常 namespace CORE export interface IWindow extends Window webkitSpeech
为 google-cloud-speech 、Java 桌面应用程序定义 GOOGLE_APPLICATION_CREDENTIALS

我是全新使用的谷歌云java https github com GoogleCloudPlatform google cloud java 尝试做一些Speech Recognition使用谷歌云语音 https github com Go
语音识别和语调检测

我想做一个 iOS 应用来计算疑问句我会寻找 WH 问题以及我会吗格式化问题我对语音或音频技术领域不太了解但我Google了一下发现语音识别SDK很少但仍然不知道如何检测和绘制语调是否有支持语调或情感语音识别的 SDK 据我
如何使用其他语言的语音识别 android

我有一个曾经有效的代码但由于某种原因它突然停止工作我正在尝试使用希伯来语语音识别但似乎从几天前开始它才开始英语语音识别这是我的代码 sr SpeechRecognizer createSpeechRecognizer getAppl
Glass 的 SpeechRecognizer 权限不足错误

我正在使用 GDK 先睹为快构建一个应用程序但在沉浸式应用程序中无法进行语音识别这是我的第一个安卓项目我试着遵循这个如何在 Android 手机中使用语音识别而不出现烦人的对话框 https stackoverflow com qu
从 Google 语音识别中删除脏话审查

我正在尝试使用 Google 的语音到文本 API 在 iOS 应用程序中将语音转换为文本我只是将一些音频数据发送到 URL 并且它返回了我所说的大部分正确的单词但是它用替换了任何脏话我如何用实际的咒语替换只是一些附加信息
Microsoft SAPI 是否像 system.speech api 一样支持离线模式下的语音识别？

我已经阅读了Microsoft SAPI的官方文档但我找不到该API是否可以在离线模式下使用 in there https stackoverflow com a 2982910 4606266 他们说微软SAPI是基于服务器的语音识别A

随机推荐

安装 gem 时出错：无法为 cygwin 的堆保留空间，Win32 错误 487

我正在尝试安装win32 api我的机器上安装了 gem 并且在构建本机扩展时遇到了一些问题 gem install win32 api no ri rdoc Temporarily enhancing PATH to include De
如何为WinForm、C#制作框架？

我一直在研究改变Windows窗体边框的颜色发现它是由Windows决定的好吧这是有道理的所以我看到以前问过这个问题的人被告知去这里http customerborderform codeplex com http customer
内存警告后 WKWebView 变为空白

我正在开发一个 iOS 应用程序它将在 wkWebView 中显示一些 360 度全景内容该页面确实会加载但当它收到内存警告时它会在 iPad 2 上显示空白视图相关代码 NSURLRequest req NSURLRequest
@selector 和其他类 (Objective-C)

在对象内部我使用 NSMenu 的addItemWithTitle action keyEquivalent 创建 NSMenuItems 问题是我希望调用另一个对象上的方法作为操作这action 部分需要一个 selector作为参数
pinterest 布局样式的 CSS 代码

我的挑战是尝试使列表网格视图看起来像 pinterest 类似的布局我已经用它编写了一些代码但这还不够下面的行彼此不匹配 content category grid view li featured position relative
Expressjs Passport-Local 无法注销

我将应用程序 Passport local 复制粘贴到我的应用程序上有趣的是我可以登录用户但我不能让他们注销 app get logout function req res req logout res redirect 这并不是什么都
SQL Server Express 中的链接服务器

我正在开发一个应用程序其中我在 SQL Server Express 中有一个本地数据库在本地数据库中工作期间我们需要在另一个 SQL Server 实时服务器上执行查询并返回一个值并使用该值在本地服务器中执行查询对 2 或 3
Angular 6：无法绑定到“formGroup”，因为它不是“form”的已知属性？

我曾在 Angular 2 4 中使用过表单生成器但现在我在 Angular 6 中使用它我看到了这个问题无法绑定到 formGroup 因为它不是 form 的已知属性 https stackoverflow com questio
如何使用 ts 中的变量作为 HTML 文件中的标记名？ [复制]

这个问题在这里已经有答案了我想知道是否有什么方法可以使用HTML tag name p for e g 这是从变量获得的以下是我尝试过的代码应用程序组件 ts import Component OnInit from angular
在 Jupyter Notebook 中的 %matplotlib inline 之后使用 %matplotlib Notebook 不起作用

我正在使用 Jupyter Notebook 来绘制饼图 In 第一个细胞用我的代码我有一个神奇的命令 matplotlib inline在这个神奇的命令之后我运行我的代码一切正常并且我的图形呈现 But in 第二个细胞当我设置 ma
Tensorboard 错误：当前数据集没有活动的仪表板

我正在尝试使用 Tensorboard 但每次使用 Tensorflow 运行任何程序时当我转到 localhost 6006 查看可视化时都会收到错误这是我的代码 a tf add 1 2 b tf multiply a 3 with
getResponseHeader 不是函数

我需要从另一个页面获取值但我通过以下代码收到此错误我该如何修复它 document ready function name submit click function ajax type POST data form signup se
如何为异步流服务器编写 pytest 夹具？

我一直在尝试学习 asyncio 但找不到任何创建可用于测试服务器代码的 pytest 夹具的示例一旦服务器启动我猜它会阻止其他一切因此测试永远不会运行 pytest asyncio 是否有办法在单独的线程中运行固定装置或其他东西还
Swift - 调用中的额外参数

我试图从 DetailViewController 类调用 ViewController 类中声明的函数尝试调试调用中的额外参数错误时会弹出在 ViewController 类中 func setCity item Cities i
如何创建匹配键的查询？

我使用另一个用户赞助商的密钥来指示谁是用户的赞助商它会在数据存储中为那些拥有赞助商的用户创建一个链接最多可以是一个但赞助商可以赞助许多用户例如在本例中 ID 2002 赞助了另外三个用户在这种情况下这个查询做了我想要的 SE
结合 Spark Streaming + MLlib

我尝试使用随机森林模型来预测示例流但似乎我无法使用该模型对示例进行分类这是pyspark中使用的代码 sc SparkContext appName App model RandomForest trainClassifier trai
应用内消息传递不会在自定义事件上显示消息

using implementation com google firebase firebase analytics 17 2 1 implementation com google firebase firebase inappmess
创建非托管常规 MFC DLL 并从托管 C++ .NET 应用程序调用它时出现问题

我有几个关于 DLL 的问题我尝试了很多但无法获得完整的图片大多数示例都是用 C 等编写的使用 VS2005 中的向导我创建了一个非托管 MFC 常规 DLL 由于剩余代码必须是 MFC 然后我尝试将其导入 VS2005 管理的
Clojure deftype 在同一命名空间中调用函数会抛出“java.lang.IllegalStateException：尝试调用未绑定的 fn：”

我将 Clojure 放入一个大量使用 Jersey 和注释的现有 Java 项目中我希望能够利用之前工作中现有的自定义注释过滤器等到目前为止我已经粗略地使用了 deftype 方法和 javax ws rs 注释参见第 9 章C
使用 Librosa 生成的频谱图看起来与 Kaldi 不一致？

我使用 Kaldi 的 egs tidigits 代码生成了七话语的声谱图使用 23 个 bin 20kHz 采样率 25ms 窗口和 10ms 偏移通过 MATLAB imagesc 函数可视化的频谱图如下所示我正在尝试使用 L

使用 Librosa 生成的频谱图看起来与 Kaldi 不一致？

使用 Librosa 生成的频谱图看起来与 Kaldi 不一致？ 的相关文章

随机推荐

热门标签

使用 Librosa 生成的频谱图看起来与 Kaldi 不一致？的相关文章