MFCC Python：librosa、python_speech_features、tensorflow.signal 的结果完全不同

2024-01-12

我正在尝试从音频（.wav 文件）中提取 MFCC 特征，并且我已经尝试过python_speech_features and librosa但他们给出了完全不同的结果：

audio, sr = librosa.load(file, sr=None)

# librosa
hop_length = int(sr/100)
n_fft = int(sr/40)
features_librosa = librosa.feature.mfcc(audio, sr, n_mfcc=13, hop_length=hop_length, n_fft=n_fft)

# psf
features_psf = mfcc(audio, sr, numcep=13, winlen=0.025, winstep=0.01)

下面是图：

librosa:

python_speech_features:

我是否为这两种方法传递了错误的参数？为什么这里会有这么大的差异呢？

Update:我也尝试过tensorflow.signal实现，结果如下：

该图本身更接近 librosa 中的图，但比例更接近 python_speech_features。（请注意，这里我计算了 80 个梅尔 bin，并取了前 13 个；如果我仅使用 13 个 bin 进行计算，结果看起来也完全不同）。代码如下：

stfts = tf.signal.stft(audio, frame_length=n_fft, frame_step=hop_length, fft_length=512)
spectrograms = tf.abs(stfts)

num_spectrogram_bins = stfts.shape[-1]
lower_edge_hertz, upper_edge_hertz, num_mel_bins = 80.0, 7600.0, 80
linear_to_mel_weight_matrix = tf.signal.linear_to_mel_weight_matrix(
    num_mel_bins, num_spectrogram_bins, sr, lower_edge_hertz, upper_edge_hertz)
mel_spectrograms = tf.tensordot(spectrograms, linear_to_mel_weight_matrix, 1)
mel_spectrograms.set_shape(spectrograms.shape[:-1].concatenate(linear_to_mel_weight_matrix.shape[-1:]))

log_mel_spectrograms = tf.math.log(mel_spectrograms + 1e-6)
features_tf = tf.signal.mfccs_from_log_mel_spectrograms(log_mel_spectrograms)[..., :13]
features_tf = np.array(features_tf).T

我想我的问题是：哪个输出更接近 MFCC 的实际情况？

这里至少有两个因素在起作用，可以解释为什么会得到不同的结果：

梅尔等级没有单一的定义。Librosa实现方式有两种：Slaney https://engineering.purdue.edu/~malcolm/interval/1998-010/ and HTK http://htk.eng.cam.ac.uk/。其他包可能会并且will使用不同的定义，会导致不同的结果。话虽这么说，总体情况应该是相似的。这引出了我们的第二个问题......
python_speech_features默认情况下将能量作为第一个（索引零）系数（appendEnergy is True默认情况下），这意味着当您要求例如13 MFCC，您实际上得到 12 + 1。

换句话说，你没有比较 13librosa vs 13 python_speech_features系数，而是 13 与 12。能量可以具有不同的量值，因此由于不同的色阶而产生完全不同的图像。

我现在将演示这两个模块如何产生相似的结果：

import librosa
import python_speech_features
import matplotlib.pyplot as plt
from scipy.signal.windows import hann
import seaborn as sns

n_mfcc = 13
n_mels = 40
n_fft = 512 
hop_length = 160
fmin = 0
fmax = None
sr = 16000
y, sr = librosa.load(librosa.util.example_audio_file(), sr=sr, duration=5,offset=30)

mfcc_librosa = librosa.feature.mfcc(y=y, sr=sr, n_fft=n_fft,
                                    n_mfcc=n_mfcc, n_mels=n_mels,
                                    hop_length=hop_length,
                                    fmin=fmin, fmax=fmax, htk=False)

mfcc_speech = python_speech_features.mfcc(signal=y, samplerate=sr, winlen=n_fft / sr, winstep=hop_length / sr,
                                          numcep=n_mfcc, nfilt=n_mels, nfft=n_fft, lowfreq=fmin, highfreq=fmax,
                                          preemph=0.0, ceplifter=0, appendEnergy=False, winfunc=hann)

正如您所看到的，比例不同，但整体图片看起来非常相似。请注意，我必须确保传递给模块的许多参数是相同的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

Audio

librosa

MFCC

MFCC Python：librosa、python_speech_features、tensorflow.signal 的结果完全不同的相关文章

Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

iOS App场景下的安全密钥，安全吗？

我试图隐藏我在一个应用程序中使用的 2 个秘密据我了解钥匙串是一个好地方但在提交应用程序之前我无法添加它们我想到了这个场景通过将秘密传播到其他实体中以掩盖它们将秘密预先播种到我的应用程序的 CoreData 数据库中我在该应用
joomla模块开发与表单-如何处理

我正在创建一个简单的 Joomla 2 5 模块它将有一个 html 表单 mod mymodule tmpl default php
不使用 sort 方法按字母顺序对数组进行排序

我一直在学习 Chris Pine 的 Ruby 教程目前正在研究一种无需使用即可对名称数组进行排序的方法sort 我的代码如下它工作完美但比我想象的更进一步 puts Please enter some names name get
数组对象是否显式包含索引？

从学习 Java 的第一天起各种网站和许多老师就告诉我数组是连续的内存位置可以存储指定数量的相同类型的数据由于数组是一个对象并且对象引用存储在堆栈中而实际对象位于堆中因此对象引用指向实际对象但是当我遇到如何在内存中创建数组的
如何使用 AWS SAM 启用 CORS

我正在尝试在我的 AWS SAM 应用程序中启用 CORS 这是我的片段template yaml Globals Api Cors AllowMethods AllowHeaders AllowOrigin Resources MyApi
Firebase 动态链接生成器中的 DFL 参数

我需要使用 Android 上的 Dynamic Link Builder API 以编程方式构建动态链接 https firebase google com docs dynamic links android create https
即使以管理员身份登录也无法删除文件[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案请有人告诉我我做错了什么我正在尝试通过命令行删除隐藏文件夹我以管理员身份运行命令行但仍然收到消息访问权限不足这是我的命令行的屏幕截
是否可以以编程方式配对 Android 蓝牙设备？

目前我正在使用 backport android bluetooth2 jar 文件与 Android 1 5 进行蓝牙编程每当设备配对失败时它都会填充 passKey 的警报对话框如果我给出 passkey 那么在我的日志中我会收到
Android 调试监视器层次结构视图未显示

我正在尝试在 ADM 中连接我的应用程序但不幸的是层次结构视图未显示我应该如何将我的应用程序连接到 ADM 工具设备 Nexus 4 操作系统 4 3 3 Error 2014 02 06 13 00 14 hierarchyview
Visual C++ 和 *nix 环境下的编译差异

在 nix 环境和 MS Visual C 环境中编译项目有区别吗例如 Visual C 中有一个 stdafx h 文件我问的原因是我提交了一段用g 编译的代码重构mycode com http refactormycode com
Mac 上 -dpkg 的替代品是什么？

我正在尝试使用 dpkg 命令但在 Mac OS X 中它似乎对我不起作用 dpkg scanpackages m dev null gt Packages bash dpkg command not found dns Administ
Java：将格式化的xml文件转换为一行字符串

我有一个格式化的 XML 文件我想将其转换为一行字符串我该怎么做示例 XML
Delphi 'AND' 评估有 2 个条件

我不得不选择 Delphi 来完成我最近正在做的一项合同工作我希望有人澄清的一件事是条件语句中逻辑的执行例如if 我有 C C 和这些语言的背景一旦if已知语句失败其余逻辑不会执行例如 if somefunc FALSE anot
如何检测设备的移动？

我想检测像 Moo Box 这样的运动我反转手机当我将其转回时它会触发一个动作对于安卓什么是最好的方法可以自定义事件监听器你看过吗传感器管理器 http developer android com reference andr
如何在 R 中使用 as.Date() 格式化我的日期？

我有一个如下所示的数据集 Date AE AA AEF Percent 1 1 2012 1211 1000 3556 0 03 1 2 2012 100 2000 3221 0 43 1 3 2012 3423 10000 2343 0
asp mvc 默认应用程序生成删除空格

因此当生成一个 mvc 项目时它具有默认的母版页和部分视图例如注册和登录视图问题是生成的母版页在页面左侧和右侧具有默认的空白我的问题是边距空间代码写在哪里以及如何删除它虽然看起来很简单但我似乎找不到它 Site css 保
类型推断在具有静态成员约束的泛型类型上失败

我定义了以下类型从代码简化 type Polynomial lt a when a static member public Zero a and a static member a a gt a and a static member
MATLAB 搜索元胞数组中的字符串子集

我试图在 MATLAB 的元胞数组中查找子字符串出现的位置下面的代码可以工作但是相当难看在我看来应该有一个更简单的解决方案 cellArray these are some nicewords and some morewords w
无可用来源

我不确定发生了什么或者我是否做了什么现在每当我尝试调试时它都会说所有 BCL 内容都没有可用的源代码例如在 debug print 上我收到该消息定位源 f dd ndp fx src CompMod System Diagno
MFCC Python：librosa、python_speech_features、tensorflow.signal 的结果完全不同

我正在尝试从音频 wav 文件中提取 MFCC 特征并且我已经尝试过python speech features and librosa但他们给出了完全不同的结果 audio sr librosa load file sr None l

MFCC Python：librosa、python_speech_features、tensorflow.signal 的结果完全不同

MFCC Python：librosa、python_speech_features、tensorflow.signal 的结果完全不同 的相关文章

随机推荐

热门标签

MFCC Python：librosa、python_speech_features、tensorflow.signal 的结果完全不同的相关文章