我有一个概念问题。
我知道什么是梅尔标度以及它代表什么,而且我知道这种频谱图仍然包含太多我需要的信息。
我认为如果我们想减少频谱图的信息数量,我们可以使用 MFCC。
但我实在不明白MFCC是什么以及它代表什么?
我在语音识别过程中使用 MFCC 矩阵,但我不明白该向量内的所有数字代表什么。
该数组是 13x130,我不知道所有这些浮点是什么意思。我知道我的音轨越长,我的矩阵就越大(例如 13x250、13x400)。
我希望我能说清楚。
None
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)