我每天通过互联网录制 2 分钟的广播。总是有相同的开始和结束歌曲。由于广播的确切时间可能会有所不同,或多或少有 6 分钟,因此我必须录制大约 15 分钟的广播。
我希望确定这些歌曲在 15 分钟记录中出现的确切时间,这样我就可以提取我想要的音频部分。
我已经启动了一个 C# 应用程序,在其中将 MP3 解码为 PCM 数据,并将 PCM 数据转换为基于以下内容的频谱图:http://www.codeproject.com/KB/audio-video/SoundCatcher.aspx
我尝试对 PCM 数据使用互相关算法,但该算法非常慢,大约需要 6 分钟,步长为 10 毫秒,并且有时无法找到叮当声开始时间。
有什么算法可以比较两个频谱图的匹配吗?或者找到叮当声开始时间的更好方法?
Thanks,
更新,抱歉延迟了
首先,感谢所有答案,其中大多数都是相关和/或有趣的想法。
我尝试实现fonzo提出的Shazam算法。但未能检测到频谱图中的峰值。这是来自三张不同唱片的起始歌曲的三个频谱图。我尝试使用 AForge.NET 和 blob 过滤器(但它无法识别峰值),模糊图像并检查高度差异,拉普拉斯卷积,斜率分析,检测一系列垂直条(但有太多错误积极的)...
同时,我尝试了Dave Aaron Smith提出的Hough算法。我计算每列的 RMS。是的,每列,它是 O(N*M) 但 M
我可以采用该解决方案,但如果可能的话,我更喜欢 Shazam,因为它的 O(N) 并且可能更快(也更酷)。那么,你们中的任何人是否知道一种算法来始终检测这些频谱图中的相同点(不一定是峰值),感谢添加评论。
新更新
最后,我采用了上面解释的算法,尝试实现 Shazam 算法,但未能在声谱图中找到适当的峰值,即从一个声音文件到另一个声音文件所识别的点不是恒定的。理论上,Shazam 算法就是此类问题的解决方案。 Dave Aaron Smith 提出的 Hough 算法更加稳定有效。我分割了大约 400 个文件,其中只有 20 个无法正确分割。磁盘空间从 8GB 到 1GB。
感谢您的帮助。