Google发刚刚布的AudioSet数据库在音频处理领域具有重大意义,可以说,AudioSet数据库是音频领域的ImageNet。可以预见,未来几年音频领域将有大量研究和突破。
音频处理一直处于一个比较尴尬的地位,由于缺少大的数据库,所以不能用足够深的深度学习模型。由于缺少商业驱动,音频处理的数据很少。即使是2016年最新的音频分类和检测竞赛DCASE2016[1]也仅仅有数小时的训练数据。远远不够训练复杂的深度学习模型。
与音频处理十分相似的是语音识别,IBM和微软等公司收集了大量数据用于训练语音识别模型。在2000小时的数据集上,IBM和微软分别用LSTM, VGG, ResNet, WateNet, LACE等模型将语音识别错误率降到5%-6%,已经十分接近人的识别准确率了。他们还指出,几小时是训练深度学习所需的最少数据,但也只能搭一个玩具模型,用200小时数据训练可以达到good水平,用2000小时才可以very good水平[2]。
图像,音频,视频这三个领域中,图像已经有了ImageNet这个大数据库。Google最近制作的YouTube-8M数据库和AudioSet数据库填补了音频和视频领域的大数据空白。这两个数据库的来源都是和YouTube网站上的视频。我们可以把这两个数据库和ImageNet比较一下。
ImageNet数据库,包含1500万张图片,22000个类别。其子集对应的是目前最权威的图片分类竞赛LSVRC,包含100万张图片和1000个类别。
YouTube-8M数据库[3],包含800万个视频,总长度约50年。共4700+个类别。由于数据巨大无比,Google除了给出了下载链接,还把提取好的特征打包好了供使用者下载,特征提取方法是对每秒截图用预训练的CNN最后一层作为特征,总大小也有1.7 TB!进一步还有精简版的特征,提取方法是整个视频所有截图特征的统计量,如均值,方差等,总大小为31 GB。Google非常仁慈地只用线性分类做了一个基准结果,留下的改进空间当然是给别人去做了(然而我等单机狗最多只能跑个线性分类。。)。YouTube-8M对应的竞赛是今年的YouTube-8M视频理解竞赛[4]。
在介绍AudioSet之前,得先提一下Google的一个未公开的数据库YouTube-100M [5],包含了包含1亿个YouTube视频(但并没指出和YouTube-8M数据库的关系),总长度约600年,包含3万个类别的视频。Google在这个巨大无比的数据库上残暴地直接套用图像识别中的深度学习模型,如Fully connected, AlexNet, VGG, Inception V3和50层ResNet等,在3000类分类的AUC(准确率的一种)达到了92%,把之前小数据集上的方法远远甩在了身后!更无耻的是Google还舔着脸说这是baseline。。
AudioSet数据库[6],包含200万个10秒音频,总长度5000小时,共527类。音频来源同样是YouTube视频中截取的10秒音频(未指出与YouTube-8M数据库和YouTube-100M数据库的关系)。Google除了提供音频下载链接,同样提供了提取好的特征供下载,特征提取方法是用YouTube-100M预训练的CNN的最后一层作为特征,5000小时音频的特征大小为2.1 GB。对于一般工作者完全可以跑得起来。此外,AudioSet还有一个精简版的子集,仅包含2万个10秒音频,但包含了所有527类音频,每类约60个10秒音频,可以说是麻雀虽小五脏俱全。作为入手再容易不过了!
AudioSet数据集挖了很多坑给研究者们,回顾ImageNet的挖的坑,AudioSet能够预见的坑有* 音频识别, 对应图像分类* 音频事件检测, 对应图像目标检测* 音频分割, 对应图像分割* 音频生成, 对应图像生成* 音频盲源分离问题* 用AudioSet pre-train模型,然后在特定任务和数据集上fine-tune模型参数。* 弱标签学习(weakly label data learning)
* 等等。。
音频处理终于迎来大灌水时期!
[1] Mesaros, Annamaria, Toni Heittola, and Tuomas Virtanen. "TUT database for acoustic scene classification and sound event detection." Signal Processing Conference (EUSIPCO), 2016 24th European. IEEE, 2016.
[2] ICASSP 2017 conference
[3] Abu-El-Haija, Sami, et al. "Youtube-8m: A large-scale video classification benchmark." arXiv preprint arXiv:1609.08675 (2016).
[4] https://research.google.com/youtube8m/
[5] Hershey, Shawn, et al. "CNN Architectures for Large-Scale Audio Classification." arXiv preprint arXiv:1609.09430 (2016).
[6] Gemmeke, Jort F., et al. "Audio Set: An ontology and human-labeled dartaset for audio events." IEEE ICASSP. 2017.