声音识别的 ImageNet 诞生了

2023-11-09

转自:https://www.zhihu.com/question/56816282/answer/150639596

谷歌机器感知研究小组(Machine Perception Research)最新发布了一个大规模的音频数据集AudioSet。根据谷歌在官网的介绍,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2,084,320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。发布者写道:通过发布AudioSet,我们希望为音频事件检测提供一个常见的,现实层面的评估,同时开始提供一个全面的声音事件词汇表。


Google发刚刚布的AudioSet数据库在音频处理领域具有重大意义,可以说,AudioSet数据库是音频领域的ImageNet。可以预见,未来几年音频领域将有大量研究和突破。

音频处理一直处于一个比较尴尬的地位,由于缺少大的数据库,所以不能用足够深的深度学习模型。由于缺少商业驱动,音频处理的数据很少。即使是2016年最新的音频分类和检测竞赛DCASE2016[1]也仅仅有数小时的训练数据。远远不够训练复杂的深度学习模型。

与音频处理十分相似的是语音识别,IBM和微软等公司收集了大量数据用于训练语音识别模型。在2000小时的数据集上,IBM和微软分别用LSTM, VGG, ResNet, WateNet, LACE等模型将语音识别错误率降到5%-6%,已经十分接近人的识别准确率了。他们还指出,几小时是训练深度学习所需的最少数据,但也只能搭一个玩具模型,用200小时数据训练可以达到good水平,用2000小时才可以very good水平[2]。

图像,音频,视频这三个领域中,图像已经有了ImageNet这个大数据库。Google最近制作的YouTube-8M数据库和AudioSet数据库填补了音频和视频领域的大数据空白。这两个数据库的来源都是和YouTube网站上的视频。我们可以把这两个数据库和ImageNet比较一下。

ImageNet数据库,包含1500万张图片,22000个类别。其子集对应的是目前最权威的图片分类竞赛LSVRC,包含100万张图片和1000个类别。

YouTube-8M数据库[3],包含800万个视频,总长度约50年。共4700+个类别。由于数据巨大无比,Google除了给出了下载链接,还把提取好的特征打包好了供使用者下载,特征提取方法是对每秒截图用预训练的CNN最后一层作为特征,总大小也有1.7 TB!进一步还有精简版的特征,提取方法是整个视频所有截图特征的统计量,如均值,方差等,总大小为31 GB。Google非常仁慈地只用线性分类做了一个基准结果,留下的改进空间当然是给别人去做了(然而我等单机狗最多只能跑个线性分类。。)。YouTube-8M对应的竞赛是今年的YouTube-8M视频理解竞赛[4]。

在介绍AudioSet之前,得先提一下Google的一个未公开的数据库YouTube-100M [5],包含了包含1亿个YouTube视频(但并没指出和YouTube-8M数据库的关系),总长度约600年,包含3万个类别的视频。Google在这个巨大无比的数据库上残暴地直接套用图像识别中的深度学习模型,如Fully connected, AlexNet, VGG, Inception V3和50层ResNet等,在3000类分类的AUC(准确率的一种)达到了92%,把之前小数据集上的方法远远甩在了身后!更无耻的是Google还舔着脸说这是baseline。。

AudioSet数据库[6],包含200万个10秒音频,总长度5000小时,共527类。音频来源同样是YouTube视频中截取的10秒音频(未指出与YouTube-8M数据库和YouTube-100M数据库的关系)。Google除了提供音频下载链接,同样提供了提取好的特征供下载,特征提取方法是用YouTube-100M预训练的CNN的最后一层作为特征,5000小时音频的特征大小为2.1 GB。对于一般工作者完全可以跑得起来。此外,AudioSet还有一个精简版的子集,仅包含2万个10秒音频,但包含了所有527类音频,每类约60个10秒音频,可以说是麻雀虽小五脏俱全。作为入手再容易不过了!

AudioSet数据集挖了很多坑给研究者们,回顾ImageNet的挖的坑,AudioSet能够预见的坑有* 音频识别, 对应图像分类* 音频事件检测, 对应图像目标检测* 音频分割, 对应图像分割* 音频生成, 对应图像生成* 音频盲源分离问题* 用AudioSet pre-train模型,然后在特定任务和数据集上fine-tune模型参数。* 弱标签学习(weakly label data learning)

* 等等。。

音频处理终于迎来大灌水时期!


[1] Mesaros, Annamaria, Toni Heittola, and Tuomas Virtanen. "TUT database for acoustic scene classification and sound event detection." Signal Processing Conference (EUSIPCO), 2016 24th European. IEEE, 2016.

[2] ICASSP 2017 conference

[3] Abu-El-Haija, Sami, et al. "Youtube-8m: A large-scale video classification benchmark." arXiv preprint arXiv:1609.08675 (2016).

[4] https://research.google.com/youtube8m/

[5] Hershey, Shawn, et al. "CNN Architectures for Large-Scale Audio Classification." arXiv preprint arXiv:1609.09430 (2016).

[6] Gemmeke, Jort F., et al. "Audio Set: An ontology and human-labeled dartaset for audio events." IEEE ICASSP. 2017. 


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

声音识别的 ImageNet 诞生了 的相关文章

随机推荐

  • PCB信号集中换层

    一 信号集中换层 会引起信号参考平面的改变 因此会造成信号回流路径的不连续 因此应该尽量避免信号的集中换层 能在同一层走线就不要进行换层走线 这样可以最大程度减小信号的回路面积 减少EMI问题 重要思想 在低速电路中 信号沿着电阻最小的路径
  • IDEA的JDBC代码配置驱动

    一 普通项目的JDBC代码配置驱动 第一步 创建模块 点击 File gt new gt Module 第二步 打开模块的设置 点击 File gt Project Structure 出现以下界面 第三步 添加 java 的库 选择 Li
  • Java程序员如何加快打怪升级之路

    程序员正常的职业走向一般是怎么样的 我不能完全的解释 只能以身边人的例子来诠释 1 大公司 打下手 1 3月 代码工 3 8月 程序员 1年到 项目组长 4年半以上 看机遇 项目经理 6年以上 看机遇 2 小公司 代码工 1 3月 程序员
  • ST-GCN 论文解读

    论文 基于骨骼动作识别的时空图卷积网络 摘要 主要贡献 ST GCN 基于图的动态骨骼建模通用公式 1 骨架图构建 1 1 节点集 V V V 1 2 边集
  • 前端面试0906

    请给出输出结果 function foo console log a function bar var a 3 console log this a foo var a 2 bar 2 2 请从下面的问题中挑选3道进行回答 1 防抖和节流分
  • Python实现超简单【抖音】无水印视频批量下载

    前言 本文的文字及图片来源于网络 仅供学习 交流使用 不具有任何商业用途 版权归原作者所有 如有问题请及时联系我们以作处理 作者 python乱炖 PS 如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资
  • Vue前端实现excel的导入、导出、打印功能

    目录 一 相关依赖下载 二 excel导入功能 三 table导出excel表格 1 导出行数据 2 导出table数据 也会导出合并单元格 3 导出二维数据的table数据 4 导出合并单元格table数据 四 table导出excel表
  • 计算机视觉编程——OpenCV

    文章目录 OpenCV 1 OpenCV的Python接口 2 OpenCV基础知识 2 1 读取和写入图像 2 2 颜色空间 2 3 显示图像及结果 3 处理视频 3 1 视频输入 3 2 将视频读取到NumPy数组 4 跟踪 4 1 光
  • 用台式机搭建服务器测试环境_2020年十大最佳台式机环境

    用台式机搭建服务器测试环境 For all the Linux fans out there let s have some of the most beautiful customizable feature rich and the b
  • k8s滚动升级_kubernetes(k8s)Deployment滚动升级和回滚

    滚动升级 示例yaml apiVersion apps v1 kind Deployment metadata name nginx deploy labels k8s app nginx demo spec selector matchL
  • UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount()【已解决】

    报错 PS C Users example gt python Python 3 8 0 default Nov 6 2019 16 00 02 MSC v 1916 64 bit AMD64 Anaconda Inc on win32 T
  • 程序员过了35岁以后,到底应该怎么走才能保证自己不失业?

    目录 市场对 35 岁以上的程序员是否有就业偏见 为什么会出现对 35 岁程序员的一些偏见呢 程序员 35 岁的破局之道 大家好 今天给大家聊聊目前程序员就业市场上普遍对所谓的 35 岁码农的偏见问题 以及对于大龄程序员的破局之道 市场对
  • 压测工具哪个好?LoadRunner、Jmeter、Locust、Wrk 全方位对比....

    当你想做性能测试的时候 你会选择什么样的测试工具呢 是会选择wrk jmeter locust 还是loadrunner呢 今天 笔者将根据自己使用经验 针对jmeter locust wrk和loadrunner常用的性能测试工具进行简单
  • git提交用户显示错误

    问题 假设 A B两个用户 A代码写好提交到git git commit显示A提交 但是git activity却显示是B提交的 也就是git提交人信息显示不对 说明 这在多人共同使用开发机的场景下非常容易出现git提交信息显示的提交人不对
  • 谷歌浏览器版本查看方法

    guge版本查看方法
  • GDB【5】-嵌入式平台xxx-linux-gdb远程调试动态库

    1 下位机准备工作 下位机调试启动脚本 bin bash version 01 00 0005 NAND PATH nandflash LIB PATH NAND PATH lib BIN PATH NAND PATH bin CFG PA
  • 微信小程序修改顶部通知栏字体颜色,手机电量时间.....。

    我用的是Taro多端编译写的小程序 原生的换成wx setNavigationBarColor即可 Taro setNavigationBarColor frontColor ffffff backgroundColor 1c2060 an
  • 各种协议和HTTP协议之间的关系!!!

    Tips 他们之间主要是TCP IP和HTTP的关系 当想要访问一个网址时 1 DNS解析 获取到访问服务器的IP 2 HTTP生成请求报文请求 请求访问页面资源 3 TCP协议将报文切割成一份一份报文段后 以可靠的方式进行传输 4 IP协
  • 把notepad++添加到鼠标右键

    1 首先你的桌面上创建一个txt文件 在文件里添加下面的内容 Windows Registry Editor Version 5 00 HKEY CLASSES ROOT Shell 使用NotePad 编辑 HKEY CLASSES RO
  • 声音识别的 ImageNet 诞生了

    转自 https www zhihu com question 56816282 answer 150639596 谷歌机器感知研究小组 Machine Perception Research 最新发布了一个大规模的音频数据集AudioSe