声音识别的 ImageNet 诞生了

2023-11-09

转自：https://www.zhihu.com/question/56816282/answer/150639596

谷歌机器感知研究小组（Machine Perception Research）最新发布了一个大规模的音频数据集AudioSet。根据谷歌在官网的介绍，AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2,084,320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图，覆盖广泛的人类和动物声音，乐器和风格以及常见的日常环境声音。发布者写道：通过发布AudioSet，我们希望为音频事件检测提供一个常见的，现实层面的评估，同时开始提供一个全面的声音事件词汇表。

Google发刚刚布的AudioSet数据库在音频处理领域具有重大意义，可以说，AudioSet数据库是音频领域的ImageNet。可以预见，未来几年音频领域将有大量研究和突破。

音频处理一直处于一个比较尴尬的地位，由于缺少大的数据库，所以不能用足够深的深度学习模型。由于缺少商业驱动，音频处理的数据很少。即使是2016年最新的音频分类和检测竞赛DCASE2016[1]也仅仅有数小时的训练数据。远远不够训练复杂的深度学习模型。

与音频处理十分相似的是语音识别，IBM和微软等公司收集了大量数据用于训练语音识别模型。在2000小时的数据集上，IBM和微软分别用LSTM, VGG, ResNet, WateNet, LACE等模型将语音识别错误率降到5%-6%，已经十分接近人的识别准确率了。他们还指出，几小时是训练深度学习所需的最少数据，但也只能搭一个玩具模型，用200小时数据训练可以达到good水平，用2000小时才可以very good水平[2]。

图像，音频，视频这三个领域中，图像已经有了ImageNet这个大数据库。Google最近制作的YouTube-8M数据库和AudioSet数据库填补了音频和视频领域的大数据空白。这两个数据库的来源都是和YouTube网站上的视频。我们可以把这两个数据库和ImageNet比较一下。

ImageNet数据库，包含1500万张图片，22000个类别。其子集对应的是目前最权威的图片分类竞赛LSVRC，包含100万张图片和1000个类别。

YouTube-8M数据库[3]，包含800万个视频，总长度约50年。共4700+个类别。由于数据巨大无比，Google除了给出了下载链接，还把提取好的特征打包好了供使用者下载，特征提取方法是对每秒截图用预训练的CNN最后一层作为特征，总大小也有1.7 TB！进一步还有精简版的特征，提取方法是整个视频所有截图特征的统计量，如均值，方差等，总大小为31 GB。Google非常仁慈地只用线性分类做了一个基准结果，留下的改进空间当然是给别人去做了（然而我等单机狗最多只能跑个线性分类。。）。YouTube-8M对应的竞赛是今年的YouTube-8M视频理解竞赛[4]。

在介绍AudioSet之前，得先提一下Google的一个未公开的数据库YouTube-100M [5]，包含了包含1亿个YouTube视频（但并没指出和YouTube-8M数据库的关系），总长度约600年，包含3万个类别的视频。Google在这个巨大无比的数据库上残暴地直接套用图像识别中的深度学习模型，如Fully connected, AlexNet, VGG, Inception V3和50层ResNet等，在3000类分类的AUC（准确率的一种）达到了92%，把之前小数据集上的方法远远甩在了身后！更无耻的是Google还舔着脸说这是baseline。。

AudioSet数据库[6]，包含200万个10秒音频，总长度5000小时，共527类。音频来源同样是YouTube视频中截取的10秒音频（未指出与YouTube-8M数据库和YouTube-100M数据库的关系）。Google除了提供音频下载链接，同样提供了提取好的特征供下载，特征提取方法是用YouTube-100M预训练的CNN的最后一层作为特征，5000小时音频的特征大小为2.1 GB。对于一般工作者完全可以跑得起来。此外，AudioSet还有一个精简版的子集，仅包含2万个10秒音频，但包含了所有527类音频，每类约60个10秒音频，可以说是麻雀虽小五脏俱全。作为入手再容易不过了！

AudioSet数据集挖了很多坑给研究者们，回顾ImageNet的挖的坑，AudioSet能够预见的坑有* 音频识别, 对应图像分类* 音频事件检测, 对应图像目标检测* 音频分割, 对应图像分割* 音频生成, 对应图像生成* 音频盲源分离问题* 用AudioSet pre-train模型，然后在特定任务和数据集上fine-tune模型参数。* 弱标签学习（weakly label data learning）

* 等等。。

音频处理终于迎来大灌水时期！

[1] Mesaros, Annamaria, Toni Heittola, and Tuomas Virtanen. "TUT database for acoustic scene classification and sound event detection." Signal Processing Conference (EUSIPCO), 2016 24th European. IEEE, 2016.

[2] ICASSP 2017 conference

[3] Abu-El-Haija, Sami, et al. "Youtube-8m: A large-scale video classification benchmark." arXiv preprint arXiv:1609.08675 (2016).

[4] https://research.google.com/youtube8m/

[5] Hershey, Shawn, et al. "CNN Architectures for Large-Scale Audio Classification." arXiv preprint arXiv:1609.09430 (2016).

[6] Gemmeke, Jort F., et al. "Audio Set: An ontology and human-labeled dartaset for audio events." IEEE ICASSP. 2017.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

音频处理

声音识别的 ImageNet 诞生了的相关文章

IDEA2022.3.2创建第一个SpringMVC项目

1 创建Maven的web工程导入相关坐标
错误：【Unable to load DLL 'SQLite.Interop.dll': 找不到指定的模块】解决方法和思路

WinFrom程序错误 Unable to load DLL SQLite Interop dll 找不到指定的模块 Exception from HRESULT 0x8007007E Stack Trace at System Data

随机推荐

PCB信号集中换层

一信号集中换层会引起信号参考平面的改变因此会造成信号回流路径的不连续因此应该尽量避免信号的集中换层能在同一层走线就不要进行换层走线这样可以最大程度减小信号的回路面积减少EMI问题重要思想在低速电路中信号沿着电阻最小的路径
IDEA的JDBC代码配置驱动

一普通项目的JDBC代码配置驱动第一步创建模块点击 File gt new gt Module 第二步打开模块的设置点击 File gt Project Structure 出现以下界面第三步添加 java 的库选择 Li
Java程序员如何加快打怪升级之路

程序员正常的职业走向一般是怎么样的我不能完全的解释只能以身边人的例子来诠释 1 大公司打下手 1 3月代码工 3 8月程序员 1年到项目组长 4年半以上看机遇项目经理 6年以上看机遇 2 小公司代码工 1 3月程序员
ST-GCN 论文解读

论文基于骨骼动作识别的时空图卷积网络摘要主要贡献 ST GCN 基于图的动态骨骼建模通用公式 1 骨架图构建 1 1 节点集 V V V 1 2 边集
前端面试0906

请给出输出结果 function foo console log a function bar var a 3 console log this a foo var a 2 bar 2 2 请从下面的问题中挑选3道进行回答 1 防抖和节流分
Python实现超简单【抖音】无水印视频批量下载

前言本文的文字及图片来源于网络仅供学习交流使用不具有任何商业用途版权归原作者所有如有问题请及时联系我们以作处理作者 python乱炖 PS 如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资
Vue前端实现excel的导入、导出、打印功能

目录一相关依赖下载二 excel导入功能三 table导出excel表格 1 导出行数据 2 导出table数据也会导出合并单元格 3 导出二维数据的table数据 4 导出合并单元格table数据四 table导出excel表
计算机视觉编程——OpenCV

文章目录 OpenCV 1 OpenCV的Python接口 2 OpenCV基础知识 2 1 读取和写入图像 2 2 颜色空间 2 3 显示图像及结果 3 处理视频 3 1 视频输入 3 2 将视频读取到NumPy数组 4 跟踪 4 1 光
用台式机搭建服务器测试环境_2020年十大最佳台式机环境

用台式机搭建服务器测试环境 For all the Linux fans out there let s have some of the most beautiful customizable feature rich and the b
k8s滚动升级_kubernetes（k8s）Deployment滚动升级和回滚

滚动升级示例yaml apiVersion apps v1 kind Deployment metadata name nginx deploy labels k8s app nginx demo spec selector matchL
UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount()【已解决】

报错 PS C Users example gt python Python 3 8 0 default Nov 6 2019 16 00 02 MSC v 1916 64 bit AMD64 Anaconda Inc on win32 T
程序员过了35岁以后，到底应该怎么走才能保证自己不失业？

目录市场对 35 岁以上的程序员是否有就业偏见为什么会出现对 35 岁程序员的一些偏见呢程序员 35 岁的破局之道大家好今天给大家聊聊目前程序员就业市场上普遍对所谓的 35 岁码农的偏见问题以及对于大龄程序员的破局之道市场对
压测工具哪个好？LoadRunner、Jmeter、Locust、Wrk 全方位对比....

当你想做性能测试的时候你会选择什么样的测试工具呢是会选择wrk jmeter locust 还是loadrunner呢今天笔者将根据自己使用经验针对jmeter locust wrk和loadrunner常用的性能测试工具进行简单
git提交用户显示错误

问题假设 A B两个用户 A代码写好提交到git git commit显示A提交但是git activity却显示是B提交的也就是git提交人信息显示不对说明这在多人共同使用开发机的场景下非常容易出现git提交信息显示的提交人不对
谷歌浏览器版本查看方法

guge版本查看方法
GDB【5】-嵌入式平台xxx-linux-gdb远程调试动态库

1 下位机准备工作下位机调试启动脚本 bin bash version 01 00 0005 NAND PATH nandflash LIB PATH NAND PATH lib BIN PATH NAND PATH bin CFG PA
微信小程序修改顶部通知栏字体颜色，手机电量时间.....。

我用的是Taro多端编译写的小程序原生的换成wx setNavigationBarColor即可 Taro setNavigationBarColor frontColor ffffff backgroundColor 1c2060 an
各种协议和HTTP协议之间的关系！！！

Tips 他们之间主要是TCP IP和HTTP的关系当想要访问一个网址时 1 DNS解析获取到访问服务器的IP 2 HTTP生成请求报文请求请求访问页面资源 3 TCP协议将报文切割成一份一份报文段后以可靠的方式进行传输 4 IP协
把notepad++添加到鼠标右键

1 首先你的桌面上创建一个txt文件在文件里添加下面的内容 Windows Registry Editor Version 5 00 HKEY CLASSES ROOT Shell 使用NotePad 编辑 HKEY CLASSES RO
声音识别的 ImageNet 诞生了

转自 https www zhihu com question 56816282 answer 150639596 谷歌机器感知研究小组 Machine Perception Research 最新发布了一个大规模的音频数据集AudioSe

声音识别的 ImageNet 诞生了

声音识别的 ImageNet 诞生了 的相关文章

随机推荐

热门标签

声音识别的 ImageNet 诞生了的相关文章