乔宇：深度模型让机器理解场景

2023-11-06

点击上方“深度学习大讲堂”可订阅哦！

编者按：所谓场景，无论是“万家灯火”亦或是“巴山夜雨”，于人是一种直观自然的感受；然而，对于机器而言，再多的温情脉脉，都也只是计算机世界冰冷的二进制符号。这区别的背后，其实是人在成长过程中形成的对世界的认知与理解。因此，让机器学会去准确地理解场景、理解世界，是视觉智能的一个重要标志。在本文中，来自中科院的乔宇研究员，将为大家介绍面向大规模场景分类的深度学习模型，通过三部分详尽的工作介绍，为我们揭开场景分类问题神秘的面纱。大讲堂在文末特别提供文中提及所有文章和代码的下载链接。

计算机视觉领域有几个基本问题:

图像中有什么，即物体的识别和检测；
图像是在哪里拍摄的，即环境的识别，通常将其定义为场景分类问题，这也是今天要讲的主题；
在图像或者视频中发生着什么样的行为和事件，即行为识别问题。

为什么用深度学习方法？

在过去的五年时间中，深度学习方法极大地推动了计算机视觉技术的发展。在这里我列出了物体识别、场景分类和行为识别领域三个广泛使用数据集的效果，其中蓝色的柱状图表示非深度学习方法的结果，红色的柱状图表示深度学习方法的结果，可以看到在这三个问题中深度学习方法都取得了比传统方法更好的结果。

另一方面，随着深度学习自身的发展，其在各个问题上的性能也有非常快速的增长。这也是为什么在深度学习领域会吸引很多工业界的人士参与，因为当我们的技术好到一定程度时，可以在工业界进行大规模的应用，可以很好地解决实际的问题。

其中最有名的一个例子就是 ImageNet 竞赛，其包含100多万张图片共1000个类别。这个竞赛是由李飞飞在2010年开启的，可以看到在2010年和2011年的 top-5错误率还是相当高的。到了2012年，Hinton 的研究组第一次使用深度卷积神经网络来解决这一问题，将 top-5错误率降低到十几个百分点，之后每年也会有明显的降低，到2015年其 top-5错误率已经达到了3.5%，甚至超越了人类的识别能力。

场景识别

图像识别和理解的另一个问题就是场景识别。场景识别和物体识别的确具有很大的相关性，场景中包含的物体对于场景的类别具有很大的影响；但是场景的类别不仅仅取决于物体，它实际上是由各个语义区域及其层级结构和空间布局决定的。所以场景识别与物体识别既有相关性又有不同点，之后我会讲到如何利用这些不同点针对场景识别的特点来设计新的深度模型以提高其识别率。

场景识别领域的数据集一览

很多计算机视觉的问题都是与数据集紧密联系的，在过去的十年中场景领域出现了很多数据集，这里我列出了较为有名的一些数据集。

较早的是2006年的 Scene15，只有几千张图片和15个类别，之后其被扩展为 MIT Indoor 和 MIT Outdoor 这两个数据集。随着时间的发展，新的数据集也变得越来越完善，数据量可以达到千万的级别。可以看到各个大数据集的识别率还不是很高，与物体识别如ImageNet的识别率相比还存在着比较大的差距。从这个意义上讲，场景识别要比物体识别更难，其识别率还有很大的提升空间。

Place2 Scene Dataset

现在用的比较多的场景识别数据集是 Place，由麻省理工学院的研究组创立，并且在2015年和2016年都举行了相应的竞赛，我们团队也参加这些竞赛，并取得了较好的名次。这个数据库含有365个类别，但是每个类别具有的图片数目相差很大，共800多万张训练图片和30多万张测试图片，其数据规模是大于 ImageNet 数据集的。根据对这个数据集训练得到的模型，我们发现其与 ImageNet 数据集具有很大的差异，同时也具有很强的互补性。

场景识别的难点

场景识别的难点在于类内的差异性和类间的相似性。比如图中的“厨房”这个场景就具有很多不同的表现形式，同一个场景中出现的物体会非常多样，这就是类内的差异性。还有一些非常相似的来自不同类别的场景，比如图中的“cubicle office”和”office cubicles“却几乎无法分辨，这就是类间的相似性。

第一部分工作:更好地利用卷积层特征

我们用深度学习方法在场景识别这个任务上做了一些工作，下面分别介绍。我们发现对于场景分类这个任务而言其卷积层特征提供了很多有用的信息，这些卷积层特征可以看作是很多语义区域的检测器，提供了很丰富的图像信息，而且其空间布局也非常有用。

在我们使用全连接层对其进行处理时这些信息会丢失，因为卷积层特征的维度比全连接层的维度高很多。我们希望能更好的使用这些卷积层信息，所以设计了一种卷积特征编码的方法，并将其与全连接特征进行组合，这样组合得到的结果在几乎所有的数据集上都能提升识别性能。

既然卷积层特征很有用，那么我们是否能进一步增强卷积特征呢？在卷积神经网络的训练中，这些特征与监督loss函数比较远，在进行反向传播时需要经过很多层才能将梯度传播到这些卷积层中。这有可能会影响卷积特征的判别能力。为解决这些问题，我们设计了特殊结构使得监督信息能够更为直接作用于卷积层，这样可以进一步提高场景识别的准确率。这是我们在 TIP2017上的一个工作。

第二部分工作：使用一个卷积网络直接对图像块处理

每个卷积特征都会有一定的感受野对应原图中的一个图像块，那么既然卷积特征有用，我们能不能直接使用这些图像块来训练网络呢？

这就启发我们做了第二个工作。我们使用一个卷积网络直接对图像块进行处理，这里一个问题是如何给定图像块的标签。因为场景的类别更加抽象，如果直接赋予图像块相同的标签是不合理的。

所以我们使用了一些折中的方法：

一方面，使用 ImageNet dataset 预训练的网络来在图像块上进行训练；
另一方面，把场景类别和物体类别使用弱监督方法进行训练。
最后，再将这些图像块得到的特征编码后进行组合得到最终的特征。

第三部分工作：改进监督信息

我们的第三个工作是对监督信息进行改进。我们发现相同的场景之间的差别非常大，而不同的场景之间也会具有很大的相似性，这些会对深度网络的监督学习产生干扰。但是对于人来说识别场景非常简单，这是因为人具有很多先验知识，这些知识体现在对物体的识别上。受到这种启发，我们将从其他数据集中学习到的知识迁移到场景识别这个任务中，并且得到了很好的实验结果。我们认为对于知识的使用将会对计算机视觉任务产生很有益的影响。

锦囊妙计：图像多尺度变换

除此之外，我们发现多尺度对于场景识别是很重要的。我们对同一张图像的不同尺寸训练不同的网络，提升图像的多尺度网络之间的互补性，以进一步提高场景识别的准确率。我们在多个数据库上都取得了最好的结果。

竞赛大舞台

我们参加了很多场景识别领域的国际竞赛，都取得了很好的结果，这也部分验证所提出方法的有效性。

结论

场景分类是一个很具有挑战性的开放性问题，如果单从识别率看，相比物体分类还具有很大的发展空间。如果想要获得更好的性能，场景的全局信息和局部信息都非常重要，如何使用局部的物体语义区域信息和对全局结构进行建模，以及对知识等的运用将是场景识别任务发展的重点。

文中引用文章的下载链接为： http://pan.baidu.com/s/1i5pBxZZ

致谢：

本文主编袁基睿，诚挚感谢志愿者杨茹茵、范琦、李珊如对本文进行了细致的整理工作

该文章属于“深度学习大讲堂”原创，如需要转载，请联系 astaryst。

作者信息：

作者简介：

乔宇，中科院深圳先进技术研究院研究员，集成所所长副所长，博士生导师。入选中国科学院“百人计划”，深圳市“孔雀计划”海外高层次人才，广东省引进创新团队的核心成员。研究兴趣包括计算机视觉、深度学习、机器人等。已在包括IEEE T-PAMI，IJCV，IEEE Trans. on Image Processing，IEEE Trans. on Signal Processing，CVPR，ICCV，ECCV，AAAI等会议和期刊上发表学术论文110余篇。获卢嘉锡人才奖。带领团队多次在ChaLearn，LSun，THUMOUS，ACTIVITYNet等国际评测中取得第一，获ImageNet 2016场景分类任务第二名。主持国家重大研究计划子课题，国家自然科学基金重点、中国科学院国际合作重点，粤港合作，深圳市基金研究“杰青”、日本学术振兴会等资助的多个项目。

VALSE是视觉与学习青年学者研讨会的缩写，该研讨会致力于为计算机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者提供一个深层次学术交流的舞台。2017年4月底，VALSE2017在厦门圆满落幕，近期大讲堂将连续推出VALSE2017特刊。VALSE公众号为：VALSE，欢迎关注。

往期精彩回顾

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

沈春华：如何窥一斑而知全豹--Dense Per Pixel Prediction | VALSE2017之九

饮水思源--浅析深度学习框架设计中的关键技术

毕彦超：物体识别与物体知识表征的认知神经基础| VALSE2017之八

人脸检测与识别年度进展概述

欢迎关注我们！

深度学习大讲堂是由中科视拓运营的高质量原创内容平台，邀请学术界、工业界一线专家撰稿，致力于推送人工智能与深度学习最新技术、产品和活动信息！

中科视拓（SeetaTech）将秉持“开源开放共发展”的合作思路，为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务，帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。

中科视拓目前正在招聘：人脸识别算法研究员，深度学习算法工程师，GPU研发工程师， C++研发工程师，Python研发工程师，嵌入式视觉研发工程师，运营经理。有兴趣可以发邮件至：hr@seetatech.com，想了解更多可以访问，www.seetatech.com

中科视拓

深度学习大讲堂

点击阅读原文打开中科视拓官方网站

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

乔宇：深度模型让机器理解场景的相关文章

[网络安全自学篇] 四十六.微软证书安全问题 (上)Windows验证机制及可执行文件签名问题

在分享本篇文章之前先简单聊聊我学习网络安全和系统安全的感受半年来作为网络安全的初学者我写了近50篇安全的文章从Web渗透到CTF 从二进制分析到恶意代码检测从CVE漏洞还原到木马病毒及论文但还是觉得自己非常菜至今未进入安全圈
token做自动登录

token 身份验证 token 前端自动登录 OpenSSL perl软件安装 https blog csdn net sunhuansheng article details 82218678 OpenSSl Perl这个软件安装无要求
vs2015安装_VS2015安装教程

1 vs2015下载地址 https visualstudio microsoft com zh hans downloads 下载完后解压软件后以管理员身份运行右图的文件 2 开始安装后会出现等待界面可能需要几分钟 3 初始化安装程序
Python的学习笔记案例6--判断密码强度5.0

本节课主要讲原来分散的方法封装成一个类使之成为一个整体方便调用就是面向对象编程的思想 1 面向过程编程和面向对象编程的区别面向过程 POP 以程序执行过程为设计流程的编程思想面向对象 OOP 以事物为中心的编程思想什么是对象 O
服务器响应的jsp文件,JSP服务器响应

JSP服务器响应 Response响应对象主要将JSP容器处理后的结果传回到客户端可以通过response变量设置HTTP的状态和向客户端发送数据如Cookie HTTP文件头信息等一个典型的响应看起来就像下面这样 HTTP 1 1
OpenSceneGraph-OpenSceneGraph-3.6.5源码编译

前言准备 git 不是必须使用git得到的源码是3 6 5版本的 CMake vs2019 VS017可以我这里用的vs2019 osg主页源码下载 Cmake编译源码编译报错 CMake Warning dev at F Pro
SDWebImage 笔记

SDWebImage托管在github上 https github com rs SDWebImage 这个类库提供一个UIImageView类别以支持加载来自网络的远程图片具有缓存管理异步下载同一个URL下载次数控制和优化等特征使
A股上市有什么条件？A股上市条件有哪些？

A股的上市条件有这几点一资格要求 1 发行人应当是依法设立且合法存续的股份有限公司经国务院批准有限责任公司在依法变更为股份有限公司时可以采取募集设立方式公开发行股票 2 发行人自股份有限公司成立后持续经营时间应当在3年以上但经
【Web架构】使用 JSON API 的好处

在 API 工艺的世界里没有比设计更受热议的领域了从 REST gRPC 到 GraphQL 有许多方法可以设计和标准化 Web API 交互今天我们将注意力转向另一种方法 JSON API JSONAPI org 上详细介绍的用于
java字符数组初始化_Java 字符串（一）字符串初始化

一 String类概述 1 概述 java lang String类代表字符串 Java程序中所有的字符串文字例如 abc 都可以被看作是实现此类的实例 String 是引用数据类型不是基本数据类型类String 中包括用于检查各个字
CVE-2021-30116: Kaseya VSA 远程代码执行漏洞通告

报告编号 B6 2021 070601 报告来源 360CERT 报告作者 360CERT 更新日期 2021 07 06 0x01 漏洞简述 2021年07月06日 360CERT监测发现Kaseya发布了VSA管理软件的风险通告漏洞等
春秋云镜靶场挑战——Tsclient

目标IP 39 98 73 212 网络拓扑入口机器 1 使用namp对目标IP进行扫描发现目标开放了1433端口 MSSQL服务 3389端口 RDP服务 2 可以先爆破MSSQL服务如下可以看出成爆破出密码 3 使用MDUT工具连
Leetcode168. Excel表列名称

力扣 LeetCode 官网全球极客挚爱的技术成长平台题解力扣 LeetCode 官网全球极客挚爱的技术成长平台代码如下 class Solution public String convertToTitle int column
【华为机试题解】奥特曼打怪兽

大概题意在一个N N的正方形区域每个小格可能有三种状态值为0 正常可通过值为1 奥特曼可通过同时还可以消灭怪兽消灭后值变为0 消灭怪兽数量 1 值为 1 有大石头奥特曼无法通过奥特曼需要先从上往下走这个过程只能向下或者向右
正则表达式替换多个相同的连续字符串为一个字符串

要替换的字符串 http localhost 9010 asqmasqm manage user 需要替换多个连续asqm为一个asqm 正则表达式 asqm 1 g 1 替换结果为 http localhost 9010 asqm man
Fedora 17 安装 ACE6.1

下载下载地址 http download dre vanderbilt edu 下载ACE 6 1 0 tar bz2 这个软件包只包含ACE 不包含TAO等附加的东西另外bz2压缩格式的源码包比较小只有7 55M 解压 mkdir
若依 vue webpack 打包 tomcat部署刷新404 问题处理思路

1 参考若依官网中的添加WEB INF方法若依文档说明 2 检查 vue config js中的生产环境配置检查publicPath中的路由地址是否为tomcat中的前端路径例如tomcat 的访问路径是localhost 8080
wpsppt设置页码和总页数_wps的ppt页码怎么设置

wps的ppt页码怎么设置 PPT中如何设置页码那你知道吗下面是小编为大家推荐wps的ppt页码设置的内容希望能够帮助到你欢迎大家的阅读参考设置步骤新建一个PPT 选择离子模板然后猛敲回车插入多张PPT页面点击插入
SpringBoot 添加对JSP的支持（附常见坑点）

序言 SpringBoot默认不支持JSP 如果想在项目中使用需要进行相关初始化工作为了方便大家更好的开发本案例可直接作为JSP开发的脚手架工程 SpringBoot War JSP 常见问题 1 修改JSP需重启才能生效在生产环境
Pycharm 使用pip安装包时候报错 no such option --build-dir

Pycharm 使用pip安装包时候报错 no such option build dir 原因 pip版本过高解决办法对pip降级等待pycharm更新即可打开命令行找到python所在的位置输入 pip install pi

随机推荐

Qt中调用C#制作的com组件

作者 billy 版权声明著作权归作者所有商业转载请联系作者获得授权非商业转载请注明出处前言这里记录一下在 Qt 64位程序中调用 C 制作的 com 组件的流程方便后期自己回顾 1 了解 TLB 格式拿到的依赖库最重要的有一
c++四舍五入函数，向上取整，向下取整函数

对含有小数点的数进行四舍五入是比较普遍的一种需求在C 中也有类似的取整函数在C 的头文件中有floor 和ceil 函数在STL中还有round 函数向下取整 floor 向上取整ceil 四舍五入取整round
计算机需要解决的基本问题是,【基本计算机问题】计算机不是遇到非常严重的问题，请看这里解答...

该楼层疑似违规已被系统折叠隐藏此楼查看此楼 5 启动计算机时出现 Invalid Boot ini 无效 Boot ini 或 Windows could not start Windows 无法启动错误信息 Invalid Boot
【C++】可变参数模板

2023年9月9日周六下午这个还是挺难学的我学了好几天在这里我会举大量的示例程序这样可以有一个更好的理解不定期更新目录推荐文章示例程序一拼接字符串示例程序二求整数和示例程序三输出一串整数推荐文章这里有一些不错
[蓝桥杯][2017年第八届真题]分巧克力二分查找 c语言

题目描述儿童节那天有K位小朋友到小明家做客小明拿出了珍藏的巧克力招待小朋友们小明一共有N块巧克力其中第i块是Hi x Wi的方格组成的长方形为了公平起见小明需要从这 N 块巧克力中切出K块巧克力分给小朋友们切出的巧克力需要满足
数据结构-二分搜索树转双向链表（Java）

二分搜索树转双向链表牛客JZ36 题目思路 1 对二分搜索树进行中序遍历 2 将二分搜索树左节点和根节点相连接右节点和根节点相连接遍历左子树连接左子树尾部不为空 leftTail right pRootOfTree pRootO
求字符相似度的广度优先搜索问题请教

有n名选手在玩游戏他们每个人有一个字符每个字符都有自己固定的若干个特征特征的种类数为k 每个人的特征为特征总集的一个子集两个字符的相似度定义为如果两个字符A和B同时拥有某个特征或者同时没有某个特征它们的相似度加一蒜头君想创造出
区块链三加一:去中心化的分布式记账系统

区块链分布式账本技术的发展有利于人们掌控个人信息并通过不变的记录保存服务或产品交易减少对集中系统的依赖而这场革命正在创造一个去中心化的可信环境从而颠覆传统业务区块链技术的核心是分布式记账去中心化不容易篡改比特币等数字货币是区
【PTA】【C语言】判断给定整数是否素数[加强版]

素数是指在大于1的自然数中除了1和它本身以外不能被其他自然数整除的数本题要求编写程序判断从键盘输入的数是否素数如果是素数输出XX is prime number 的信息输出XX is not prime number 的信息
jquery 取值 radio 问题

1 获取选中值三种方法都可以 input radio checked val input type radio checked val input name rd checked val 2 设置第一个Radio为选中值 input ra
android 文字高斯模糊,android高斯模糊

高斯模糊 param context param sentBitmap param radius 0 lt radius lt 25 return SuppressLint NewApi public static Bitmap fastB
【HUAWEI】PPP&PPPoE配合Radius认证配置案例

背景对于在一个大的园区网要保证接入的安全性和合法性有许多种手段对于到端的接入用户可以使用802 1X 对于移动办公人员可以使用SSL 可以配合使用IPS 防火墙上网行为管理等手段不过对于网关分布的网络呢或者说公司合并
如何替代即将淘汰的Flash方案？

欢迎大家前往腾讯云社区获取更多腾讯海量技术实践干货哦本文由MarsBoy发表于云社区专栏导语 Web技术飞速发展的如今我们在感受新技术带来的便捷和喜悦的同时也时常在考虑着一个问题老技术如何迁移正如本文的主题一样 Flash
unity 项目仿cs知识点

一简介 1 人物部分 a 人物移动 b 镜头旋转 c 玩家开枪动画音频枚举弹孔倍镜 2 敌人部分 a 敌人克隆 b 走向玩家距离方向朝向点乘叉乘二人物部分 1 人物移动 CharacterController c
几种主流国产linux操作系统配置pyqt5环境说明

一银河麒麟桌面 pyqt5已安装直接运行就行二银河麒麟服务器 python3 get pip py local bin pip3 install pyqt5 python3 test1 py This application fai
JavaScript中的深拷贝

1 什么是深拷贝浅拷贝只是解决了第一层的拷贝问题拷贝第一层的基本类型值以及第一层的引用类型地址并没有递归拷贝第二层以后的属性深拷贝会拷贝所有的属性拷贝的属性指向动态分配的内存当对象和它所引用的对象一起拷贝时即发生深拷贝深
C语言头插法创建双链表

1 问题描述使用头插法创建双链表 2 与单链表不同的是双链表的结构体中多了一个变量就是指向当前节点的前驱节点这样我们在循环遍历的时候可以通过当前节点的前驱指针找到前驱节点在创建双链表的时候比单链表多了一个步骤就是对于前驱指针的操作
OpenMMLab OpenMMLab mmdeploy v1.1.0模型部署（一）

一 MMDepoly整体框架模型部署是指把机器学习训练生成的算法模型部署到各类云边端设备上去并使之高效运行从而将算法模型实际地应用到现实生活中的各类任务中去从而实现AI 的智能化转型目前我们已经支持 5 个算法库和 5 种
动态规划：国王与金矿

题目解析有一个国家发现了5座金矿每座金矿的黄金储量不同需要参与挖掘的工人数也不同参与挖矿工人的总数是10人每座金矿要么全挖要么不挖不能派出一半人挖取一半金矿要求用程序求解出要想得到尽可能多的黄金应该选择挖取哪几座金矿第
乔宇：深度模型让机器理解场景

点击上方深度学习大讲堂可订阅哦编者按所谓场景无论是万家灯火亦或是巴山夜雨于人是一种直观自然的感受然而对于机器而言再多的温情脉脉都也只是计算机世界冰冷的二进制符号这区别的背后其实是人在成长过程中形成的对世界的认知

乔宇：深度模型让机器理解场景

乔宇：深度模型让机器理解场景 的相关文章

随机推荐

热门标签

乔宇：深度模型让机器理解场景的相关文章