乔宇:深度模型让机器理解场景

2023-11-06

点击上方“深度学习大讲堂”可订阅哦!


编者按:所谓场景,无论是“万家灯火”亦或是“巴山夜雨”,于人是一种直观自然的感受;然而,对于机器而言,再多的温情脉脉,都也只是计算机世界冰冷的二进制符号。这区别的背后,其实是人在成长过程中形成的对世界的认知与理解。因此,让机器学会去准确地理解场景、理解世界,是视觉智能的一个重要标志。在本文中,来自中科院的乔宇研究员,将为大家介绍面向大规模场景分类的深度学习模型,通过三部分详尽的工作介绍,为我们揭开场景分类问题神秘的面纱。大讲堂在文末特别提供文中提及所有文章和代码的下载链接。



计算机视觉领域有几个基本问题:


  1. 图像中有什么,即物体的识别和检测;

  2. 图像是在哪里拍摄的,即环境的识别,通常将其定义为场景分类问题,这也是今天要讲的主题;

  3. 在图像或者视频中发生着什么样的行为和事件,即行为识别问题。


为什么用深度学习方法?


在过去的五年时间中,深度学习方法极大地推动了计算机视觉技术的发展。在这里我列出了物体识别、场景分类和行为识别领域三个广泛使用数据集的效果,其中蓝色的柱状图表示非深度学习方法的结果,红色的柱状图表示深度学习方法的结果,可以看到在这三个问题中深度学习方法都取得了比传统方法更好的结果。

另一方面,随着深度学习自身的发展,其在各个问题上的性能也有非常快速的增长。这也是为什么在深度学习领域会吸引很多工业界的人士参与,因为当我们的技术好到一定程度时,可以在工业界进行大规模的应用,可以很好地解决实际的问题。

其中最有名的一个例子就是 ImageNet 竞赛,其包含100多万张图片共1000个类别。这个竞赛是由李飞飞在2010年开启的,可以看到在2010年和2011年的 top-5错误率还是相当高的。到了2012年,Hinton 的研究组第一次使用深度卷积神经网络来解决这一问题,将 top-5错误率降低到十几个百分点,之后每年也会有明显的降低,到2015年其 top-5错误率已经达到了3.5%,甚至超越了人类的识别能力。



场景识别


图像识别和理解的另一个问题就是场景识别。场景识别和物体识别的确具有很大的相关性,场景中包含的物体对于场景的类别具有很大的影响;但是场景的类别不仅仅取决于物体,它实际上是由各个语义区域及其层级结构和空间布局决定的。所以场景识别与物体识别既有相关性又有不同点,之后我会讲到如何利用这些不同点针对场景识别的特点来设计新的深度模型以提高其识别率。



场景识别领域的数据集一览


很多计算机视觉的问题都是与数据集紧密联系的,在过去的十年中场景领域出现了很多数据集,这里我列出了较为有名的一些数据集。

较早的是2006年的 Scene15,只有几千张图片和15个类别,之后其被扩展为 MIT Indoor  MIT  Outdoor 这两个数据集。随着时间的发展,新的数据集也变得越来越完善,数据量可以达到千万的级别。可以看到各个大数据集的识别率还不是很高,与物体识别如ImageNet的识别率相比还存在着比较大的差距。从这个意义上讲,场景识别要比物体识别更难,其识别率还有很大的提升空间。



Place2 Scene Dataset


现在用的比较多的场景识别数据集是 Place,由麻省理工学院的研究组创立,并且在2015年和2016年都举行了相应的竞赛,我们团队也参加这些竞赛,并取得了较好的名次。这个数据库含有365个类别,但是每个类别具有的图片数目相差很大,共800多万张训练图片和30多万张测试图片,其数据规模是大于 ImageNet 数据集的。根据对这个数据集训练得到的模型,我们发现其与 ImageNet 数据集具有很大的差异,同时也具有很强的互补性。




场景识别的难点


场景识别的难点在于类内的差异性类间的相似性。比如图中的“厨房”这个场景就具有很多不同的表现形式,同一个场景中出现的物体会非常多样,这就是类内的差异性。还有一些非常相似的来自不同类别的场景,比如图中的“cubicle office”和”office cubicles“却几乎无法分辨,这就是类间的相似性。



第一部分工作:更好地利用卷积层特征


我们用深度学习方法在场景识别这个任务上做了一些工作,下面分别介绍。我们发现对于场景分类这个任务而言其卷积层特征提供了很多有用的信息,这些卷积层特征可以看作是很多语义区域的检测器,提供了很丰富的图像信息,而且其空间布局也非常有用。

在我们使用全连接层对其进行处理时这些信息会丢失,因为卷积层特征的维度比全连接层的维度高很多。我们希望能更好的使用这些卷积层信息,所以设计了一种卷积特征编码的方法,并将其与全连接特征进行组合,这样组合得到的结果在几乎所有的数据集上都能提升识别性能。

既然卷积层特征很有用,那么我们是否能进一步增强卷积特征呢?在卷积神经网络的训练中,这些特征与监督loss函数比较远,在进行反向传播时需要经过很多层才能将梯度传播到这些卷积层中。这有可能会影响卷积特征的判别能力。为解决这些问题,我们设计了特殊结构使得监督信息能够更为直接作用于卷积层,这样可以进一步提高场景识别的准确率。这是我们在 TIP2017上的一个工作。



第二部分工作:使用一个卷积网络直接对图像块处理


每个卷积特征都会有一定的感受野对应原图中的一个图像块,那么既然卷积特征有用,我们能不能直接使用这些图像块来训练网络呢?

这就启发我们做了第二个工作。我们使用一个卷积网络直接对图像块进行处理,这里一个问题是如何给定图像块的标签。因为场景的类别更加抽象,如果直接赋予图像块相同的标签是不合理的。

所以我们使用了一些折中的方法:

  1. 一方面,使用 ImageNet dataset 预训练的网络来在图像块上进行训练;

  2. 另一方面,把场景类别和物体类别使用弱监督方法进行训练。

  3. 最后,再将这些图像块得到的特征编码后进行组合得到最终的特征。



第三部分工作:改进监督信息


我们的第三个工作是对监督信息进行改进。我们发现相同的场景之间的差别非常大,而不同的场景之间也会具有很大的相似性,这些会对深度网络的监督学习产生干扰。但是对于人来说识别场景非常简单,这是因为人具有很多先验知识,这些知识体现在对物体的识别上。受到这种启发,我们将从其他数据集中学习到的知识迁移到场景识别这个任务中,并且得到了很好的实验结果。我们认为对于知识的使用将会对计算机视觉任务产生很有益的影响。






锦囊妙计:图像多尺度变换


除此之外,我们发现多尺度对于场景识别是很重要的。我们对同一张图像的不同尺寸训练不同的网络,提升图像的多尺度网络之间的互补性,以进一步提高场景识别的准确率。我们在多个数据库上都取得了最好的结果。




竞赛大舞台


我们参加了很多场景识别领域的国际竞赛,都取得了很好的结果,这也部分验证所提出方法的有效性。



结论


场景分类是一个很具有挑战性的开放性问题,如果单从识别率看,相比物体分类还具有很大的发展空间。如果想要获得更好的性能,场景的全局信息和局部信息都非常重要,如何使用局部的物体语义区域信息和对全局结构进行建模,以及对知识等的运用将是场景识别任务发展的重点。




文中引用文章的下载链接为: http://pan.baidu.com/s/1i5pBxZZ


致谢:

本文主编袁基睿,诚挚感谢志愿者杨茹茵、范琦、李珊如对本文进行了细致的整理工作


该文章属于“深度学习大讲堂”原创,如需要转载,请联系 astaryst。


作者信息:


作者简介:

乔宇,中科院深圳先进技术研究院研究员,集成所所长副所长,博士生导师。入选中国科学院“百人计划”,深圳市“孔雀计划”海外高层次人才,广东省引进创新团队的核心成员。研究兴趣包括计算机视觉、深度学习、机器人等。已在包括IEEE T-PAMI,IJCV,IEEE Trans. on Image Processing,IEEE Trans. on Signal Processing,CVPR,ICCV,ECCV,AAAI等会议和期刊上发表学术论文110余篇。获卢嘉锡人才奖。带领团队多次在ChaLearn,LSun,THUMOUS,ACTIVITYNet等国际评测中取得第一,获ImageNet 2016场景分类任务第二名。主持国家重大研究计划子课题,国家自然科学基金重点、中国科学院国际合作重点,粤港合作,深圳市基金研究“杰青”、日本学术振兴会等资助的多个项目。

VALSE是视觉与学习青年学者研讨会的缩写,该研讨会致力于为计算机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者提供一个深层次学术交流的舞台。2017年4月底,VALSE2017在厦门圆满落幕,近期大讲堂将连续推出VALSE2017特刊。VALSE公众号为:VALSE,欢迎关注。




往期精彩回顾


白翔:趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

沈春华:如何窥一斑而知全豹--Dense Per Pixel Prediction | VALSE2017之九

饮水思源--浅析深度学习框架设计中的关键技术

毕彦超:物体识别与物体知识表征的认知神经基础| VALSE2017之八

人脸检测与识别年度进展概述



     

欢迎关注我们!


深度学习大讲堂是由中科视拓运营的高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!


中科视拓(SeetaTech)将秉持“开源开放共发展”的合作思路,为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务,帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。


中科视拓目前正在招聘: 人脸识别算法研究员,深度学习算法工程师,GPU研发工程师, C++研发工程师,Python研发工程师,嵌入式视觉研发工程师,运营经理。有兴趣可以发邮件至:hr@seetatech.com,想了解更多可以访问,www.seetatech.com

中科视拓

深度学习大讲堂


点击阅读原文打开中科视拓官方网站


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

乔宇:深度模型让机器理解场景 的相关文章

  • [网络安全自学篇] 四十六.微软证书安全问题 (上)Windows验证机制及可执行文件签名问题

    在分享本篇文章之前 先简单聊聊我学习网络安全和系统安全的感受 半年来 作为网络安全的初学者 我写了近50篇安全的文章 从Web渗透到CTF 从二进制分析到恶意代码检测 从CVE漏洞还原到木马病毒及论文 但还是觉得自己非常菜 至今未进入安全圈
  • token做自动登录

    token 身份验证 token 前端自动登录 OpenSSL perl软件安装 https blog csdn net sunhuansheng article details 82218678 OpenSSl Perl这个软件安装无要求
  • vs2015安装_VS2015安装教程

    1 vs2015下载地址 https visualstudio microsoft com zh hans downloads 下载完后解压软件后以管理员身份运行右图的文件 2 开始安装后 会出现等待界面 可能需要几分钟 3 初始化安装程序
  • Python的学习笔记案例6--判断密码强度5.0

    本节课主要讲原来分散的方法封装成一个类 使之成为一个整体 方便调用 就是面向对象编程的思想 1 面向过程编程和面向对象编程的区别 面向过程 POP 以程序执行过程为设计流程的编程思想 面向对象 OOP 以事物为中心的编程思想 什么是对象 O
  • 服务器响应的jsp文件,JSP服务器响应

    JSP服务器响应 Response响应对象主要将JSP容器处理后的结果传回到客户端 可以通过response变量设置HTTP的状态和向客户端发送数据 如Cookie HTTP文件头信息等 一个典型的响应看起来就像下面这样 HTTP 1 1
  • OpenSceneGraph-OpenSceneGraph-3.6.5源码编译

    前言 准备 git 不是必须 使用git得到的源码是3 6 5版本的 CMake vs2019 VS017可以 我这里用的vs2019 osg主页 源码下载 Cmake编译源码 编译报错 CMake Warning dev at F Pro
  • SDWebImage 笔记

    SDWebImage托管在github上 https github com rs SDWebImage 这个类库提供一个UIImageView类别以支持加载来自网络的远程图片 具有缓存管理 异步下载 同一个URL下载次数控制和优化等特征 使
  • A股上市有什么条件?A股上市条件有哪些?

    A股的上市条件有这几点 一 资格要求 1 发行人应当是依法设立且合法存续的股份有限公司 经国务院批准 有限责任公司在依法变更为股份有限公司时 可以采取募集设立方式公开发行股票 2 发行人自股份有限公司成立后 持续经营时间应当在3年以上 但经
  • 【Web架构】使用 JSON API 的好处

    在 API 工艺的世界里 没有比设计更受热议的领域了 从 REST gRPC 到 GraphQL 有许多方法可以设计和标准化 Web API 交互 今天 我们将注意力转向另一种方法 JSON API JSONAPI org 上详细介绍的用于
  • java字符数组初始化_Java 字符串(一)字符串初始化

    一 String类概述 1 概述 java lang String类代表字符串 Java程序中所有的字符串文字 例如 abc 都可以被看作是实现此类的实例 String 是引用数据类型 不是基本数据类型 类String 中包括用于检查各个字
  • CVE-2021-30116: Kaseya VSA 远程代码执行漏洞通告

    报告编号 B6 2021 070601 报告来源 360CERT 报告作者 360CERT 更新日期 2021 07 06 0x01 漏洞简述 2021年07月06日 360CERT监测发现Kaseya发布了VSA管理软件的风险通告 漏洞等
  • 春秋云镜靶场挑战——Tsclient

    目标IP 39 98 73 212 网络拓扑 入口机器 1 使用namp对目标IP进行扫描 发现目标开放了1433端口 MSSQL服务 3389端口 RDP服务 2 可以先爆破MSSQL服务 如下可以看出成爆破出密码 3 使用MDUT工具连
  • Leetcode168. Excel表列名称

    力扣 LeetCode 官网 全球极客挚爱的技术成长平台 题解 力扣 LeetCode 官网 全球极客挚爱的技术成长平台 代码如下 class Solution public String convertToTitle int column
  • 【华为机试题解】奥特曼打怪兽

    大概题意 在一个N N的正方形区域 每个小格可能有三种状态 值为0 正常可通过 值为1 奥特曼可通过 同时还可以消灭怪兽 消灭后值变为0 消灭怪兽数量 1 值为 1 有大石头 奥特曼无法通过 奥特曼需要先从上往下走 这个过程只能向下或者向右
  • 正则表达式替换多个相同的连续字符串为一个字符串

    要替换的字符串 http localhost 9010 asqmasqm manage user 需要替换多个连续asqm为一个asqm 正则表达式 asqm 1 g 1 替换结果为 http localhost 9010 asqm man
  • Fedora 17 安装 ACE6.1

    下载 下载地址 http download dre vanderbilt edu 下载ACE 6 1 0 tar bz2 这个软件包只包含ACE 不包含TAO等附加的东西 另外bz2压缩格式的源码包比较小 只有7 55M 解压 mkdir
  • 若依 vue webpack 打包 tomcat部署 刷新404 问题处理思路

    1 参考若依官网中的添加WEB INF方法 若依文档说明 2 检查 vue config js中的生产环境配置 检查publicPath中的路由地址是否为tomcat中的前端路径 例如tomcat 的访问路径是localhost 8080
  • wpsppt设置页码和总页数_wps的ppt页码怎么设置

    wps的ppt页码怎么设置 PPT中如何设置页码那 你知道吗 下面是小编为大家推荐wps的ppt页码设置的内容 希望能够帮助到你 欢迎大家的阅读参考 设置步骤 新建一个PPT 选择 离子 模板 然后猛敲回车 插入多张PPT页面 点击 插入
  • SpringBoot 添加对JSP的支持(附常见坑点)

    序言 SpringBoot默认不支持JSP 如果想在项目中使用 需要进行相关初始化工作 为了方便大家更好的开发 本案例可直接作为JSP开发的脚手架工程 SpringBoot War JSP 常见问题 1 修改JSP需重启才能生效 在生产环境
  • Pycharm 使用pip安装包时候报错 no such option --build-dir

    Pycharm 使用pip安装包时候报错 no such option build dir 原因 pip版本过高 解决办法 对pip降级 等待pycharm更新即可 打开命令行 找到python所在的位置 输入 pip install pi

随机推荐

  • Qt中调用C#制作的com组件

    作者 billy 版权声明 著作权归作者所有 商业转载请联系作者获得授权 非商业转载请注明出处 前言 这里记录一下在 Qt 64位程序中调用 C 制作的 com 组件的流程 方便后期自己回顾 1 了解 TLB 格式 拿到的依赖库最重要的有一
  • c++四舍五入函数,向上取整,向下取整函数

    对含有小数点的数进行四舍五入是比较普遍的一种需求 在C 中也有类似的取整函数 在C 的头文件中有floor 和ceil 函数 在STL中还有round 函数 向下取整 floor 向上取整ceil 四舍五入取整round
  • 计算机需要解决的基本问题是,【基本计算机问题】计算机不是遇到非常严重的问题,请看这里解答...

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 5 启动计算机时出现 Invalid Boot ini 无效 Boot ini 或 Windows could not start Windows 无法启动 错误信息 Invalid Boot
  • 【C++】可变参数模板

    2023年9月9日 周六下午 这个还是挺难学的 我学了好几天 在这里我会举大量的示例程序 这样可以有一个更好的理解 不定期更新 目录 推荐文章 示例程序一 拼接字符串 示例程序二 求整数和 示例程序三 输出一串整数 推荐文章 这里有一些不错
  • [蓝桥杯][2017年第八届真题]分巧克力 二分查找 c语言

    题目描述 儿童节那天有K位小朋友到小明家做客 小明拿出了珍藏的巧克力招待小朋友们 小明一共有N块巧克力 其中第i块是Hi x Wi的方格组成的长方形 为了公平起见 小明需要从这 N 块巧克力中切出K块巧克力分给小朋友们 切出的巧克力需要满足
  • 数据结构-二分搜索树转双向链表(Java)

    二分搜索树转双向链表 牛客JZ36 题目 思路 1 对二分搜索树进行中序遍历 2 将二分搜索树左节点和根节点相连接 右节点和根节点相连接 遍历左子树 连接 左子树尾部不为空 leftTail right pRootOfTree pRootO
  • 求字符相似度的广度优先搜索问题请教

    有n名选手在玩游戏 他们每个人有一个字符 每个字符都有自己固定的若干个特征 特征的种类数为k 每个人的特征为特征总集的一个子集 两个字符的相似度定义为 如果两个字符A和B同时拥有某个特征或者同时没有某个特征 它们的相似度加一 蒜头君想创造出
  • 区块链三加一:去中心化的分布式记账系统

    区块链分布式账本技术的发展有利于人们掌控个人信息 并通过不变的记录保存服务或产品交易 减少对集中系统的依赖 而这场革命正在创造一个去中心化的可信环境 从而颠覆传统业务 区块链技术的核心是分布式记账 去中心化 不容易篡改 比特币等数字货币是区
  • 【PTA】【C语言】判断给定整数是否素数[加强版]

    素数是指在大于1的自然数中 除了1和它本身以外 不能被其他自然数整除的数 本题要求编写程序 判断从键盘输入的数是否素数 如果是素数 输出XX is prime number 的信息 输出XX is not prime number 的信息
  • jquery 取值 radio 问题

    1 获取选中值 三种方法都可以 input radio checked val input type radio checked val input name rd checked val 2 设置第一个Radio为选中值 input ra
  • android 文字高斯模糊,android高斯模糊

    高斯模糊 param context param sentBitmap param radius 0 lt radius lt 25 return SuppressLint NewApi public static Bitmap fastB
  • 【HUAWEI】PPP&PPPoE配合Radius认证配置案例

    背景 对于在一个大的园区网 要保证接入的安全性和合法性 有许多种手段 对于到端的接入用户 可以使用802 1X 对于移动办公人员 可以使用SSL 可以配合使用IPS 防火墙 上网行为管理等手段 不过 对于网关分布的网络呢 或者说 公司合并
  • 如何替代即将淘汰的Flash方案?

    欢迎大家前往腾讯云 社区 获取更多腾讯海量技术实践干货哦 本文由MarsBoy发表于云 社区专栏 导语 Web技术飞速发展的如今 我们在感受新技术带来的便捷和喜悦的同时 也时常在考虑着一个问题 老技术如何迁移 正如本文的主题一样 Flash
  • unity 项目仿cs知识点

    一 简介 1 人物部分 a 人物移动 b 镜头旋转 c 玩家开枪 动画 音频 枚举 弹孔 倍镜 2 敌人部分 a 敌人克隆 b 走向玩家 距离 方向 朝向 点乘 叉乘 二 人物部分 1 人物移动 CharacterController c
  • 几种主流国产linux操作系统配置pyqt5环境说明

    一 银河麒麟桌面 pyqt5已安装 直接运行就行 二 银河麒麟服务器 python3 get pip py local bin pip3 install pyqt5 python3 test1 py This application fai
  • JavaScript中的深拷贝

    1 什么是深拷贝 浅拷贝只是解决了第一层的拷贝问题 拷贝第一层的 基本类型值 以及第一层的 引用类型地址 并没有递归拷贝第二层以后的属性 深拷贝会拷贝所有的属性 拷贝的属性指向动态分配的内存 当对象和它所引用的对象一起拷贝时即发生深拷贝 深
  • C语言头插法创建双链表

    1 问题描述 使用头插法创建双链表 2 与单链表不同的是 双链表的结构体中多了一个变量就是指向当前节点的前驱节点 这样我们在循环遍历的时候可以通过当前节点的前驱指针找到前驱节点 在创建双链表的时候比单链表多了一个步骤就是对于前驱指针的操作
  • OpenMMLab OpenMMLab mmdeploy v1.1.0模型部署(一)

    一 MMDepoly整体框架 模型部署是指把机器学习训练生成的算法模型 部署到各类云 边 端设备上去 并使之高效运行 从而将算法模型实际地应用到现实生活中的各类任务中去 从而实现AI 的智能化转型 目前 我们已经支持 5 个算法库和 5 种
  • 动态规划:国王与金矿

    题目解析 有一个国家发现了5座金矿 每座金矿的黄金储量不同 需要参与挖掘的工人数也不同 参与挖矿工人的总数是10人 每座金矿要么全挖 要么不挖 不能派出一半人挖取一半金矿 要求用程序求解出 要想得到尽可能多的黄金 应该选择挖取哪几座金矿 第
  • 乔宇:深度模型让机器理解场景

    点击上方 深度学习大讲堂 可订阅哦 编者按 所谓场景 无论是 万家灯火 亦或是 巴山夜雨 于人是一种直观自然的感受 然而 对于机器而言 再多的温情脉脉 都也只是计算机世界冰冷的二进制符号 这区别的背后 其实是人在成长过程中形成的对世界的认知