从近两年的CVPR会议来看，目标检测的研究方向是怎么样的？

2023-11-19

Old Xie ，CS2EE2CS

目前object detection的工作可以粗略的分为两类：
1：使用region proposal的，目前是主流，比如RCNN、SPP-Net、Fast-RCNN、Faster-RCNN以及MSRA最近的工作R-FCN。
2：不使用region proposal的，YOLO，SSD。

从我这个渣渣的视野来看，这些工作都体现的一个趋势：如何让不同ROI之间尽量多的共享计算量，并充分利用CNN得到的特征，使得整个detection的速度变快。

具体说来，我们先回忆一下基于region proposal的方法的大致流程是什么样的：
1. 从待检测的图片中，提取出N个ROI，这里N远大于图片中真实object的个数。具体的方法有selective search、edge box以及最近流行起来的RPN。
2. 根据1中检测到的ROI，上CNN对图像进行feature extraction。
3. 对2中得到的feature进行分类，比如对于PSACAL VOC数据，就是一个21分类的问题（20个object class+background）。
4. boudningbox regression。

然后我们回到之前说的让ROI之间尽量多的共享计算量的问题。

RCNN对于每个ROI，都跑一遍CNN，即使这些ROI之间是有overlap的， 显然有部分计算是重复的，所以SPP-net和fast rcnn就在这方面做了文章，具体做法是先用CNN抽取整张图的特征，然后利用ROI pooling抽取对应ROI的特征，使得不同ROI共享特征提取的计算量。结果就是原来我处理一张图像需要前向2000次CNN，现在只要前向一次就好了，极大的提升了计算速度。fast rcnn还通过multi-task loss实现了一个end to end 的系统，这里不是我们的重点。

fast-rcnn提出来之后，detection的性能瓶颈变成了计算region proposal。CPU实现的selective search处理一张图需要2秒钟，远大于GPU上CNN特征抽取的时间。Faster RCNN就是要解决这个问题，他的出发点是这样的：既然用CNN进行feature extraction这一步已经无法避免，那么我们为什么不更充分地利用得到的feature？具体来说，我们是不是可以直接用CNN得到的feature来进行region proposal，答案是肯定的。Faster RCNN将CNN得到的feature输入到一个两层网络（RPN），网络的输出就是region proposal。这样一来， region proposal的额外开销就只有一个两层网络。实验证明这样不仅速度变快，而且proposal的质量也更高了。

到目前为止，上面我们说的4个步骤中，第1步和第2步都可以通过前向一遍CNN来得到，所以前俩步都不再是速度的瓶颈。然后我们考虑第3步，假设我们用faster rcnn的RPN得到了300个region proposal，在预测的过程中，我们需要对300个region proposal去做分类，即我们要处理300个多分类问题，如果我们用one vs rest来实现多分类，每遍就是21个二分类线性svm（也可以用一个softmax-log loss的线性分类器，但是计算量和21个二分类svm差不多），这样的话每次预测就要跑6300个二分类器，即使是线性分类器，这个时间仍然是很大的，所以就有了R-FCN这个工作。具体来说，是先利用FCN进行类似semantic segmentation的计算，然后利用ROI对相应的区域进行average pooling，得到整个ROI关于21个类别的置信度。 简单的说就是把分类这个过程也融合到网络的前向计算过程中，由于这个过程对于不同的ROI是共享的，所以比单独跑分类器要快好多。文章里还有一个position-sensitive的idea，也很有趣，不过感觉给我一种”这也能行“的感觉，应该是我少见多怪，理解不了大神的世界。

个人感觉object detection是一个比较考验insight以及” 让一个idea真正能work的能力“的方向，不像semantic segmentation，后者现在的提升很多靠CRF，有陷入”图模型加圈“（传说中水论文三大法宝之一）的趋势，对数学要求比较高。

以上只是个人读paper的心得，可能作者们当时并不是这么想的，如有冲突，纯属我瞎bb。。。

编辑于昨天 19:47 3 条评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

文刀叉点，知之为不知

6 人赞同

但凡能和分类哪怕扯上一点点关系的，沦陷深度学习只是早晚的事情

话说分割其实本质上也是个分类问题（0-1 mask），so 你懂的

别纠结了，一切都是老黄的阴谋，终结者以后一定是NV给造出来的

发布于 2016-06-06 添加评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

机智的大群主，硬创公开课，用技术洞见未来

18 人赞同

大群主非常赞同楼上 @文刀叉点回答的： 但凡能和分类哪怕扯上一点点关系的，沦陷深度学习只是早晚的事情。

其实关注CVPR2016就会发现：

本次CVPR 2016上，深度学习几乎成了如今计算机视觉研究的标配，人脸识别、图像识别、视频识别、行人检测、大规模场景识别的相关论文里都用到了深度学习的方法。

这里我想借用下我们嘉宾Sensetime CTO 曹旭东老师的一些解读：

传统方法使用滑动窗口的框架，把一张图分解成几百万个不同位置不同尺度的子窗口，针对每一个窗口使用分类器判断是否包含目标物体。传统方法针对不同的类别的物体，一般会设计不同的特征和分类算法，比如人脸检测的经典算法是Harr特征+Adaboosting分类器；行人检测的经典算法是HOG(histogram of gradients) + Support Vector Machine；一般性物体的检测的话是HOG的特征加上DPM(deformable part model)的算法。

基于深度学习的物体检测的经典算法是RCNN系列： RCNN，fast RCNN (Ross Girshick)，faster RCNN (少卿、凯明、孙剑、Ross)。这三个工作的核心思想是分别是：使用更好的CNN模型判断候选区域的类别；复用预计算的sharing feature map加快模型训练和物体检测的速度；进一步使用sharing feature map大幅提高计算候选区域的速度。其实基于深度学习的物体检测也可以看成对海量滑动窗口分类，只是用全卷积的方式。

RCNN系列算法还是将物体检测分为两个步骤。现在还有一些工作是端到端(end-to-end)的物体检测，比如说YOLO(You Only Look Once: Unified, Real-Time Object Detection)和SSD(SSD: Single Shot MultiBox Detector)这样的算法。这两个算法号称和faster RCNN精度相似但速度更快。物体检测正负样本极端非均衡，two-stage cascade可以更好的应对非均衡。端到端学习是否可以超越faster RCNN还需要更多研究实验。

-----------------------------------我是机智的分割线-------------------------------------
相信题主应该能从这当中把握一些目标检测的发展方向，当然如果想有更多技术交流也欢迎参与我们的技术交流活动

搜索公众号ycopen就能找到大群主我啦，扫描二维码（二维码在这里）查看喔~

编辑于昨天 15:41 添加评论感谢

收藏 • 没有帮助 • 举报 • 禁止转载

潘博阳，人丑还不多读书

从rcnn，frcnn，faster-rcnn可以管中窥豹

发布于 2015-08-09 1 条评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

刘羽中，苟且的活着。

2 人赞同

DL和detection proposal

发布于 2015-08-08 2 条评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

路人，计算机视觉硕士研究生

我觉得分哪种情况了，运动目标检测可以基于背景建模也可以基于目标建模，背景建模这个技术不是DL重灾区啊这是很多应用的第一步。

发布于 2016-04-19 1 条评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

匿名用户

1 人赞同

DL重灾区。

发布于 2015-08-09 添加评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

匿名用户

热烈欢迎更多DL相关工作，以及欢迎相互打脸！

发布于 13:24 添加评论感谢

收藏 • 没有帮助 • 举报 • 作者保留权利

刘乾坤，计算机视觉与机器学习

DL现在是主流，可以看一下15年CVPR文章中包含DL的文章数量，占70%

from: https://www.zhihu.com/question/34223049#answer-39465125

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从近两年的CVPR会议来看，目标检测的研究方向是怎么样的？的相关文章

Spring Boot + Vue + Shiro 实现前后端分离

前后端分离思想前端只利用 Json 来和后端进行交互后端不返回页面只返回 Json 数据前后端之间完全通过 public API 约定 Springboot 就不再赘述了 Controller 层返回 Json 数据 Request

随机推荐

Matlab - Solidworks 机器人建模（1）—— 浅谈Matlab机器人建模思路

本文的讨论对象仅局限于刚体模型 Matlab建立机器人模型主要有两个方面当然不排除有其他的我只说我知道的 Rigidbody tree 坐标系模型 Simsacpe 物理模型建立rigidbody tree模型主要是为了能够使用mat
2017 ICM/MCM D题 Optimizing the Passenger Throughput at an Airport Security Check

问题描述参考链接问题描述在机场安全检查站优化乘客吞吐量继2001年9月11日美国发生恐怖袭击事件后全世界的机场安全状况得到显着改善机场有安全检查站在那里乘客及其行李被检查爆炸物和其他危险物品这些安全措施的目的是防止乘客劫持
七层模型和五层模型

高可用负载均衡高可用不要因为技术而技术七层模型 OSI开放式系统互联通信参考模型 OSI将计算机网络体系结构 architecture 划分为以下七层物理层将数据转换为可通过物理介质传送的电子信号相当于邮局中的搬运工人数据链
Linux系统制作Ubuntu18.04启动盘

转自 https blog csdn net xiaoma 2018 article details 85059930 首先进入 Ubuntu 官网下载 Ubuntu18 04 ios 镜像包下载的镜像包为 ubuntu 18 04 1
Redis视野打开篇

1 String格式一般存一个对象是用这个对象的ID为键将对象的所有属性格式化为json对象字符串作为值然后set ID json 进去但是这种方式在只需要修改这个对象中的其中一个属性时就需要把json转为对象改变值然后
stm32定时器输入捕获配置步骤及实例笔记

输入捕获的一般配置步骤初始化定时器和通道对应IO的时钟初始化IO口模式为输入 GPIO Init GPIO InitStructure GPIO Mode GPIO Mode IPD 初始化定时器ARR PSC TIM TimeBas
基于PID控制参数法改变PWM的占空比的STM32F4温控实例

最近的工程要用到PID算法在这里与大家分享一下本文章适合直接上手PID 直接将PID与STM32结合运用起来比较适合没有接触过PID的新人或者是算法与STM32结合不熟悉的新同学如果要详细了解PID算法与调整算法还是需要深入了解一下
springboot自动装配原理

目录 springboot自动装配详细原理自动装配主要依靠三个核心的关键技术引入starter 查找第三方配置类动态加载个人理解还有不足的地方需要学习写这篇帖子目的是为了记录自己的理解 springboot自动装配简单来说是sp
此语言无法安装在此计算机上win10,如何解决Win10换成无法安装英文语言包的问题...

因为工作需要很多人要将Win10换成英文但是使用控制面板中的区域和语言进行调整发现根本不能选择英文不错下面是有一个添加语言的选项卡但是你添加了语言只能添加手写语音识别添加之后即使将英文设置为默认值重启后还是无法英
Visual Studio Code 1.35更新：远程开发终于来啦

前段时间大家可能看过一个新闻微软为VSC开发一款名为Remote Development的扩展程序可以让我们使用本地VSC开发和调试远程机器上的代码这个功能对于我这个不会使用vim等linux工具的人来说简直是一个重大消息可惜的是
JPDA(jaa platform debugger architecture)

参考文献 https www ibm com developerworks cn java j lo jpda1 index html ca drs https www ibm com developerworks cn java j lo
Java Json 数据下划线与驼峰格式进行相互转换

概述今天遇见一个需求需要对json数据进行下划线与驼峰格式之间进行转换在Fastjson Jackson Gson都提供了转换的方式在这里进行一下列举 User类 public class User private String n
并发测试工具 apache-jmeter使用发送post请求JSON数据

目录 1 下载安装 2 汉化 3 创建高并发测试配置线程组创建web请求创建监听器结果树汇总报告为web请求添加token 添加Content Type用于发送json 4 启动测试 5 查看结果 1 下载安装官网Apache
【2020.12.06】SpringBoot + webSocket + Vue+ jcraft 实现远程执行shell命令，并把执行结果通过webSocket的方式展示在vue前端

依赖与配置依赖
ai的css属性,ai怎么使用CSS属性面板?

ai怎么使用CSS属性面板 AI css ai怎么使用CSS属性面板易采站长站站长之家为您整理了ai怎么使用CSS属性面板的相关内容 ai中有CSS属性工具该怎么使用这个工具呢下面我们就来看看CSS的基本用法请看下文详细介绍 1
AI绘图风格对照表/画风样稿详细研究记录及经验总结（分析Midjourney和Stable Diffusion风格提示词实际使用情况）不断更新中...

作为AI绘图头牌的Midjourney和Stable Diffusion 其风格提示词都相同 Midjourney是收费的在线服务通过discord对话形式来生图局限较大但由于官方模型做得好因此效果非常完美 Stable Diffu
Linux 磁盘挂载（硬盘分区、文件系统格式化、挂载）

目录 Linux硬盘分区硬盘设备的文件名 dev sd a z 硬盘分区识别硬盘的文件名 Linux文件系统文件系统类型 Linux如何保存文件 VFS虚拟文件系统磁盘挂载命令 lsblk 查看系统的磁盘使用情况 fdisk 硬盘分
四种圆周率收敛速度比较 C# 代码

转载请注明出处联系我 t39q 163 com 本人热衷于数据库技术及算法的研究志同道合之士欢迎探讨 1万次收敛的圆周率对比泰勒级数沃利斯计算 BBP计算蒙特卡洛计算通过对此被推崇的BBP计算实质上收敛速度还不如沃利斯计算
后端---java中覆盖和重载的区别

java中的方法覆盖 Overriding 和方法重载 Overloading 是什么意思重写跟重载的区别 java中的方法重载发生在同一个类里面两个或者多个方法的方法名相同但是参数不同的情况与此相对方法覆盖是说子类重新定义了父类的方
从近两年的CVPR会议来看，目标检测的研究方向是怎么样的？

Old Xie CS2EE2CS Naiyan Wang 等 85 人赞同目前object detection的工作可以粗略的分为两类 1 使用region proposal的目前是主流比如RCNN SPP Net Fast RCNN

从近两年的CVPR会议来看，目标检测的研究方向是怎么样的？

从近两年的CVPR会议来看，目标检测的研究方向是怎么样的？ 的相关文章

随机推荐

热门标签

从近两年的CVPR会议来看，目标检测的研究方向是怎么样的？的相关文章