从近两年的CVPR会议来看,目标检测的研究方向是怎么样的?

2023-11-19

目前object detection的工作可以粗略的分为两类:
1:使用region proposal的,目前是主流,比如RCNN、SPP-Net、Fast-RCNN、Faster-RCNN以及MSRA最近的工作R-FCN。
2:不使用region proposal的,YOLO,SSD。

从我这个渣渣的视野来看,这些工作都体现的一个趋势:如何让不同ROI之间尽量多的共享计算量,并充分利用CNN得到的特征,使得整个detection的速度变快。

具体说来,我们先回忆一下基于region proposal的方法的大致流程是什么样的:
1. 从待检测的图片中,提取出N个ROI,这里N远大于图片中真实object的个数。具体的方法有selective search、edge box以及最近流行起来的RPN。
2. 根据1中检测到的ROI,上CNN对图像进行feature extraction。
3. 对2中得到的feature进行分类,比如对于PSACAL VOC数据,就是一个21分类的问题(20个object class+background)。
4. boudningbox regression。

然后我们回到之前说的让ROI之间尽量多的共享计算量的问题。

RCNN对于每个ROI,都跑一遍CNN,即使这些ROI之间是有overlap的, 显然有部分计算是重复的,所以SPP-net和fast rcnn就在这方面做了文章,具体做法是先用CNN抽取整张图的特征,然后利用ROI pooling抽取对应ROI的特征,使得不同ROI共享特征提取的计算量。结果就是原来我处理一张图像需要前向2000次CNN,现在只要前向一次就好了,极大的提升了计算速度。fast rcnn还通过multi-task loss实现了一个end to end 的系统,这里不是我们的重点。

fast-rcnn提出来之后,detection的性能瓶颈变成了计算region proposal。CPU实现的selective search处理一张图需要2秒钟,远大于GPU上CNN特征抽取的时间。Faster RCNN就是要解决这个问题,他的出发点是这样的:既然用CNN进行feature extraction这一步已经无法避免,那么我们为什么不更充分地利用得到的feature?具体来说,我们是不是可以直接用CNN得到的feature来进行region proposal,答案是肯定的。Faster RCNN将CNN得到的feature输入到一个两层网络(RPN),网络的输出就是region proposal。这样一来, region proposal的额外开销就只有一个两层网络。实验证明这样不仅速度变快,而且proposal的质量也更高了。

到目前为止,上面我们说的4个步骤中,第1步和第2步都可以通过前向一遍CNN来得到,所以前俩步都不再是速度的瓶颈。然后我们考虑第3步,假设我们用faster rcnn的RPN得到了300个region proposal,在预测的过程中,我们需要对300个region proposal去做分类,即我们要处理300个多分类问题,如果我们用one vs rest来实现多分类,每遍就是21个二分类线性svm(也可以用一个softmax-log loss的线性分类器,但是计算量和21个二分类svm差不多),这样的话每次预测就要跑6300个二分类器,即使是线性分类器,这个时间仍然是很大的,所以就有了R-FCN这个工作。具体来说,是先利用FCN进行类似semantic segmentation的计算,然后利用ROI对相应的区域进行average pooling,得到整个ROI关于21个类别的置信度。 简单的说就是把分类这个过程也融合到网络的前向计算过程中,由于这个过程对于不同的ROI是共享的,所以比单独跑分类器要快好多。文章里还有一个position-sensitive的idea,也很有趣,不过感觉给我一种”这也能行“的感觉,应该是我少见多怪,理解不了大神的世界。

个人感觉object detection是一个比较考验insight以及” 让一个idea真正能work的能力“的方向,不像semantic segmentation,后者现在的提升很多靠CRF,有陷入”图模型加圈“(传说中水论文三大法宝之一)的趋势,对数学要求比较高。

以上只是个人读paper的心得,可能作者们当时并不是这么想的,如有冲突,纯属我瞎bb。。。
文刀叉点  ,知之为不知
但凡能和分类哪怕扯上一点点关系的,沦陷深度学习只是早晚的事情

话说分割其实本质上也是个分类问题(0-1 mask),so 你懂的

别纠结了,一切都是老黄的阴谋,终结者以后一定是NV给造出来的
机智的大群主  ,硬创公开课,用技术洞见未来
大群主非常赞同楼上  @文刀叉点 回答的: 但凡能和分类哪怕扯上一点点关系的,沦陷深度学习只是早晚的事情。

其实关注CVPR2016就会发现:


本次CVPR 2016上,深度学习几乎成了如今计算机视觉研究的标配,人脸识别、图像识别、视频识别、行人检测、大规模场景识别的相关论文里都用到了深度学习的方法。

这里我想借用下我们嘉宾Sensetime CTO 曹旭东老师的一些解读:


传统方法使用滑动窗口的框架,把一张图分解成几百万个不同位置不同尺度的子窗口,针对每一个窗口使用分类器判断是否包含目标物体。传统方法针对不同的类别的物体,一般会设计不同的特征和分类算法,比如人脸检测的经典算法是Harr特征+Adaboosting分类器;行人检测的经典算法是HOG(histogram of gradients) + Support Vector Machine;一般性物体的检测的话是HOG的特征加上DPM(deformable part model)的算法。


基于深度学习的物体检测的经典算法是RCNN系列: RCNN,fast RCNN (Ross Girshick),faster RCNN (少卿、凯明、孙剑、Ross)。这三个工作的核心思想是分别是:使用更好的CNN模型判断候选区域的类别;复用预计算的sharing feature map加快模型训练和物体检测的速度;进一步使用sharing feature map大幅提高计算候选区域的速度。其实基于深度学习的物体检测也可以看成对海量滑动窗口分类,只是用全卷积的方式。


RCNN系列算法还是将物体检测分为两个步骤。现在还有一些工作是端到端(end-to-end)的物体检测,比如说YOLO(You Only Look Once: Unified, Real-Time Object Detection)和SSD(SSD: Single Shot MultiBox Detector)这样的算法。这两个算法号称和faster RCNN精度相似但速度更快。物体检测正负样本极端非均衡,two-stage cascade可以更好的应对非均衡。端到端学习是否可以超越faster RCNN还需要更多研究实验。


-----------------------------------我是机智的分割线-------------------------------------
相信题主应该能从这当中把握一些目标检测的发展方向,当然如果想有更多技术交流也欢迎参与我们的技术交流活动

搜索公众号ycopen就能找到大群主我啦,扫描二维码(二维码在这里)查看喔~

潘博阳  ,人丑还不多读书
从rcnn,frcnn,faster-rcnn可以管中窥豹
刘羽中  ,苟且的活着。
DL和detection proposal
路人  ,计算机视觉硕士研究生
我觉得分哪种情况了,运动目标检测可以基于背景建模也可以基于目标建模,背景建模这个技术不是DL重灾区啊 这是很多应用的第一步。
匿名用户
DL重灾区。
匿名用户
热烈欢迎更多DL相关工作,以及欢迎相互打脸!
刘乾坤  ,计算机视觉与机器学习
DL现在是主流,可以看一下15年CVPR文章中包含DL的文章数量,占70%
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从近两年的CVPR会议来看,目标检测的研究方向是怎么样的? 的相关文章

  • Spring Boot + Vue + Shiro 实现前后端分离

    前后端分离思想 前端只利用 Json 来和后端进行交互 后端不返回页面 只返回 Json 数据 前后端之间完全通过 public API 约定 Springboot 就不再赘述了 Controller 层返回 Json 数据 Request

随机推荐