（五）比赛中的CV算法（下2）YOLO算法和one-stage检测器

2023-05-16

此时此刻恰如彼时彼刻，一位大佬在阅读了Faster R-CNN 中PRN设计的思想后直接拍桌怒起：既然RPN能直接根据深度特征提取出可能存在物体的ROI，生成提议区域，那我干脆就用网络直接回归出bbox的坐标不就得了，一步到位岂不是美滋滋？（两阶段的方法相当于先通过RPN大致定位bbox，再在后续的bbox回归中获取更精准的定位框，one-stage的方法直接在特征图上进行bbox的回归）这就是YOLO的设计思想。YOLO是you only look once的缩写，“只看一眼”也昭示着这是一个一阶段的端到端网络，不需要中间的区域提议阶段！

YOLO

作为one-stage模型的开山之作，yolo直接砍掉了RPN，通过连续的几个卷积层直接回归出bbox坐标和对应的分类。首先一起看看yolo的pipeline：

相比之前介绍的R-CNN家族，是不是感觉一下清爽了不少？从设计结构来说，整个算法的运行就只有3步：

缩放图片至ConvNet的输入大小
卷卷卷...
得到每个框的分类和置信度
运行NMS去除重复的目标框

有些同学肯定会疑惑，凭什么则这样就能得到回归坐标和分类呢？请牢记一点：网络只不过是会在训练过程中会学会一个映射！那么关键就在于我们应该如何提供“监督”来让网络学习这个映射。不过，还是要称赞一下如此简单明了的设计简直满足了所有美好的想像，如此的Unified、elegant！

请看YOLO的设计思想：

划分格点随后每个格点负责预测置信度和预测框位置，最后综合上一步的两个数据得到检测结果

根据上图，我们分析一下YOLO的检测过程：

首先还是通过密集采样的思想，把图像分成SxS大小的一堆格点，训练时每个单元格将会负责检测那些中心落在对应格点中的目标，即GT的中心落在哪个格子，那个格子就负责预测（初看yolo的教程的同学都很有可能有这样的问题，训练的时候你有训练标记，能够知道每个目标的中心在哪里；可是在推理预测的时候怎么目标中心在哪呢？答案是不用管！我们会把每个格点都当作目标中心，一会还会提到这个问题）。
由前面简介所述，yolo直接回归得到bbox角点和分类，那么对于bbox的预测，假设每个格点会预测N个检测框（不同的规格和尺度，类似于之前介绍的anchor的概念，也是先验的、用于缩小搜索空间的方法），还会得到这个框的置信度（定位是否准确？框内存在物体的概率？总之是这两者的加权值），此置信度在训练时通过生成的边界框与GT的IOU来表示，如果预测得到的边界框不存在物体则此项为零（网络认为这里没有目标那么也没必要计算IOU了）。这一步骤中得到也就是上图中的Bounding boxes+confidence。
我们还需要为每个格点生成的检测框预测其属于C个类别的概率值（当然也可以训练一个softmax分类器来计算每个类的概率，不过既然网络可以直接学会一个图像到分类概率的映射，我们干脆就直接让网络输出对应预测框属于每个类的概率吧！读者也可以思考对比一下两者的优劣），有些网络会分为C+1个类因为它们把背景也作为一种分类，不过我们前面已经在bbox的预测中增加了置信度这个指标，那么当预测框中没有目标的时候此项为0，这样就不需要一个额外的分类了。这步对应上图2中的生成class probability map。

那么，根据上面的介绍，我们最后总共需要网络输出SxSx(5*N+C)个值，yolo的paper选择的值是s=7，n=2，C=20，即把原图划分为7x7的网格，每个格点预测两种不同大小的预测框，总共检测20种目标，5是框的置信度和中心坐标、框的长宽。因此网络最后会输出7x7x(5*2+20)个值。此处mark，稍后再提如何进行后处理。*

讲完了整体设计思想，你应该能明白为什么我们把每个格点都作为可能的目标中心了：因为每个格点最后都会产生5*N+C个值！即使在实际推理的时候这个格点里面没有目标存在也没事，算就完事了！最后在得到预测值的时候，没有目标存在的格点要么bbox的置信度会很低或者为零（表示这个框里啥也没有），要么就是这个bbox属于每个类的概率都很低，在之后的NMS阶段将会被删去。因此注意训练和推理时的区别，我们只是假设每个格点都有物体，最后是否真的有物体，就看输出得到的置信度和分类分数有多高了，笔者称之为”将计就计“！

看完了网络的设计思想，终于可以看看网络的结构了：

前面就是一堆卷积层+池化层构成的block，不断地缩小feature map的尺寸（细心的你会发现，虽然feature map横向尺寸变小但是通道数是在增加的，think about it）。倒数第三个block结束后，这里的特征已经非常“高级”了，与是把它们接入全连接层充分利用特征之间的关系，随后连接到一个7x7x30的张量，每个值就代表着我们的需要的那些输出。

ok，此处呼应上面忽略的后处理mark，来讲讲后处理：首先从对所有预测框进行筛选，设定一个阈值把那些“假”预测框筛选掉（也就是对我们假定有目标中心的那些格点进行筛选，具体怎么做？用得到的bbox置信度乘以那个bbox对应的C个类别概率！）；剩下的就是预测的比较准、类别置信度高的bbox了，再对这些bbox运行NMS，得到最后的预测结果。

一顿操作猛如虎，YOLO将bbox回归和分类任务并行完成且一步到位，将Faster R-CNN中的RPN也直接给“融合”进来，进一步减小了时间开销，在Pascal VOC2007和2012上得到了63.4的mAP和45FPS的速度，成功实现了实时检测！不用想也知道之后one-stage的模型就开始井喷了。

YOLO的作者还对比Faster R-CNN进行了非常严谨的误差分析：

对比可以发现，YOLO出错的地方大多是Localization错误，即bbox的回归框不准确，每个格点只生成了两个b预测框并且两个预测框预测的是同一个种类；而Faster R-CNN在这方面要好很多，毕竟它有两次修正回归框的机会，先提出候选区域再在其上进行bbox回归。

此处呼应前文 Fast R-CNN处的前景背景分析mark：

不过有得必有失，Faster R-CNN在背景分类上出现了很多错误，而YOLO将背景错判为目标的概率只有4.75%，这就很有意思了。从它们俩的结构差别我们应该也能推断处一些端倪：Faster R-CNN在进行分类的时候只利用了RPN生成的ROI上的特征，而YOLO从头到尾都是ConvNet的结构，在高层feature map上接近全局的连接获得了更大的感受野，因此也充分利用了全局的特征，不容易将背景分为目标。

由于YOLO没有resion proposal阶段，因此基本没有机会修正正负样本不均衡的问题只能通过一些启发式的技巧最大程度降低负样本过量的影响，而Faster R-CNN在RPN提出候选区域后就能根据生成的候选框与GT的IOU来筛选正负样本使得正负比例约为1：3（作者经过测验发现这是一个比较好的值）。

YOLO还有一个缺点就是对于小物体的检测很容易忽略，7x7的格点对于小目标来说还是太大并且YOLO没有机会修正检测框。

下期将会对当前学习的R-CNN家族和YOLO这两个经典算法进行总结并对loss function和网络的设计进行分析，务必持续关注哦！

如果觉得笔者写的还可以，点个赞关注一下吧～

之后cv算法是实际使用和部署将会同步推送（第六部分，如装甲板识别和能量机关、跟踪算法的具体应用）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

（五）比赛中的CV算法（下2）YOLO算法和one-stage检测器的相关文章

maven 常用镜像仓库

maven 常用镜像仓库 lt mirror gt lt id gt alimaven lt id gt lt mirrorOf gt central lt mirrorOf gt lt name gt aliyun maven lt na

随机推荐

面向对象的语言主要有哪些

面向对象程序设计 Object Oriented Programming xff0c OOP 的实质是选用一种面向对象程序设计语言 OOPL xff0c 采用对象类及其相关概念所进行的程序设计主要有Smalltalk Eiffel C
Python如何自制包、如何安装自己的包并导入

首先科普一下包和模块的概念 xff1a 在Python中 xff0c 包是一个包含多个模块的目录 xff0c 而模块则是一个单独的文件一个包可以包含多个模块 xff0c 也可以包含其他的子包当一个目录下面有一个 init py文件时 x
使用OpenFeign代替RestTemplate来请求接口

在使用RestTemplate来调用接口服务的时候 xff0c 需要写一个调用地址的参数 xff0c 这样做不太好管理接口地址 xff0c OpenFeign就提供了一个比较好的管理方式 xff0c 类似于写一个Mapper的接口 xff0
手把手教你如何一键备份和恢复微信聊天记录

相信大家的聊天记录都非常重要 xff0c 怎么能说没就没 xff01 xff01 今天就分享一个备份聊天记录的方法备份聊天记录首先在电脑版微信上 xff0c 点击左下角三条横杠标志按钮 xff0c 选择备份与恢复在弹出的备份与
MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface Reconstruction论文翻译

机翻的这篇属实看不懂 Abstract 近年来 xff0c 神经隐式表面重建方法已成为多视图三维重建的流行方法与传统的多视图立体方法相比 xff0c 由于神经网络的归纳平滑偏差 xff0c 这些方法往往会产生更平滑和更完整的重建最先进
SPSS入门教程—相关性分析使用方法

IBM SPSS Statistics为用户提供了三种相关性分析的方法 xff0c 分别是双变量分析偏相关分析和距离分析 xff0c 三种相关分析方法各针对不同的数据情况 xff0c 接下来我们将为大家介绍如何使用SPSS相关性分析中的距
使用IBM SPSS Statistics的新手应该如何入门

一什么是IBM SPSS Statistics xff1f IBM SPSS Statistics 是一款强大的统计软件平台 xff0c 它所提供的数据分析功能 xff0c 可以帮助企业个人对各类数据进行切实可行的洞察分析 xff0c
linux 下清空回收站命令

linux 下清空回收站命令 sudo rm fr root Trash
了解CV和RoboMaster视觉组（目录和大纲）

NeoZng neozng1 64 hnu edu cn 全网最最最全的RoboMaster视觉组入门教程和概览来啦 xff01 0 Catalogue 摘要视觉组在不同兵种中的作用 2 1 装甲板识别 2 2 能量机关 2 3 哨兵 2
了解CV和RoboMaster视觉组（一）摘要

NeoZng neozng1 64 hnu edu cn 1 摘要在阅读本文之前 xff0c 你需要有计算机科学的基本知识并至少掌握一门编程语言 xff0c 同时对robomaster比赛规则和过程有大致的了解若只是希望知道视觉组的基本
了解CV和RoboMaster视觉组（二）视觉在各兵种中的作用

NeoZng neozng1 64 hnu edu cn 2 视觉在各兵种中的作用 2 1 装甲板识别 xff08 步兵英雄无人机 xff09 由于机器人上安装的图传模块到操作手看到的第一视角的延迟加上操作手反应速度的延迟 xff0c
了解CV和RoboMaster视觉组（三）视觉组使用的软件

NeoZng neozng1 64 hnu edu cn 3 视觉组接触的软件进行视觉开发会用到各种各样的软件开发环境辅助工具等 xff0c 所以很有必要了解一些相关的快捷键命令使用技巧选择一款适合自己的IDE能够提高开发效率
了解CV和RoboMaster视觉组（四）视觉组使用的硬件

NeoZng neozng1 64 hnu edu cn 4 视觉组接触的硬件虽然别人总觉得视觉组就是整天对着屏幕臭敲代码的程序员 xff0c 实际上我们也会接触很多的底层硬件与传感器 xff0c 在使用硬件的同时很可能还需要综合运用其他
（五）比赛中的CV算法（上）cv基础知识和opencv的api

5 比赛中的CV算法讲了这么多 xff0c 视觉组的重头戏算法终于来了在大部分时候我们都不需要设计底层的算法 xff0c 而是直接调用封装好的API xff0c 设计更具体的应用于特定问题的算法当然 xff0c 有必要了解一下造轮子
（五）比赛中的CV算法（上2）目标检测初步：神经网络及优化方法

NeoZng neozng1 64 hnu edu cn attention xff1a 5 2 5 3 5 4对于新人来说可能有一定难度若是新人或刚入门的 RMer xff0c 可以由此直接跳转道第六部分继续阅读 xff0c 第六部分看
[论文翻译] SalsaNet: Fast Road and Vehicle Segmentation in LiDAR Point Clouds for Autonomous Driving

Abstract 在本文中 xff0c 我们介绍了一种名为 SalsaNet 的深度编码器解码器网络 xff0c 用于 3D LiDAR 点云的高效语义分割 SalsaNet 通过使用点云的鸟瞰图 BEV 图像投影来分割场景中的道路可行
（五）比赛中的CV算法（上3）目标检测初步：CNN卷积神经网络

NeoZng neozng1 64 hnu edu cn 5 2 2 卷积神经网络在5 2 1中我们提到 xff0c 可以把图像resize成一个1xn的特征向量当作输入投入一个网络当中进行训练和预测 xff0c 但是这样做会出现很多的问
（五）比赛中的CV算法（中）目标检测的常见概念和术语

NeoZng neozng1 64 hnu edu cn 5 2 3 目标检测利用CNN我们已经可以完成对图像的识别和分类但是这样是远远不够的 xff0c 为了能准确定位图像中的物体 xff0c 我们需要对图像中所有目标进行定位 xff
（五）比赛中的CV算法（下1）目标检测算法：R-CNN家族

了解了基本概念开始上手目标检测吧在接下来这三个经典网络的介绍中 xff0c 我们尽量忽略细节上的推导如卷积的通道数和维度 xff0c 特征图的大小等 xff0c 而专注于介绍网络实现的思想和总体方法因此笔者默认你已经了解卷积神经网络的
（五）比赛中的CV算法（下2）YOLO算法和one-stage检测器

此时此刻恰如彼时彼刻 xff0c 一位大佬在阅读了Faster R CNN 中PRN设计的思想后直接拍桌怒起 xff1a 既然RPN能直接根据深度特征提取出可能存在物体的ROI xff0c 生成提议区域 xff0c 那我干脆就用网络直接回归

（五）比赛中的CV算法（下2）YOLO算法和one-stage检测器

（五）比赛中的CV算法（下2）YOLO算法和one-stage检测器 的相关文章

随机推荐

热门标签

（五）比赛中的CV算法（下2）YOLO算法和one-stage检测器的相关文章