Yolo框架简介

2023-05-16

YOLO（You Only Look Once）是一种基于深度神经网络的对象识别和定位算法，其最大的特点是运行速度很快，可以用于实时系统。现在YOLO已经发展到v4版本.
论文地址：链接: https://pjreddie.com/media/files/papers/yolo.pdf.

Yolo结构的作用：

对象识别和定位，可以看成两个任务：找到图片中某个存在对象的区域，然后识别出该区域中具体是哪个对象。对象识别这件事（一张图片仅包含一个对象，且基本占据图片的整个范围），最近几年基于CNN卷积神经网络的各种方法已经能达到不错的效果了。所以主要需要解决的问题是，对象在哪里。
在这里插入图片描述

Yolo与R-CNN系列的对比：

RCNN开创性的提出了候选区(Region Proposals)的方法，先从图片中搜索出一些可能存在对象的候选区Selective Search，大概2000个左右，然后对每个候选区进行对象识别。大幅提升了对象识别和定位的效率。不过RCNN的速度依然很慢，其处理一张图片大概需要49秒。因此又有了后续的Fast RCNN 和 Faster RCNN，针对RCNN的神经网络结构和候选区的算法不断改进，Faster RCNN已经可以达到一张图片约0.2秒的处理速度。
YOLO创造性的将候选区和对象识别这两个阶段合二为一，看一眼图片（不用看两眼哦）就能知道有哪些对象以及它们的位置。实际上，YOLO并没有真正去掉候选区，而是采用了预定义的候选区（准确说应该是预测区，并不是Faster RCNN所采用的Anchor）。也就是将图片划分为 77=49 个网格（grid），每个网格允许预测出2个边框（bounding box，包含某个对象的矩形框），总共 492=98 个bounding box。可以理解为98个候选区，它们很粗略的覆盖了图片的整个区域。

Yolo的优缺点

YOLO存在的优点是：

1.速度快，处理速度可以达到45fps，其快速版本（网络较小）甚至可以达到155fps。这得益于其识别和定位合二为一的网络设计，而且这种统一的设计也使得训练和预测可以端到端的进行，非常简便。
2.泛化能力强，可以广泛适用于其他测试集。
3.背景预测错误率低，因为是整张图片放到网络里面进行预测。

YOLO存在的缺点是：
精度低，小目标和邻近目标检测效果差，小对象检测效果不太好（尤其是一些聚集在一起的小对象），对边框的预测准确度不是很高，总体预测精度略低于Fast RCNN。主要是因为网格设置比较稀疏，而且每个网格只预测两个边框，另外Pooling层会丢失一些细节信息，对定位存在影响。

YOLO与Fast R-CNN相比有较大的定位误差，与基于region proposal的方法相比具有较低的召回率。但是，YOLO在定位识别背景时准确率更高，而 Fast-R-CNN 的假阳性很高。基于此作者设计了 Fast-R-CNN + YOLO 检测识别模式，即先用R-CNN提取得到一组bounding box，然后用YOLO处理图像也得到一组bounding box。对比这两组bounding box是否基本一致，如果一致就用YOLO计算得到的概率对目标分类，最终的bouding box的区域选取二者的相交区域。这种组合方式将准确率提高了3个百分点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

YOLO

框架简介