YOLOv5算法原理与网络结构

2023-11-16

YOLOv5算法原理与网络结构

1.1 YOLOv5算法

YOLOv5算法共有4种网络结构，分别是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x，这四种网络结构在宽度和深度上不同，原理上基本一样，接下来以 YOLOv5s 为例介绍 YOLOv5网络结构。

图1 YOLOv5网络结构图

YOLOv5s的网络结构如图1所示，该结构分为四个部分输入端、Backbone（主干网络）、Neck网络和Prediction（输出端）。

各部分具有的主要功能结构如下：

输入端：Mosaic数据增强、自适应锚框计算，以及自适应图片缩放。

主干网络：Focus结构、CSP结构。

Neck网络：FPN+PAN结构。

输出端：GIOU_Loss。

1.1.1 输入端

(1) Mosaic数据增强

输入端使用的数据增强方式是Mosaic方式，对数据集合采取随机缩放、随机剪裁、随机排布。

主要有两个优点：

第一，提高了数据集的复杂度：对多张图片，进行随机的缩放以及剪裁，之后再随机分布，进行拼接，使数据集得到极大地丰富，特别是进行随机缩放操作，可以增加许多小目标，训练得到的模型，鲁棒性会更好；

第二，减少 GPU 内存使用：使得 Mini-batch 也就是一个批次从数据集读取进行训练的图片张数，不需要设置的很大，因此，训练时使用一个GPU也能达到比较好的训练效果。

(2) 自适应锚框计算

YOLO系列检测算法中，针对不同目标，都会初始设定好默认长宽的锚框，进行训练时，在初始设定好的锚框基础上，输出一个预测框，将标注的真实框和预测框做对比，并且计算它们的差距，之后再反向更新，迭代网络结构中的参数。在 YOLOv3、YOLOv4中，训练不同的数据集时，计算初始锚框的值是通过单独的程序运行的，但在YOLOv5中将此功能嵌入到算法结构中，每次训练时，自适应的计算不同训练集中的最佳锚框值。

(3) 自适应图片缩放

在目标检测算法中，针对数据集中图片长宽一般不相同的问题，经常是将原始图片先缩放成一个统一的标准尺寸，全部处理后，再送入检测网络中，将长宽800*600的图像进行缩放，使用黑色背景来填充，填充后会出现大区域的黑边。在项目实际使用时，图片的长宽比几乎都不相同，因此缩放填充后，黑边大小都不同，如果填充的比较多，则存在信息冗余，影响网络推理速度。

因此，在最新的 YOLOv5 算法中进行了改进，这也是 YOLOv5算法推理速度能够变快的一个方面。该算法对原始图像进行缩放操作时，可以根据图片尺寸，自适应的添加最少黑边，图像的黑边明显变少了，这样处理后，在推理时，计算量也会得到减少，从而使得网络的目标检测速度会得到提高。

通过这种自适应缩放的优化改进，YOLOv5的推理速度得到了提升，把长宽 800*600 的图像缩放填充为 416*416 尺寸的图像为例，介绍自适应图片缩放的三步：

第一步，计算长宽的缩放比例，将原始图像尺寸 800*600，分别除以缩放后的尺寸 416*416，可以计算出长边的缩放系数为0.52，宽边的缩放系数为0.69。

第二步，选择较小的缩放系数 0.52，将原始图像的长宽都乘以0.52，计算出此时的长边是416，宽边是312。

第三步，计算需要填充的黑色区域，宽边312和需要缩放到的 416相差104，差值除以 2，就得到了两端需要填充的黑色区域的高度。

1.1.2 主干网络

(1) Focus结构

Focus结构中关键的是切片操作，切片操作演示过程，将4×4×3的特征图经过切片处理，变成2×2×12的特征图。将608×608×3 的三通道图像输进 Focus 结构，经过切片操作，先变成304×304×12 的特征图，之后，经过使用 32 个卷积核的卷积操作，最终变成 304×304×32 的特征图。需要注意的是，YOLOv5s网络结构中的 Focus 结构使用32个卷积核，进行卷积操作，而其他三种网络结构，使用的卷积核数量有所增加。

(2) CSP结构

YOLOv5中有两种结构的CSP，CSP1_X结构在Backbone主干网络中，另一种CSP2_X结构在Neck中。对于Backbone的主

干网络结构，CSP 模块中的卷积核大小都是 3*3，步进值为 2，假如输入的图像尺寸是 608*608，那么它的特征图变化的规律

是：608*608 -> 304*304 -> 152*152 -> 76*76 -> 38*38 -> 19*19，最终得到了一个19*19大小的特征图。

使用CSP模块的优点：

一是增强网络的学习能力，使得训练出的模型，既能保持轻量化，又能有较高的准确性。

二是降低计算瓶颈。

三是降低内存成本。

1.1.3 Neck网络

(1) FPN+PAN

FPN 是自顶向下的，通过上采样操作，将高层的特征信息和低层特征进行融合，计算出预测的特征图。YOLOv5网络结构中在FPN层后面，还添加了一个特征金字塔，自下向上，其中有两个PAN 结构，通过下采样操作，将低层的特征信息和高层特征进行融合，输出预测的特征图。

优点：通过自顶向下的FPN层，传达强语义特征，而通过自底向上的特征金字塔，传达强定位特征，从不同的主干层，对不同的检测层，进行参数聚合。

1.1.4 输出端

(1) GIOU_Loss损失函数

目标检测算法的损失函数一般由 Classification Loss（分类损失函数）以及 Bounding Box Regression Loss（回归损失函数）两大部分组成。回归损失函数在近几年的发展过程是：

Smooth L1 Loss -> IOU _Loss（2016）-> GIOU_Loss（2019）-> DIOU_Loss（2020）-> CIOU_Loss（2020）。

假设预测框和真实框的交集为A，并集为B，IOU定义为交集A除以并集B，IOU的Loss为：

IOU_Loss = 1-IOU=1-AB (1)

IOU的Loss比较简单，但存在两个问题。

问题1：预测框和真实框不相交的情况，此时 IOU 为 0，无法反应出预测框和真实框距离的远近，此时损失函数不能求导，IOU_Loss损失函数无法优化预测框和真实框不相交的情况。

问题 2：当预测框和真实框大小相同，IOU 也可能会相同，此时 IOU_Loss 损失函数也不能区分这两种情况的不同。

因此使用GIOU_Loss来进行改进。令预测框和真实框的最小外接矩形为集合C，差集定义为集合C和并集B的差，则GIOU_Loss为：

GIOU_Loss=1-GIOU=1-(IOU-|差集||C |) (2)

GIOU_Loss损失函数提高了衡量相交尺度的方式，减少了单纯IOU_Loss时的不足。

1.2 YOLOv5网络结构分析

YOLOv5的4种网络结构YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x内容基本一样，只在深度和宽度上不同，通过depth_multiple 和 width_multiple 两个参数来进行控制，其中前者控制网络深度，后者控制网络宽度。现在分析4 种网络结构的差异。

1.2.1 网络结构深度

YOLOv5 网络结构中有两种CSP结构，分别是CSP1和CSP2，其中CSP1结构存在于Backbone主干网络中，CSP2结构存在于Neck网络中，四种网络中每个CSP结构的深度都是不同的。

图5 YOLOv5四种网络的CSP结构

以 YOLOv5s为例，第一个CSP1中，使用了1个残差组件，因此是CSP1_1，在YOLOv5m中，增加了网络的深度，在第一个CSP1中，使用了2个残差组件，因此是CSP1_2，YOLOv5l中，同样的位置，则使用了3个残差组件，YOLOv5x中，使用了4个，其余CSP也是同样的原理，使用残差组件的个数如图5所示。

在CSP2结构中，以第一个CSP2结构为例，YOLOv5s中使用了1组2*1等于2的卷积，因此是 CSP2_1，而YOLOv5m中使用了2 组，YOLOv5l中使用了3组，YOLOv5x中使用了4组，其他的四个CSP2结构，同理。YOLOv5的四种网络结构，随着不断加深网络层数，网络的特征提取能力以及特征融合能力也不断提高。

1.2.2 网络结构宽度

如图6可以看出四种网络结构在不同位置，使用的卷积核数量都是不一样的，因此直接影响卷积后特征图的第三维度，即网络的宽度。

图6 YOLOv5四种网络的卷积核个数

以 YOLOv5s的网络结构为例，YOLOv5s网络中的第一个Focus结构，进行卷积操作时，使用的卷积核个数是32个，而YOLOv5m的Focus结构中，使用48个卷积核，进行卷积操作，在YOLOv5l，YOLOv5x中也是同样的原理。卷积核个数越多，特征图的宽度越宽，网络提取特征的学习能力也越强。

2. Deep sort算法原理与网络结构

2.1 deep sort算法

Deepsort在原来Sort算法的基础上，改进了以下内容：

使用级联匹配算法：针对每一个检测器都会分配一个跟踪器，每个跟踪器会设定一个time_since_update参数。

添加马氏距离与余弦距离：实际上是针对运动信息与外观信息的计算。

添加深度学习特征：这一部分也就是ReID的模块，也是deepsort的亮点之一。

代码流程

由于deepsort的流程和算法原理几乎和sort一样，只是说增加了上边三个特色，因此我们直接从代码开始讲起：

2.2 deep sort算法整体流程图

算法的整体流程图如下所示：

整个算法的工作流程如下：

（1）将第一帧次检测到的结果创建其对应的Tracks。将卡尔曼滤波的运动变量初始化，通过卡尔曼滤波预测其对应的框框。这时候的Tracks一定是unconfirmed的。

（2）将该帧目标检测的框框和第上一帧通过Tracks预测的框框一一进行IOU匹配，再通过IOU匹配的结果计算其代价矩阵（cost matrix，其计算方式是1-IOU）。

（3）将（2）中得到的所有的代价矩阵作为匈牙利算法的输入，得到线性的匹配的结果，这时候我们得到的结果有三种，第一种是Tracks失配（Unmatched Tracks），我们直接将失配的Tracks（因为这个Tracks是不确定态了，如果是确定态的话则要连续达到一定的次数（默认30次）才可以删除）删除；第二种是Detections失配（Unmatched Detections），我们将这样的Detections初始化为一个新的Tracks（new Tracks）；第三种是检测框和预测的框框配对成功，这说明我们前一帧和后一帧追踪成功，将其对应的Detections通过卡尔曼滤波更新其对应的Tracks变量。

（4）反复循环（2）-（3）步骤，直到出现确认态（confirmed）的Tracks或者视频帧结束。

（5）通过卡尔曼滤波预测其确认态的Tracks和不确认态的Tracks对应的框框。将确认态的Tracks的框框和是Detections进行级联匹配（之前每次只要Tracks匹配上都会保存Detections其的外观特征和运动信息，默认保存前100帧，利用外观特征和运动信息和Detections进行级联匹配,这么做是因为确认态（confirmed）的Tracks和Detections匹配的可能性更大）。

（6）进行级联匹配后有三种可能的结果。第一种，Tracks匹配，这样的Tracks通过卡尔曼滤波更新其对应的Tracks变量。第二第三种是Detections和Tracks失配，这时将之前的不确认状态的Tracks和失配的Tracks一起和Unmatched Detections一一进行IOU匹配，再通过IOU匹配的结果计算其代价矩阵（cost matrix，其计算方式是1-IOU）。

（7）将（6）中得到的所有的代价矩阵作为匈牙利算法的输入，得到线性的匹配的结果，这时候我们得到的结果有三种，第一种是Tracks失配（Unmatched Tracks），我们直接将失配的Tracks（因为这个Tracks是不确定态了，如果是确定态的话则要连续达到一定的次数（默认30次）才可以删除）删除；第二种是Detections失配（Unmatched Detections），我们将这样的Detections初始化为一个新的Tracks（new Tracks）；第三种是检测框和预测的框框配对成功，这说明我们前一帧和后一帧追踪成功，将其对应的Detections通过卡尔曼滤波更新其对应的Tracks变量。

（8）反复循环（5）-（7）步骤，直到视频帧结束。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

YOLOv5算法原理与网络结构的相关文章

人工智能AI 全栈体系（一）

第一章神经网络是如何实现的这些年人工智能蓬勃发展在语音识别图像识别自然语言处理等多个领域得到了很好的应用推动这波人工智能浪潮的无疑是深度学习所谓的深度学习实际上就是多层神经网络至少到目前为止深度学习基本上是用神经网络实现的
mysql 字段值(字符串)累加

mysql在更新记录时需要在原来的值上在累加新的值例如原来有条记录 id country a784829a c0dc 4cb6 88a9 8c376fab83a6 USA 现在更新更新country字段在原值的基础上添加 UK 使其变
申请Google Player帐号上传自己开发的App

1 访问https play google com apps publish signup 2 输入个人信息 3 在选择国家地区时由于列表中没有中国所以我们只能选择香港注册Google Player开发帐号是需要支付25美元费用的
Unity中关于委托与事件的使用及区别

一前言 1 什么是委托个人理解委托是一种容器容器里面放的是函数方法而函数的形式各不相同参数返回值各不相同所以你做委托之前先得要定义好这个委托容器存放的函数的类型即委托类型定义了好了函数类型后将函数加入到委托容器后你
【Ubuntu】右键菜单添加用vscode打开

右键菜单添加自定义命令本文以添加右键使用vscode打开为例 1 进入 local share nautilus scripts文件夹 cd local share nautilus scripts 2 创建文件 vim Open in

随机推荐

关于工具trinity：syscall测试

git地址 https github com kernelslacker trinity linux下对syscall的模糊测试 main函数位于trinity c中 int main int argc char argv int ret
PLC通讯协议【三菱】FX协议的报文格式和读写示例

通过编程口通讯协议具体可操作的软元件有 X Y M S T C D 通讯设置必须设置为波特率9600 偶校验 7位数据位 1停止位否则无法通讯一报文结构注意通讯协议中的所有字符是用它们的十六进制ASCII码表示如果有十进制
Unity 3D模型展示之模型高亮

最终效果 1 导入插件Outline Effect 在Asset Store或者Package Manager中搜索Outline Effect 并导入插件导入成功后 2 Outline Effect 的使用 Main Camera添加O
浅谈伺服电机三种控制方式

速度控制和转矩控制都是用模拟量来控制的位置控制是通过发脉冲来控制的具体采用什么控制方式要根据客户的要求满足何种运动功能来选择如果您对电机的速度位置都没有要求只要输出一个恒转矩当然是用转矩模式如果对位置和速度有一定的精度要求
Vue中Rule的使用

日常的rule效验能帮我们省很多时间去做if eles判断下边记录一下我在入职新公司的使用 1 需要效验的字段要在from item上家prop属性可以和字段同名 2 在data中创建一个rules对象绑定当前的from表单并把
dev c++无法识别汇编代码_新手福利丨超详细的Tengine GEMM矩阵乘法汇编教程

很多刚入门Tengine的开发者想研读Tengine汇编代码却苦于没有好的汇编入门教程没有大神带入门自己看又看不懂怎么办福利来了 Tengine带来了一份超详细的gemm汇编教程 GEMM简介什么是GEMM 它的英文全称是 GE
常见服务知识点罗列--haproxy/keepalived

一 haproxy 1 haproxy配置的主要模块 global defaults 主要功能实现负载均衡 root k8s ha1 vim etc haproxy haproxy cfg listen k8s 6443 bind 192
Prometheus监控 controller-manager scheduler etcd

用prometheus插件监控kubernetes控制平面例如您使用kubeadm构建k8s集群然后kube控制器管理器 kube调度程序和etcd需要一些额外的工作来进行发现 create service for kube cont
利用pandas生成csv文件和读取csv文件中的方法

方法一 1 我构造了一个cont list 结构为列表嵌套字典字典是每一个样本类似于我们爬虫爬下来的数据的结构 2 利用pd DataFrame方法先将数据转换成一个二维结构数据如下方打印的内容所示 cloumns指定列表列表必须是
MySQL主从复制与读写分离

目录主从复制与读写分离读写分离 MySQL 读写分离原理读写分离分类主从复制 mysq支持的复制类型主从复制的工作过程 MySQL主从复制延迟搭建 MySQL主从复制搭建 MySQL读写分离主从复制与读写分离在实际的生产环
python拆解字典中包含list的数据，全排列全部组合

效果就是把类似 my dict config 1 1 2 3 4 config 2 test config 3 4 config 4 a b config 5 a 这样的数据拆解为 config 2 test config 3 4 conf
vue中使用vue-touch

如果想让vue能够监听移动端的上滑下滑左滑点击等等动作可以使用vue touch插件 vue touch的使用十分简单首先在vue项目中安装vue touch npm install vue touch next save 然后在
Unknown column in ‘where clause‘ 报错异常

这时候我们首先要想到肯定是sql出现问题打印出sql语句用查询来执行明显在需要查询的字段应该是加上引号正确查询如下解决方法修改拼接查询语句的函数在用测试类测试完美解决
Matlab实战系列（一）——一些常用的绘图语句

之前一直用Python的matplotlib pyplot包画图很少用matlab 这次作业想用一下发现很多调整画图版式的函数都不太会用网上系统一点的代码也不多于是写一篇这个记录一下母函数plot plot lambda R col
python---三元表达式

三元表达式适用于二选一的场景其结构为值1 if 条件 else 值2 条件如果成立则使用值1 if前面的数据条件如果不成立则使用值2 else后面的数据写一个电影系统需要决定电影是否收费 is change input 是否收费
动手深度学习13：计算机视觉——语义分割、风格迁移

文章目录一语义分割 1 1 语义分割简介 1 2 Pascal VOC2012 语义分割数据集 1 2 1下载读取数据集 1 2 2 构建字典 RGB颜色值和类名互相映射 1 2 3 数据预处理 1 2 4 整合所有组件读取Pasc
栈的原理以及应用（制作一个简单的计算器）

说在前面其实有一段时间没有更新了主要是这段时间学习了很多很多的新东西现在也渐渐做一些整理栈 stack 1 基础介绍 1 栈是一种先入后出 FILO 的有序列表 2 栈是限制线性表中元素插入和删除只能在线性表同一侧进行的一种特殊线性
STM32G031 HAL库TIM2 PWM使用占空比可调

废话不多直接上代码 void HAL TIM MspPostInit GPIO InitTypeDef GPIO InitStruct 0 HAL RCC GPIOA CLK ENABLE GPIO InitStruct Pin GPIO
飞凌RZ/G2L的开发板实上的时视频编码推流设计与实现

飞凌RZ G2L的开发板测评实时视频编码推流设计与实现大信 QQ 8125036 在完成RZ G2L板上视频采集的试用测试基础上逐渐熟悉了RZ G2L开发板的SDK 在研究过它的音视频硬件与软件包后想进一步利用该开发板做音视频的深度
YOLOv5算法原理与网络结构

YOLOv5算法原理与网络结构 1 1 YOLOv5算法 YOLOv5算法共有4种网络结构分别是YOLOv5s YOLOv5m YOLOv5l和YOLOv5x 这四种网络结构在宽度和深度上不同原理上基本一样接下来以 YOLOv5s 为

YOLOv5算法原理与网络结构

YOLOv5算法原理与网络结构 的相关文章

随机推荐

热门标签

YOLOv5算法原理与网络结构的相关文章