清晰、幽默、轻松地深入理解YOLOv5网络结构和一些细节（查阅无数资料文献总结）

2023-11-15

最近的一篇关于YOLOv5检测小目标博客的点击量很高，没想到YOLOv5还是很有影响力的。既然这样，今天本人就本着幽默、清晰、轻松的风格带大家深入了解一下YOLOv5那倾倒众生的网络结构，和它较之其他算法的改进之处。还是一句话，希望我的不经意之谈能够帮助到各位，如果感兴趣可以收藏一下，有任何问题欢迎下方评论，我会倾尽全力解答的呦！

1.YOLOv5简介

YOLOv5是一种单阶段目标检测算法，该算法在YOLOv4的基础上添加了一些新的改进思路，使其速度与精度都得到了极大的性能提升。主要的改进思路如下所示：

输入端：在模型训练阶段，提出了一些改进思路，主要包括Mosaic数据增强、自适应锚框计算、自适应图片缩放；
基准网络：融合其它检测算法中的一些新思路，主要包括：Focus结构与CSP结构；
Neck网络：目标检测网络在BackBone与最后的Head输出层之间往往会插入一些层，Yolov5中添加了FPN+PAN结构；
Head输出层：输出层的锚框机制与YOLOv4相同，主要改进的是训练时的损失函数GIOU_Loss，以及预测框筛选的DIOU_nms。

在Github上，大神已经更新了YOLOv5的6.0版本，其中主要是将SPP结构改成了串行结构，而且进过一顿的测试实验操作，证明了无论是从参数量的减少上还是FLOPS等指标上均有显著的提升。

本人认为，，技术，尤其是这日新月异的人工智能领域，当然是要学习最新的技术了。（ps:最近在忙着下一篇论文，时常感觉到新技术太多了，学不过来了，时刻都在进步，所以各位要趁着年轻多学习哦！）

2.YOLOv5的网络结构（个人绘制，如有转载，还请声明，铁粉除外哈哈）

3.一些需要强调的基本细节知识（跟紧学习的脚步，马上讲完了）

YoloV5所使用的主干特征提取网络为CSPDarknet，它具有五个重要特点：
3.1、使用了残差网络Residual，CSPDarknet中的残差卷积可以分为两个部分，主干部分是一次1X1的卷积和一次3X3的卷积；残差边部分不做任何处理，直接将主干的输入与输出结合。整个YoloV5的主干部分都由残差卷积构成.

残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

def Bottleneck(x, out_channels, shortcut=True, name = ""):
    y = compose(
            DarknetConv2D_BN_SiLU(out_channels, (1, 1), name = name + '.cv1'),
            DarknetConv2D_BN_SiLU(out_channels, (3, 3), name = name + '.cv2'))(x)
    if shortcut:
        y = Add()([x, y])
    return y

3.2、使用CSPnet网络结构，CSPnet结构并不算复杂，就是将原来的残差块的堆叠进行了一个拆分，拆成左右两部分：主干部分继续进行原来的残差块的堆叠；另一部分则像一个残差边一样，经过少量处理直接连接到最后。因此可以认为CSP中存在一个大的残差边。

def C3(x, num_filters, num_blocks, shortcut=True, expansion=0.5, name=""):
    hidden_channels = int(num_filters * expansion)  # hidden channels 
    x_1 = DarknetConv2D_BN_SiLU(hidden_channels, (1, 1), name = name + '.cv1')(x) 
    x_2 = DarknetConv2D_BN_SiLU(hidden_channels, (1, 1), name = name + '.cv2')(x)
    for i in range(num_blocks):
        x_1 = Bottleneck(x_1, hidden_channels, shortcut=shortcut, name = name + '.m.' + str(i))  
    route = Concatenate()([x_1, x_2])
    return DarknetConv2D_BN_SiLU(num_filters, (1, 1), name = name + '.cv3')(route)

3.3、使用了Focus网络结构，这个网络结构是在YoloV5里面使用到比较有趣的网络结构，具体操作是在一张图片中每隔一个像素拿到一个值，这个时候获得了四个独立的特征层，然后将四个独立的特征层进行堆叠，此时宽高信息就集中到了通道信息，输入通道扩充了四倍。拼接起来的特征层相对于原先的三通道变成了十二个通道.

class Focus(Layer):
    def __init__(self):
        super(Focus, self).__init__()

    def compute_output_shape(self, input_shape):
        return (input_shape[0], input_shape[1] // 2 if input_shape[1] != None else input_shape[1], input_shape[2] // 2 if input_shape[2] != None else input_shape[2], input_shape[3] * 4)

    def call(self, x):
        return tf.concat(
            [x[...,  ::2,  ::2, :],
             x[..., 1::2,  ::2, :],
             x[...,  ::2, 1::2, :],
             x[..., 1::2, 1::2, :]],
             axis=-1
        )

3.4、使用了SiLU激活函数，SiLU是Sigmoid和ReLU的改进版。SiLU具备无上界有下界、平滑、非单调的特性。SiLU在深层模型上的效果优于 ReLU。可以看做是平滑的ReLU激活函数。

class SiLU(Layer):
    def __init__(self, **kwargs):
        super(SiLU, self).__init__(**kwargs)
        self.supports_masking = True

    def call(self, inputs):
        return inputs * K.sigmoid(inputs)

    def get_config(self):
        config = super(SiLU, self).get_config()
        return config

    def compute_output_shape(self, input_shape):
        return input_shape

3.5、使用了SPP结构，通过不同池化核大小的最大池化进行特征提取，提高网络的感受野。在YoloV4中，SPP是用在FPN里面的，在YoloV5中，SPP模块被用在了主干特征提取网络中.

def SPPBottleneck(x, out_channels, name = ""):
    x = DarknetConv2D_BN_SiLU(out_channels // 2, (1, 1), name = name + '.cv1')(x)
    maxpool1 = MaxPooling2D(pool_size=(5, 5), strides=(1, 1), padding='same')(x)
    maxpool2 = MaxPooling2D(pool_size=(9, 9), strides=(1, 1), padding='same')(x)
    maxpool3 = MaxPooling2D(pool_size=(13, 13), strides=(1, 1), padding='same')(x)
    x = Concatenate()([x, maxpool1, maxpool2, maxpool3])
    x = DarknetConv2D_BN_SiLU(out_channels, (1, 1), name = name + '.cv2')(x)
    return x

4.在小目标领域内的应用及原理

之前介绍过，可以参考我这篇文章，里面主要介绍了两种常用简单的思想以及他们代码。

(37条消息) yolov5小目标检测-提高检测小目标的检测精度_Hack Hui的博客-CSDN博客_yolov5小目标检测https://blog.csdn.net/m0_58508552/article/details/124204882?spm=1001.2014.3001.5501 首先我们先明白一个事儿，啥叫小目标。人生三连问：怎么小，哪里小，为啥小。说白了啊，所谓小目标就是由于其自身的尺寸小，再加上采集的时候导致目标像素太小，一般认为20×20--40×40像素都可以认为是小目标。

那么咋办呢？问的好，再介绍个方法，在YOLOV5中有个锚框的定义，问题又来了，锚框是什么。所谓锚框就是网络能把目标物体圈出来的框框，这里又有两种方法。一种是在我上面链接里的文章写的自己根据自己的数据集去人为地规定好锚框大小，这需要你有耐心，一点点去改锚框尺寸大小以适应你自己的数据集。注意三个锚框从上到下分别为检测大、中、小目标的，至于为啥，一般都懂，不懂在下方评论问我吧。那么好，第二种就是在letterbox.py里面的自适应计算锚框了，他是根据遗传算法进行1000次的迭代更新找到最适合的锚框的。同样如果遗传算法也不懂，那你下方评论问我（放弃程序员吧）哈哈。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

清晰、幽默、轻松地深入理解YOLOv5网络结构和一些细节（查阅无数资料文献总结）的相关文章

有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
在 Pandas 中，如何从基于另一个数据框的数据框中删除行？

我有 2 个数据框一个名为 USERS 另一个名为 EXCLUDE 他们都有一个名为电子邮件的字段基本上我想删除 USERS 中包含 EXCLUDE 中包含电子邮件的每一行我该怎么做您可以使用boolean indexing
使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor

随机推荐

杨辉三角形（c++题解）

问题描述打印出杨辉三角的前N行 N lt 50 输入格式一个数字N 输出格式杨辉三角形的前N行样例输入 5 样例输出 1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 提示结果会超过int的范围建议用long long
GB9706.1-2007+2020和IEC60601-1：2005 Ed3.0第三版+2012 Ed3.1新三版标准主要差异解析

链接 https pan baidu com s 1m9Ir7fG6EP8WH6rd DdS4Q 提取码 abc1 复制这段内容后打开百度网盘手机App 操作更方便哦国际标准IEC版本和国家标准GB版本对应关系国际标准IEC 国家标准
mybatis批量更新
创新工场笔试题----有1分,2分,5分,10分四种硬币，每种硬币数量无限，给定n分钱，求有多少种组合可以组合成n分钱？

题目有1分 2分 5分 10分四种硬币每种硬币数量无限给定n分钱求有多少种组合可以组合成n分钱代码如下 void Combination int a int index int n vector
解决UnicodeEncodeError: 'ascii' codec can't encode characters in position问题

原文地址 http blog sina com cn s blog 64a3795a01018vyp html 解决方法1 在开头加上 import sys reload sys sys setdefaultencoding utf 8 解
Jetpack学习之LiveData

LiveData是一个可被观察的数据容器类它是一个数据的容器将数据包装起来使数据成为被观察者当该数据发生变化时观察者能够获得通知和ViewModel的关系 ViewModel用于存放页面所需的各种数据以及数据相关的业务逻辑因
sc 不是内部或外部命令

安装nodejs 或yarn后发现控制台命令会提示 sc 不是内部或外部命令问题原因 nodejs或yarn安装后会把系统默认环境变量Path的值给替换了解决方案将系统环境变量Path的值后面加上 SystemRoot syste
java superclass_java Class的 getSuperclass与getGenericSuperclass区别

Class的getInterfaces与getGenericInterface区别 http www cnblogs com maokun p 6773076 html 一 getSuperclass 返回直接继承的父类由于编译擦除没有
【好题】第九届“图灵杯”NEUQ-ACM程序设计竞赛个人赛 F-第二大数思维

题求各个范围的第二大数举个例子 4 9 6 4 5 6 4 4 6 5 6 第二大数分别是 6 4 4 6 5 6 我们的做法就是按照题目顺序 i从1开始 j从i 1开始每次记录当前最大数和第二大数对于每次新出现的数a j 如果它大
二维动态规划＞＞01背包问题与普遍应用

0 内容梗概在二维动态规划中 01背包问题是动态规划中的经典问题本文首先学习总结01背包问题的思路方法与实现之后 01背包问题与其说是问题更可以是一种解题思路或者说套路如果遇到别的题目时能够清楚地判断出它是一个01背包的类
【Metashape精品教程2】创建工程

Metashape精品教程2 创建工程文章目录 Metashape精品教程2 创建工程前言一导入照片二导入pos 三设置相机参数没有可不设置让软件反算相机参数四导入控制点五保存工程前言本章内容主要讲解工程的创建
statsmodels中的summary解读（OLS）

Dep varible y 输出y变量的名称 Model OLS 使用的参数确定的模型OLS Method Least Squares 使用最小二乘法确定参数 Date Sat 10 Aug 2019 日期 Time 18 10 04 时间
什么是Spring Cloud Config

Spring Cloud Config 是一个解决分布式系统的配置管理方案它包含 Client和 Server 两个部分 Server 提供配置文件的存储以接口的形式将配置文件的内容提供出去 Client 通过接口获取数据并依据此数据
艺术+DeFi，看MEME如何玩转NFT

内容概述 MEME代币已经成功登陆加密货币交易所Poloniex 就在成功上市之后 MEME代币价格一度飙升至1800美元高位 MEME协议允许人们赚取菠萝积分并将其兑换为NFT代币 9月22日加密货币交易所Poloniex在其DeF
机器学习阶段总结一

最近一直在看机器学习相关内容主要是看的斯坦福的Andrew Ng教授的公开课视频可以点这里看了前四讲最大的感觉就是这简直就是概率论线代用到的数学知识着实不少不过也挺有趣的继续学下去初步总结一下主要是关于监督学习回归分类
Redis学习：Redis的持久化

Redis的持久化方式有两种 rdb和aof rdb理解为快照 save规则出发会的得到一个快照 aof是追加的形式可以理解为binlog那种 RDB 在进行 RDB 的时候 redis 的主线程是不会做 io 操作的主线程会 fork
独门秘籍奉上！听说这是CCF遥感地块分割比赛冠军的“获胜法宝”！

飞桨开发者说黎昆昌 CCF BDCI遥感影像地块分割赛道冠军团队 CCF BDCI 2020 综合特等奖团队队长中国科学院深圳先进技术研究院20级硕士 CCF大数据与计算智能大赛 CCF BCI 由中国计算机学会于2013年创办作为全
Nginx配置不缓存html

Nginx配置不缓存html 1 配置nginx不缓存html 1 1 修改配置文件 1 2 验证 2 Vue项目修改根目录index html 1 配置nginx不缓存html 1 1 修改配置文件 location expires 1h
有特别有创意的网站设计案例

有人说 UI 设计师集艺术性与科学性于一身不仅需要对工具的使用熟练更需要对美术艺术有一定的基础了解如果想要成为优秀的 UI 设计师是一个需要磨砺的过程需要不断的学习和积累多看多练多感受其中对于优质的设计案例的收集和练习是重要的
清晰、幽默、轻松地深入理解YOLOv5网络结构和一些细节（查阅无数资料文献总结）

最近的一篇关于YOLOv5检测小目标博客的点击量很高没想到YOLOv5还是很有影响力的既然这样今天本人就本着幽默清晰轻松的风格带大家深入了解一下YOLOv5那倾倒众生的网络结构和它较之其他算法的改进之处还是一句话希望我的不经

清晰、幽默、轻松地深入理解YOLOv5网络结构和一些细节（查阅无数资料文献总结）

清晰、幽默、轻松地深入理解YOLOv5网络结构和一些细节（查阅无数资料文献总结） 的相关文章

随机推荐

热门标签

清晰、幽默、轻松地深入理解YOLOv5网络结构和一些细节（查阅无数资料文献总结）的相关文章