YOLO(实时目标检测)V1-V2-V3简介和细节改进

2023-11-09

深度学习经典检测方法
one-stage(一阶段)YOLO系列
核心优势:速度快,适合实时检测任务。
缺点是通常情况下效果不是太好。
在这里插入图片描述

two-stage(两阶段):Faster-rcnn Mask-Rcnn系列
速度比较慢,但是效果不错。
在这里插入图片描述

指标分析
map指标:综合衡量检测效果,不能只参考精度和recall。
在这里插入图片描述

​	[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UAGBq7br-1664176911500)(YOLO.assets/image-20220926093032757.png)]

P(Positive)和N(Negative) 表示模型的判断结果
T(True)和F(False) 表示模型的判断结果是否正确

FP:假正例 FN:假负例 TP:真正例 TN:真负例

准确率(Accuracy):这三个指标里最直观的就是准确率: 模型判断正确的数据(TP+TN)占总数据的比例
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ksqjoup1-1664176911501)(YOLO.assets/image-20220926093730566.png)]
召回率(Recall): 针对数据集中的所有正例(TP+FN)而言,模型正确判断出的正例(TP)占数据集中所有正例的比例.FN表示被模型误认为是负例但实际是正例的数据.召回率也叫查全率,以物体检测为例,我们往往把图片中的物体作为正例,此时召回率高代表着模型可以找出图片中更多的物体!
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z7EJJ50q-1664176911502)(YOLO.assets/image-20220926093737810.png)]
精确率(Precision):针对模型判断出的所有正例(TP+FP)而言,其中真正例(TP)占的比例.精确率也叫查准率,还是以物体检测为例,精确率高表示模型检测出的物体中大部分确实是物体,只有少量不是物体的对象被当成物体
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Cxh59ai6-1664176911503)(YOLO.assets/image-20220926093743477.png)]
区分好召回率和精确率的关键在于:针对的数据不同,召回率针对的是数据集中的所有正例,精确率针对的是模型判断出的所有正例
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Bwxb68qr-1664176911504)(YOLO.assets/image-20220926093906912.png)]
在这里插入图片描述
YOLO-V1
经典的one-stage方法
You Only Look Once
把检测问题转化为回归问题,一个CNN搞定
可以对视频进行实时检测,应用领域广。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bH9jSiqg-1664176911505)(YOLO.assets/image-20220926094719177.png)]

核心思想
在这里插入图片描述

网络架构
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2UAk3M76-1664176911506)(YOLO.assets/image-20220926095638854.png)]

在这里插入图片描述

损失函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q263Yp7n-1664176911507)(YOLO.assets/image-20220926101048949.png)]

NMS(非极大值抑制)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6rGOG2ZQ-1664176911507)(YOLO.assets/image-20220926102049874.png)]

YOLO-V1存在的问题
每个Cell只预测一个类别,如果重叠无法解决。
小物体检测效果一般,长宽比可选的但单一。
YOLO-V2

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dSGeI46t-1664176911508)(YOLO.assets/image-20220926102523255.png)]
舍弃Dropout,卷积后全部加入Batch Normalization
网络的每一层的输入多做了归一化,收敛相对更容易
经过Batch Normalization 处理后的网络会提升2%的mAP
从现在角度看,Batch Normalization已经成为网络必备处理
V1训练时候用的224 * 224,测试时使用448 * 448
可能导致模型水土不服,V2训练时额外又进行了10次448 * 448的微调
使用高分辨率分类器后,YOLOV2的mAP提升了4%

V2网络结构
DarkNet,实际输入为416 * 416
没有FC层,5次降采样,(13 * 13)
1 * 1卷积节省了很多参数
在这里插入图片描述

聚类提取先检框
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NVSb06ay-1664176911509)(YOLO.assets/image-20220926103435572.png)]
偏移量计算方法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HJ00vSgD-1664176911509)(YOLO.assets/image-20220926104816565.png)]在这里插入图片描述

坐标映射与还原

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sNPQZVrQ-1664176911511)(YOLO.assets/image-20220926105106602.png)]

感受野的作用
概述来说就是特征图上的点能看到原始图像多大区域
​	[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d8cJGXDo-1664176911511)(YOLO.assets/image-20220926105324013.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V1BYPDEy-1664176911512)(YOLO.assets/image-20220926145109958.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0ZfbqK9y-1664176911513)(YOLO.assets/image-20220926145141743.png)]

特征融合改进
最后一层时感受野太大了,小目标可能丢失了,需融合之前的特征。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DGyZa766-1664176911514)(YOLO.assets/image-20220926145446355.png)]
在这里插入图片描述

YOLO-V3

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MTiiMEj7-1664176911515)(YOLO.assets/image-20220926145756870.png)]
V3最大的改进就是网络结构,使其更适合小目标检测
特征做的更细致,融入多持续特征图信息来预测不同规格物体
先验框更丰富,3种scale,每种三个规格,一共9种
softmax改进,预测多标签任务

多scale方法改进与特征融合

为了能检测到不同大小的物体,设计了3个scale
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o2NJfoDO-1664176911516)(YOLO.assets/image-20220926150125749.png)]
经典变换方法对比分析
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FZsMCKfp-1664176911517)(YOLO.assets/image-20220926150523771.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zgxxfY3C-1664176911518)(YOLO.assets/image-20220926150544542.png)]
残差连接方法

残差连接 - 为了更好的特征,基本上所有的网络架构都用上了残差连接的方法
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mKJlPLb3-1664176911518)(YOLO.assets/image-20220926150712859.png)]

核心网络架构

没有池化和全连接层,全部卷积
下采样通过stride为2实现
3种scale,更多先验框
基本上当下经典做法全融入了
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A2tV5M1S-1664176911519)(YOLO.assets/image-20220926151337802.png)]
在这里插入图片描述
先验框设计改进

YOLO-V2中选了5个,V3有9个
在这里插入图片描述
softmax层改进

物体检测任务中可能一个物体有多个标签
logistic激活函数来完成,这样就能预测每一个类别是/不是
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XlJa0vdG-1664176911520)(YOLO.assets/image-20220926151925578.png)]

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

YOLO(实时目标检测)V1-V2-V3简介和细节改进 的相关文章

  • SIEM的内容

    20200920 昨天看到了与SIEM相关的内容 但是除了一篇文章给我讲解了他们部分的SOC架构与方案 这个算是SIEM的升级版吧 其他的文章都没有给我非常好的反馈 这里来记录一下 文章列表 1 Security Correlation T
  • 反射与泛型

    文章目录 Class API demo reflect set action Class API getField getField String name 能获取 public 的字段 包括父类的 getDeclaredField Str
  • Linux E:Could not get lock /var/lib/dpkg/lock - open (11:Resource temorarily unavailable)

    1 错误提示如下图所示 2 解决方法 1 找到并杀掉所有的apt get和apt进程 运行命令 ps A grep apt 2 3 使用命令 sudo kill 9 进程号 或者 sudo kill SIGKILL 进程号 来关闭所有进程
  • 使用mysqldump命令导出指定数据库的数据+Java实现数据库的一键导出备份

    由于项目中需要用到在页面添加一个一键数据备份的功能 所以选择使用mysqldump命令的方法 用java的运行时类Java lang Runtime来使用后台窗口 记录下整个实现的过程 1 首先mysqldump命令需要在mysql的bin

随机推荐

  • linux管理控制面板--可视化管理linux

    市面上主要的网站主机分为三大类 具体差异简单说明 虚拟主机 也是大家口中说的 主机空间 可定制化低 适合纯小白和新手 完全不懂技术 说明白点 就是一台云服务器分割空间和内存形成的主机空间 可以用来搭建网站 但是管理权限受到主机厂商一些限制
  • 实现compose的五种思路

    好久没有更新了 最近学习的过程中一直在用联想的思维来去看问题 javascript是一门非常灵活的语言 集合了好多语言的特性和多种编程模式 对于compose的实现 就有非常多的思路 每一种思路都有自己的特点 实现之后 有种殊途同归的快感
  • 谷粒学院学习总结

    目录 项目模块说明 项目功能点 一 后台管理系统功能 1 登录注册功能 2 权限管理功能 3 讲师管理模块 4 课程分类模块 5 课程管理模块 6 统计分析模块 7 Canal数据同步 8 GateWay网关 9 首页Banner模块 待做
  • 统计学基础知识梳理(三)

    假设检验 定义 假设检验是用来判断样本与样本 样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法 其基本原理是先对总体的特征作出某种假设 然后通过抽样研究的统计推理 对此假设应该被拒绝还是接受作出推断 假设检验与区间估计都是根据
  • mysql学习笔记(4)_TCL(Transaction Control Language)以及视图

    TCL Transaction Control Language 事务控制语言 事务简介 一个或一组sql语句组成一个执行单元 这个执行单元要么全部执行 要么全不执行 如果其中一条语句执行失败或产生错误 整个单元将会回滚 所有受到影响的数据
  • JSP 项目创建 idea完整版

    JSP 项目创建 idea完整版 打开IntelliJ IDEA 后 File gt new gt project 第二步 JAVA gt Web Application gt next 路径的存放 创建后的文件如图 配置web文件
  • 等保测评所需Linux操作命令

    等保测评所需Linux操作命令 主要测评命令 1 more etc passwd 文件中记录用户的属性信息 包括用户命 密码 用户标识 组标识等信息 2 more etc shadow 口令文件 用于保存包括个人口令在内的数据 不能被普通用
  • 将数组数据转为excel表导出

    安装xlsx依赖 npm install xlsx save npm install file saver script loader save 使用vue element admin 中的src vendor export2Excel j
  • 使用STM32完成基于I2C的AHT20温湿度数据采集

    文章目录 一 内容 二 关于I2C 1 I2C协议 2 软件I2C 3 硬件I2C 三 温湿度数据采集 1 实验器材 2 代码 3 电路连接 4 结果展示 四 总结 五 参考内容 一 内容 学习I2C总线通信协议 使用STM32F103完成
  • 数字成像系统笔记

    imaging algorithm specialist staff image quality engineer cmos sensor color science 3A 狭义3A 自动曝光 自动对焦 自动白平衡 广义 整个相机自动控制
  • 前脚背完这些接口自动化测试面试题,后脚就进了字节测试岗

    1 请结合你熟悉的项目 介绍一下你是怎么做测试的 首先要自己熟悉项目 熟悉项目的需求 项目组织架构 项目研发接口等 功能 接口 自动化 性能 是怎么处理的 第一步 进行需求分析 需求评审 研发和测试对需求达成统一的理解 第二步 架构师会输出
  • vscode终端颜色设置

    terminal integrated inheritEnv false editor fontSize 18 workbench colorCustomizations terminal background 200707 termina
  • 大数据简介&大数据应用场景

    背景 互联网信息化技术高速发展 企业生产过程中产生的数据量呈指数级上升 我们看一组统计 1986年 全球只有0 02EB也就是约21000TB的数据量 2007年 全球就是280EB也就是约300000000TB的数据量 翻了14000倍
  • vi查找替换命令详解

    一 查找 查找命令 pattern
  • Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍

    分词器介绍 ES作为全文检索服务 势必要对原始的文本进行内容的拆分 才能进行有效的索引 而拆分原始内容到一个一个小的词 或语义单元 这部分的功能由ES的分词器去完成的 常见分词器 standard ES默认的分词器 会将词汇单元进行小写形式
  • VulnHub DC-8

    确定靶机IP地址 扫描靶机的开放端口 发现靶机开放端口有80 22 访问80端口 扫描网站的目录 发现敏感目录user 访问user目录 发现是登陆界面 使用工具查看网站的CMS 发现网站的nid会变化试一试会不会有sql注入漏洞 加个单引
  • 连接数据库时zeroDateTimeBehavior的作用

    在JDBC连接串中有一项属性 zeroDateTimeBehavior 没添加 zeroDateTimeBehavior 在操作值为0的timestamp类型时不能正确的处理 而是默认抛出一个异常 就是所见的 java sql SQLExc
  • MySQL必知必会 学习笔记 第二十八章 安全管理

    用户应该具有适当的访问权 既不能多也不能少 MySQL Administrator提供了图形界面 可用来管理用户和账号权限 MySQL创建一个名为root的用户账号 它对整个MySQL服务器有完全的控制 在日常工作中 决不能使用root 而
  • 浮点数的比较 C++

    浮点数的比较 C 用 来比较浮点数 返回的数是不确定的 计算机对浮点数的进行计算的原理是只保证必要精度内正确即可 我们在判断浮点数相等时 推荐用范围来确定 若x在某一范围内 我们就认为相等 至于范围怎么定义 要看实际情况而已了 float
  • YOLO(实时目标检测)V1-V2-V3简介和细节改进

    深度学习经典检测方法 one stage 一阶段 YOLO系列 核心优势 速度快 适合实时检测任务 缺点是通常情况下效果不是太好 two stage 两阶段 Faster rcnn Mask Rcnn系列 速度比较慢 但是效果不错 指标分析