YOLO论文思路简析

2023-11-14

YOLO（You Only Look Once: Unified, Real-Time Object Detection）是一种2016年提出的用于视觉检测的算法，与之前的算不同，YOLO改变了检测的过程将检测转化为了一个回归问题，输出目标的bbox和p（概率）。相较于之前的算法，YOLO的执行速度很快，base YOLO可以达到45fps而fast YOLO可以达到155fps，基本可以满足实时的检测和输出，延时也将小于25ms。从结果上看，YOLO的局部检测效果较差，但也很少出现FP现象，同时YOLO对于大型目标的检测相对效果好且不易误判为背景。（对于检测结果存在四种可能：TP，FP，FN，TN）
YOLO的设计思想来源于人眼的单次观看识别，将图像整体作为YOLO的输入，经过resize，run cnn，NMS三个步骤即可得到输出。
图片摘自原文
网络特点：1.由于网络的结构十分简单，因此网络的识别速度很快,相较于同期的实时算法YOLO达到了两倍以上的准确率。
2.由于检测以整个图像作为输入，内部数据联系紧密，降低了背景的错误识别。
3.网络的适应性较好，在测试集与训练集不完全一致时仍能有较好效果。

网络将采用来自整张图片的特征同时对所有的目标进行检测和bbox预测，网络是一种端到端的结构，对于输入的图片可以直接输出bbox和p。对于输入图片将划分成SS个网格区域，检测目标的中心与所在网格关联。每个划分的网格都将产出B个bbox和score，score=P(Object)IoU，每个bbox都对应5个数据：坐标（x,y,w,h）和score。YOLO在检测时，同时预测网格是否包含目标中心和目标基于存在目标时属于各个种类的概率，最终可以计算目标属于各分类的概率。所以对于此设定下的YOLO网络，单个图片将输出规模为（SS（B5+C））的张量。

YOLO检测网络包括24个卷积层和2个全连接层,如图所示：
在这里插入图片描述
值得注意的是最终的输出一定是7730的张量（30=（2*5+20），2个bbox：坐标+置信率，20种分类概率）

损失函数方面，采用均方差的方式把localization error（bounding box的坐标误差）和classificaton error整合在一起。但是如果二者的权值相等，容易导致模型不稳定，训练发散。因为很多grid cell是不包含物体的，这样的话很多grid cell的confidence score为0。所以采用设置不同权重方式来解决，一方面提高localization error的权重，另一方面降低没有object的box的confidence loss权值，loss权重分别是5和0.5。而对于包含object的box的confidence loss权值还是原来的1。详见下面的原文解释和loss function函数。
网络的学习率是随着训练的次数变化的开始采用0.01,随着次数增加减为0.001，最后减为0.0001。

YOLO网络同样存在着缺陷，由于单个网格只存在两个bbox预测的数量受限，对于较小或者分布密集的目标难以识别

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

YOLO

YOLO论文思路简析的相关文章

opencv实现阈值分割

文章目录基础函数直方图阈值实现 threshold 函数使用三角法阈值实现迭代法阈值算法步骤 Python语法补充实现大津法理论 cv实现底层复现自适应阈值理论具体操作步骤优化 CV实现底层复现基础函数在

随机推荐

基于SSM+Vue的汽车售票网站的设计与实现

末尾获取源码开发语言 Java Java开发工具 JDK1 8 后端框架 SSM 前端采用Vue技术开发数据库 MySQL5 7和Navicat管理工具结合服务器 Tomcat8 5 开发软件 IDEA Eclipse 是否Mave
[前端系列第6弹]Ajax简明教程：轻松实现Web页面的异步交互

在这篇文章中我将介绍Ajax的基本概念原理优缺点实现方法和应用场景以及如何使用它来实现Web页面的异步交互还将给一些简单而实用的例子让你可以跟着我一步一步地编写自己的Ajax代码目录一什么是Ajax 二如何使用Ajax
gdb调试多进程程序和多线程程序

gdb调试多进程程序和多线程程序平时一般用gdb直接调试短小的程序好像我还没调试过多进程和多线程程序呢 1 gdb调试多进程程序如果一个进程通过fork系统调用创建了子进程 gdb会继续调试原来的进程子进程则正常运行常用的有两种方
win10设置任务栏双屏不同位置（方向）

在所有显示器上显示任务栏开任务栏在屏幕的位置底部在所有显示器上显示任务栏任务栏在屏幕的位置靠右在所有显示开 win10双屏设置任务栏位置方向哔哩哔哩 bilibili
重定义；多次初始化（C++报错）

C 中报错 b 重定义多次初始化如图将a b c前面的int数据类型去掉即可
SpringMvc，全面讲解@RequestParam注解的用法和原理

本文要讲的 RequestParam注解大家在开发中应该会经常的用到但是它的某些用法我感觉你不一定都知道所以这篇文章就讲解一下带大家拨开云雾全面了解这个注解使大家在开发中使用到这个注解的时候不再一知半解先看一下 RequestPar
生活服务是未来十年最大的商业机会？

编者按本文来自有邻的投稿内容来自有邻创始人杨仁斌周末在杭州一个 O2O 活动上的分享文章主要是杨仁斌对于 O2O 和生活服务的一些观点分享最后一个部分中介绍了他们自己家的有邻提及的数据等资料 36 氪不作背书我的第一个观点是
OpenWrt系统配置UCI

UCI简介 UCI Unified Configuration Interface 是 Openwrt 中的统一配置接口官方文档参考每一个程序的配置文件都保存在 etc config 目录可以通过文本编辑器 uci 一个可执行程序以
2022年社区工作人员社区专职工作者考试精选套卷及答案

题库来源优题宝公众号 2022年社区工作人员社区专职工作者考试精选套卷及答案根据最新社区工作人员社区专职工作者考试大纲与历年社区工作人员社区专职工作者考试真题汇总编写包含社区工作人员社区专职工作者考试常考重点题型与知识点有助于考生复
Metal 系列教程

这系列文章目前发布在我的小专栏 iOS 图像处理上欢迎订阅从 2014 年 Apple 正式推出 Metal 到现在这个 Metal 系列教程酝酿了很久却迟迟没有进展直到 WWDC 2018 Apple 宣布 iOS 12
社工库网址与制作方法

将互联网泄露的信息汇聚成数据库简单说黑客数据库中国执行信息公开网 http zxgk court gov cn dt dapp 1 全国标准信息公共服务平台 http std samr gov cn 征信中心 https ipcrs
arm启动redis报错

报错如下 WARNING you have Transparent Huge Pages THP support enabled in your kernel This will create latency and memory usag
从BOM,DOM和ECMAScript来看JavaScript

一个老套的问题 JavaScript是由什么组成的答 1 ECMAScript 核心描述JS的语法和基本对象 2 文档对象模型 DOM 处理网页内容的方法和接口 3 浏览器对象模型 BOM 与浏览器交互的方法和接口 ECMAScript
adb logcat命令查看并过滤android输出log

http blog csdn net hansel article details 38088583 cmd命令行中使用adb logcat命令查看Android系统和应用的log dos窗口按ctrl c中断输出log记录 logcat日
mysql之服务的停止和开启，登录和退出01

1 服务的停止和开启登录和退出 1 mysql服务的停止和开启 net stop 服务名例如net stop MYSQL56 服务名字通过右击电脑管理服务和应用程序服务获取 net start 服务名 2 MYSQL服务的登录和退
抖音私信卡片私信名片的原理分析

抖音私信卡片解决了客户封号严重引流效率低的痛点所以从去年到现在依然是热销品抖音快手私信名片链接跳转是2022年抖音快手引流最新技术可以生成卡片链接支持标题描述 logo以及跳转落地页的完全自定义配置支持微信公众号和微信号
JS对象类型的确定

http liaofeng xiao iteye com blog 697029 JS是松散类型的语言这一点JS的对象表现得尤为突出那么如何来确定JS对象的具体类型呢首先我们可以使用typeof运算符确定其基本类型 number o
PHPWord 实现合并多个word文件(完结)

PHPWord 本来想着当调包侠呢结果翻了一遍文档没有这种操作支持阿这 GPT 不出意外的一顿胡扯给气的要中风啦思路 word 也就是docx结尾的文件本质上就是xml字符串两个word文件合并其实就是把两个字符串拼接起来你
一文带你理解URI 和 URL 有什么区别？

当我们打开浏览器要访问一个网站或者一个ftp服务器的时候一定要输入一串字符串比如 https blog csdn net 或者 ftp 192 168 0 111 这样我们就可以得到一个html格式的页面或者一个文件那么这个地址是什
YOLO论文思路简析

YOLO You Only Look Once Unified Real Time Object Detection 是一种2016年提出的用于视觉检测的算法与之前的算不同 YOLO改变了检测的过程将检测转化为了一个回归问题输出目标的b

YOLO论文思路简析

YOLO论文思路简析 的相关文章

随机推荐

热门标签

YOLO论文思路简析的相关文章