YOLO论文思路简析

2023-11-14

YOLO(You Only Look Once: Unified, Real-Time Object Detection)是一种2016年提出的用于视觉检测的算法,与之前的算不同,YOLO改变了检测的过程将检测转化为了一个回归问题,输出目标的bbox和p(概率)。相较于之前的算法,YOLO的执行速度很快,base YOLO可以达到45fps而fast YOLO可以达到155fps,基本可以满足实时的检测和输出,延时也将小于25ms。从结果上看,YOLO的局部检测效果较差,但也很少出现FP现象,同时YOLO对于大型目标的检测相对效果好且不易误判为背景。(对于检测结果存在四种可能:TP,FP,FN,TN)
YOLO的设计思想来源于人眼的单次观看识别,将图像整体作为YOLO的输入,经过resize,run cnn,NMS三个步骤即可得到输出。
图片摘自原文
网络特点:1.由于网络的结构十分简单,因此网络的识别速度很快,相较于同期的实时算法YOLO达到了两倍以上的准确率。
2.由于检测以整个图像作为输入,内部数据联系紧密,降低了背景的错误识别。
3.网络的适应性较好,在测试集与训练集不完全一致时仍能有较好效果。

网络将采用来自整张图片的特征同时对所有的目标进行检测和bbox预测,网络是一种端到端的结构,对于输入的图片可以直接输出bbox和p。对于输入图片将划分成SS个网格区域,检测目标的中心与所在网格关联。每个划分的网格都将产出B个bbox和score,score=P(Object)IoU,每个bbox都对应5个数据:坐标(x,y,w,h)和score。YOLO在检测时,同时预测网格是否包含目标中心和目标基于存在目标时属于各个种类的概率,最终可以计算目标属于各分类的概率。所以对于此设定下的YOLO网络,单个图片将输出规模为(SS(B5+C))的张量。

YOLO检测网络包括24个卷积层和2个全连接层,如图所示:
在这里插入图片描述
值得注意的是最终的输出一定是7730的张量(30=(2*5+20),2个bbox:坐标+置信率,20种分类概率)

损失函数方面,采用均方差的方式把localization error(bounding box的坐标误差)和classificaton error整合在一起。但是如果二者的权值相等,容易导致模型不稳定,训练发散。因为很多grid cell是不包含物体的,这样的话很多grid cell的confidence score为0。所以采用设置不同权重方式来解决,一方面提高localization error的权重,另一方面降低没有object的box的confidence loss权值,loss权重分别是5和0.5。而对于包含object的box的confidence loss权值还是原来的1。详见下面的原文解释和loss function函数。
网络的学习率是随着训练的次数变化的开始采用0.01,随着次数增加减为0.001,最后减为0.0001。

YOLO网络同样存在着缺陷,由于单个网格只存在两个bbox预测的数量受限,对于较小或者分布密集的目标难以识别

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

YOLO论文思路简析 的相关文章

  • opencv实现阈值分割

    文章目录 基础函数 直方图阈值 实现 threshold 函数使用 三角法阈值 实现 迭代法阈值 算法步骤 Python语法补充 实现 大津法 理论 cv实现 底层复现 自适应阈值 理论 具体操作步骤 优化 CV实现 底层复现 基础函数 在

随机推荐

  • 基于SSM+Vue的汽车售票网站的设计与实现

    末尾获取源码 开发语言 Java Java开发工具 JDK1 8 后端框架 SSM 前端 采用Vue技术开发 数据库 MySQL5 7和Navicat管理工具结合 服务器 Tomcat8 5 开发软件 IDEA Eclipse 是否Mave
  • [前端系列第6弹]Ajax简明教程:轻松实现Web页面的异步交互

    在这篇文章中 我将介绍Ajax的基本概念 原理 优缺点 实现方法和应用场景 以及如何使用它来实现Web页面的异步交互 还将给一些简单而实用的例子 让你可以跟着我一步一步地编写自己的Ajax代码 目录 一 什么是Ajax 二 如何使用Ajax
  • gdb调试多进程程序和多线程程序

    gdb调试多进程程序和多线程程序 平时一般用gdb直接调试短小的程序 好像我还没调试过多进程和多线程程序呢 1 gdb调试多进程程序 如果一个进程通过fork系统调用创建了子进程 gdb会继续调试原来的进程 子进程则正常运行 常用的有两种方
  • win10设置任务栏双屏不同位置(方向)

    在所有显示器上显示任务栏开 任务栏在屏幕的位置 底部 在所有显示器上显示任务栏 任务栏在屏幕的位置靠右 在所有显示开 win10双屏设置任务栏位置方向 哔哩哔哩 bilibili
  • 重定义;多次初始化(C++报错)

    C 中报错 b 重定义 多次初始化 如图 将a b c前面的int数据类型去掉即可
  • SpringMvc,全面讲解@RequestParam注解的用法和原理

    本文要讲的 RequestParam注解大家在开发中应该会经常的用到 但是它的某些用法我感觉你不一定都知道 所以这篇文章就讲解一下带大家拨开云雾全面了解这个注解 使大家在开发中使用到这个注解的时候不再一知半解 先看一下 RequestPar
  • 生活服务是未来十年最大的商业机会?

    编者按 本文来自有邻的投稿 内容来自有邻创始人杨仁斌周末在杭州一个 O2O 活动上的分享 文章主要是杨仁斌对于 O2O 和生活服务的一些观点分享 最后一个部分中介绍了他们自己家的 有邻 提及的数据等资料 36 氪不作背书 我的第一个观点是
  • OpenWrt系统配置UCI

    UCI简介 UCI Unified Configuration Interface 是 Openwrt 中的统一配置接口 官方文档参考 每一个程序的配置文件都保存在 etc config 目录 可以通过文本编辑器 uci 一个可执行程序 以
  • 2022年社区工作人员社区专职工作者考试精选套卷及答案

    题库来源 优题宝公众号 2022年社区工作人员社区专职工作者考试精选套卷及答案 根据最新社区工作人员社区专职工作者考试大纲与历年社区工作人员社区专职工作者考试真题汇总编写 包含社区工作人员社区专职工作者考试常考重点题型与知识点 有助于考生复
  • Metal 系列教程

    这系列文章 目前发布在我的小专栏 iOS 图像处理 上 欢迎订阅 从 2014 年 Apple 正式推出 Metal 到现在 这个 Metal 系列教程 酝酿了很久 却迟迟没有进展 直到 WWDC 2018 Apple 宣布 iOS 12
  • 社工库网址与制作方法

    将互联网泄露的信息汇聚成数据库 简单说 黑客数据库 中国执行信息公开网 http zxgk court gov cn dt dapp 1 全国标准信息公共服务平台 http std samr gov cn 征信中心 https ipcrs
  • arm启动redis报错

    报错如下 WARNING you have Transparent Huge Pages THP support enabled in your kernel This will create latency and memory usag
  • 从BOM,DOM和ECMAScript来看JavaScript

    一个老套的问题 JavaScript是由什么组成的 答 1 ECMAScript 核心 描述JS的语法和基本对象 2 文档对象模型 DOM 处理网页内容的方法和接口 3 浏览器对象模型 BOM 与浏览器交互的方法和接口 ECMAScript
  • adb logcat命令查看并过滤android输出log

    http blog csdn net hansel article details 38088583 cmd命令行中使用adb logcat命令查看Android系统和应用的log dos窗口按ctrl c中断输出log记录 logcat日
  • mysql之服务的停止和开启,登录和退出01

    1 服务的停止和开启 登录和退出 1 mysql服务的停止和开启 net stop 服务名 例如net stop MYSQL56 服务名字通过右击电脑 管理 服务和应用程序 服务获取 net start 服务名 2 MYSQL服务的登录和退
  • 抖音私信卡片私信名片的原理分析

    抖音私信卡片 解决了客户封号严重 引流效率低的痛点 所以从去年到现在 依然是热销品 抖音快手私信名片链接跳转 是2022年抖音快手引流最新技术 可以生成卡片链接 支持标题 描述 logo以及跳转落地页的完全自定义配置 支持微信公众号和微信号
  • JS对象类型的确定

    http liaofeng xiao iteye com blog 697029 JS是松散类型的语言 这一点JS的对象表现得尤为突出 那么如何来确定JS对象的具体类型呢 首先 我们可以使用typeof运算符确定其基本类型 number o
  • PHPWord 实现合并多个word文件(完结)

    PHPWord 本来想着当调包侠呢 结果翻了一遍文档 没有这种操作支持 阿这 GPT 不出意外的一顿胡扯 给 气的要中风啦 思路 word 也就是docx结尾的文件本质上就是xml字符串 两个word文件合并其实就是把两个字符串拼接起来 你
  • 一文带你理解URI 和 URL 有什么区别?

    当我们打开浏览器 要访问一个网站或者一个ftp服务器的时候 一定要输入一串字符串 比如 https blog csdn net 或者 ftp 192 168 0 111 这样我们就可以得到一个html格式的页面或者一个文件 那么这个地址是什
  • YOLO论文思路简析

    YOLO You Only Look Once Unified Real Time Object Detection 是一种2016年提出的用于视觉检测的算法 与之前的算不同 YOLO改变了检测的过程将检测转化为了一个回归问题 输出目标的b