模式识别课程:目标检测③基于深度学习的检测算法

2023-11-10

title : 目标检测③基于深度学习的检测算法

目标检测实验报告
检测所用软硬件+云服务器：
硬件：macOS或者windows电脑
软件：pycharm+生成的测试集
云服务器：滴滴云（https://www.didiyun.com/activity.html）输入博主的大师码：8996 ，只需⑨折，便不用体验搭环境的痛苦，安心训练自己的模型
在这里插入图片描述

在2012年之前，在目标检测领域还是以传统手工特征的检测算法为主，但是随着卷积神经网络(CNN)在2012年的兴起，目标检测开始了在深度学习下的暴力美学。在深度学习下，目标检测的效果比传统手工特征效果好太多。直至今日，基于深度学习的检测算法依然是目标检测的主流。

物体检测的两个步骤可以概括为：
步骤一：检测目标位置（生成矩形框）
步骤二：对目标物体进行分类
物体检测主流的算法框架大致分为one-stage与two-stage。two-stage算法代表有R-CNN系列，one-stage算法代表有Yolo系列。可以说，two-stage算法将步骤一与步骤二分开执行，输入图像先经过候选框生成网络（例如faster rcnn中的RPN网络），再经过分类网络；one-stage算法将步骤一与步骤二同时执行，输入图像只经过一个网络，生成的结果中同时包含位置与类别信息。two-stage与one-stage相比，精度高，但是计算量更大，所以运算较慢。

我们这里介绍的两种深度学习算法，都是one-stage算法。
基于回归方法的深度学习目标检测算法，他们一步到位，其基本步骤是: 给定一张图像, 通过设定合理的输出向量，使用回归的方式输出这个目标的边框和类别，一步到位。这种算法的优点是速度快，但是对于密集的小样本来说检测比较困难。比如 YOLO、SSD 等。

2.3.1 YOLO

2.3.1.1YOLO介绍
YOLO系列论文提出了一个新的物体检测的方法：You Only Look Once（YOLO）

YOLO 的核心思想就是把目标检测转变成一个回归问题，利用整张图作为网络的输入，仅仅经过一个神经网络，得到bounding box（边界框）的位置及其所属的类别。

2.3.1.2 YOLOv1
论文：https://arxiv.org/pdf/1506.02640.pdf
YOLOv1是最早版本的YOLO，以下从概念上简单介绍v1的原理
1）网络结构
在这里插入图片描述

输入：4484483的彩色图片
中间层：若干卷积层和最大池化层
全连接层：2个全连接层，用来预测位置和类别概率值

2）实现细节
分类器的输出是一个one-hot vector，而检测器的输出是一个框(Bounding Box)。框，该怎么表示？
在这里插入图片描述

bounding box
总的来说，S×S 个网格，每个网格要预测 B个bounding box ，还要预测 C 个类。网络输出就是一个 S × S × (5×B+C) 的张量。
在这里插入图片描述

在实际过程中，YOLOv1把一张图片划分为了7×7个网格，并且每个网格预测2个Box（Box1和Box2），20个类别。所以实际上，S=7，B=2，C=20。那么网络输出的shape也就是：7×7×30。

3）损失函数和优化器
神经网络结构确定之后，训练效果好坏，由Loss函数和优化器决定。Yolo v1使用普通的梯度下降法作为优化器。这里重点解读一下Yolo v1使用的Loss函数：
在这里插入图片描述

损失是三部分：坐标预测损失、置信度预测损失、类别预测损失的加和

思考：对于x和y用差平方，而对于宽和高为什么进行开根处理？
——假设宽和高使用与x，y相同处理方式（直接差平方），当预测值与真实值图像偏移相同大小时，我们依此法计算出的误差是固定的，然而这与实际不符。实际对于图像框尺度大小不同的区域，相同偏移量下，小尺度图像效果是很差的，而较大尺度图像则效果不错。因此，此损失函数的设计细节是作者为使实验结果更加准确而设计的。
置信度预测损失：是正负样本求平方加和
类别预测损失：预测值减去真实值求平方

4）优缺点

优点：更快更准迁移能力强
缺点：对相互靠近的物体，以及很小的群体检测效果不好；对不常见的角度的目标泛化性能偏弱

升级版 YOLOv2
YOLOv2论文：https://arxiv.org/abs/1612.08242

为提高物体定位精准性和召回率，YOLO作者提出了 “YOLO9000: Better, Faster, Stronger” (Joseph Redmon, Ali Farhadi, CVPR 2017, Best Paper Honorable Mention)，相比YOLOv1 提高了训练图像的分辨率；引入了faster rcnn中anchor box的思想，对网络结构的设计进行了改进，输出层使用卷积层替代YOLO的全连接层，联合使用coco物体检测标注数据和imagenet物体分类标注数据训练物体检测模型。相比YOLO，YOLO9000在识别种类、精度、速度、和定位准确性等方面都有大大提升。

2.3.2 SSD
YOlO和SSD算法作为“一步到位”算法的代表，他们的主要区别就是yolo只利用了末端特征图的信息，而SSD利用了最后几层特征图的信息，所以，从理论上说，SSD算法较yolo（起码是yolov1）来说，精确度必然更高。

卷积神经网络各层特征信息主要有如下区别：
1、低层卷积可以捕捉到更多的细节信息，高层卷积可以捕捉到更多的抽象信息。
2、低层特性更关心“在哪里”，但分类准确度不高，而高层特性更关心“是什么”，但丢失了物体的位置信息。
——《Visualizing and Understanding Convolutional Networks》.（可视化理解卷积神经网络）2014

SSD正是利用不同尺度检测图片中不同大小和类别的目标物体，获得了很好的效果。
在这里插入图片描述

VGG-16网络

对于每个特征图来说，SSD引入初始框的概念。对于不同的特征图，SSD总的尺度设计原则就是：随着网络层数加深（特征图的变小），初始框的尺度线性增加。最小的初始框尺度为0.2，最大的初始框尺度为0.9。

在这里插入图片描述

3.实例解析
3.1YOLO实例说明
以下对YOLOv3进行介绍，代码部分来自
tf2.0yolov3——malin9402,yunyang1994
https://github.com/malin9402/tf20/tree/master/4-Object_Detection/YOLOV3

pytorch :
https://github.com/ayooshkathuria/YOLO_v3_tutorial_from_scratch

3.1.1网络结构
随着CNN的发展和大量研究人员的努力，产生了数篇影响深远的论文，解决了在实际应用的诸多问题。yolov3借鉴了许多论文和思路，完善了yolo网络架构。
本节从原理和代码上介绍yolov3的网络架构，并深入探讨其网络架构上的进步和优点。

yolov3用darknet53作为基础网络架构

Darknet53

命名来源于它有53层卷积层= 2 + 12+1 +22+1 +82+1 +82+1 +4*2+1

未完待续——下一篇我会说一下YOLOV3相对于之前的网络架构的提升，相比之下，算力要求也会随之提升，所以我们需要借助滴滴云DAI平台来跑我们的代码项目
输入我的AI大师码：8996，享受⑨折优惠，让自己的算法检测像扫码一样简单

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

模式识别课程:目标检测③基于深度学习的检测算法的相关文章

tensorflow Protobuf编译问题

我想为 google 对象检测 API 编译 protobuf 库我按照官方教程输入protoc object detection protos proto python out 然后我得到的是 object detection prot
sklearn DeprecationWarning 数组的真值

从文档中运行 rasa core 示例 python3 m rasa core run d models dialogue u models nlu default current 并在对话框中的每条消息后获取此错误输出 sklearn D
优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
Pandas 字符串提取所有匹配项

我正在学习 pandas 系列字符串方法中的正则表达式操作我能够从字符串中提取第一个数字但我的正则表达式与第二个数字不匹配如何捕获这两个数字注意第二行第二个元素在这里是 NAN CODE import pandas as pd d
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
检测/删除 Python 2 + GTK 中不成对的代理字符

在Python 2 7中我可以成功转换Unicode字符串 abc udc34xyz 转换为 UTF 8 结果是 abc xed xb0 xb4xyz 但是当我将 UTF 8 字符串传递给例如时 pango parse markup or
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
在python中安装scipy模块时出错

我正在尝试使用 pip 在 python 中安装 scipy 模块它显示以下错误 Command c users sony appdata local programs python python35 32 python exe u c
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更

随机推荐

CSS的clip-path属性使用

前言 clip path CSS 属性使用裁剪方式创建元素的可显示区域区域内的部分显示区域外的隐藏基本语法 clip path clip source basic shape geometry box none 属性说明 clip s
iterm2跳板机自动登录脚本

前言现在要想访问公司服务器都必须通过跳板机再跳到目标服务器这么做是运维人员为了安全性考虑和可以高效管理公司庞大的服务器集群但是我们都知道安全性提高后必定降低我们日常工作的效率必须先登录到跳板机再选目标服务器每次访问服务器都增加了
前端面试题-url、href、src

一 URL的概念统一资源定位符或称统一资源定位器定位地址 URL地址等英语 Uniform Resource Locator 常缩写为URL 有时也被俗称为网页地址网址如同在网络上的门牌是因特网上标准的资源的地址 Addre
Python模块学习 ---- atexit

atexit模块很简单只定义了一个register函数用于注册程序退出时的回调函数我们可以在这个回调函数中做一些资源清理的操作注如果程序是非正常crash 或者通过os exit 退出注册的回调函数将不会被调用我们也可以通过sy
一篇文章让你搞定所有redis面试题

Redis是什么 Redis是C语言开发的一个开源的遵从BSD协议高性能键值对 key value 的内存数据库可以用作数据库缓存消息中间件等它是一种NoSQL not only sql 泛指非关系型数据库的数据库 redis
Arduino酸度计（PH计）

在本项目中我们将通过将模拟pH传感器与Arduino接口来设计pH计介绍在化学中 pH是用于指定水基溶液的酸性或碱性的标度酸性溶液的pH值较低而碱性溶液的pH值较高因此 Ph传感器具有确定任何溶液的Ph的能力即可以判断该物质本
JAVA运行时类存在，但是报错：NoClassDefFoundError: Could not initialize class

我们在部署代码时明明类存在但是发现报错 NoClassDefFoundError Could not initialize class 这类问题是由静态成员或静态初始化语句块引起我们先看下面个类 import org apache c
C语言实现MD5/SHA1/SHA256/SHA512

哈希函数是我们做校验时经常会用到的密码学工具目前常用的工具有MD5 SHA1 SHA256 SHA512等其中MD5已经被证实不安全目前只能作为一种辅助的校验手段而不能防篡改下面介绍如何使用mbedTLS协议栈中的hash代码生成
BGP属性

BGP 外部网关协议此协议不在于自动发现网络拓扑不追求速度而在于AS之间选择最佳路由和控制路由的传播追求可靠性稳定性操控性承载性使用TCP作为其传输协议监听端口号为179 保证其可靠性路由更新只发送更新的路由适用于在以
C++基础学习笔记——对象的定义及引用

1 类与对象的关系通常我们把具有同样性质和功能的东西所构成的集合称为类在C 中可以把相同内部存储结构和相同操作集的对象看成属于同一类在C 中对象是类的实际变量类与对象间的关系可以用整型 int 和整型变量 i 之间的关系来类比
Linux——线程1

一线程基础进程有独立的进程地址空间有独立的pcb 线程有独立的pcb 没有独立的进程地址空间因此进程线程最本质的区别就是是否共享地址空间在Linux下线程是最小的执行单位进程是最小的分配资源单位可看成只有一个线程的进程
避坑记录：打电话（uni.makePhoneCall）

uni makePhoneCall 可兼容微信小程序 H5 移动端安卓 IOS 但是在移动端安卓上如果拒绝授权电话则会出现点击号码既不报错也不弹出打电话的bug 当然如果只是简单调用makePhoneCall 也就不值得我去
Call Exec in PeopleCode

我想在Application Engine里加一段调用命令行的代码 All PeopleCode is executed on the application server So if you re calling an interacti
基于imx6ull视频监控

基于imx6ull视频监控前言一 mjpg streamer 1 编译mjpg streamer 2 运行mjpg 3 mjpg框架二流媒体 1 ffmpeg 2 nginx服务器 3 实现flv js访问和ip地址访问 4 内网穿
MySQL添加用户、删除用户与授权

前言 MySql中添加用户新建数据库用户授权删除用户修改密码注意每行后边都跟个表示一个命令语句结束新建用户登录MYSQL mysql u root p 密码创建用户 mysql gt insert into mysql u
从iOS App启动速度看如何为基础性能保驾护航

1 前言启动是App给用户的第一印象一款App的启动速度不单单是用户体验的事情往往还决定了它能否获取更多的用户所以到了一定阶段App的启动优化是必须要做的事情 App启动基本分为以下两种 1 1 冷启动 App 点击启动前它的进
python:深拷贝,浅拷贝，赋值引用

第一部分转载自 https www cnblogs com xueli p 4952063 html 1 python的复制深拷贝和浅拷贝的区别在python中对象赋值实际上是对象的引用当创建一个对象然后把它赋给另一个变量的时候
purrr 0.2.0

purrr 0 2 0 Hadley Wickham 2016 01 06 Categories Packages tidyverse 原文地址我很高兴的发布了purrr 0 2 0 Purrr填补了R的函数式编程工具中的缺失部分让你的
rpm包的卸载与安装

本文章向大家介绍rpm包的卸载与安装主要内容包括1 rpm包管理 2 rpm包的简单查询指令 3 卸载rpm包 4 安装rpm包使用实例应用技巧基本知识点总结和需要注意事项具有一定的参考价值需要的朋友可以参考一下目录 1 rp
模式识别课程:目标检测③基于深度学习的检测算法

title 目标检测基于深度学习的检测算法目标检测实验报告检测所用软硬件云服务器硬件 macOS或者windows电脑软件 pycharm 生成的测试集云服务器滴滴云 https www didiyun com activi

模式识别课程:目标检测③基于深度学习的检测算法

title : 目标检测③基于深度学习的检测算法

模式识别课程:目标检测③基于深度学习的检测算法 的相关文章

随机推荐

热门标签

模式识别课程:目标检测③基于深度学习的检测算法的相关文章