目标检测学习笔记+附入门资料+表面缺陷检测

2023-11-14

待更新补充…

文章目录

放在最前——MARK入门阅读学习资料
（一）目标检测基本概念
- （1）名词含义
（二）目标检测基本原理
（三）LabelImg学习

放在最前——MARK入门阅读学习资料

文献
《Deep Learning for Generic Object Detection: A Survey》2018年
2018年由中国国防科技大学、芬兰奥卢大学、澳大利亚悉尼大学、中国香港中文大学和加拿大滑铁卢大学等人推出一篇最新目标检测综述，详细阐述了当前目标检测最新成就和关键技术。文章最后总结了未来8个比较有前景的方向
《深度学习目标检测方法综述》2020，赵永强，西交
《深度学习的典型目标检测算法研究综述》2021，许德刚，河南工业大学
如果要看中文综述文献的话可以考虑这两篇
————
博客：
目标检测（Object Detection）
GitHub项目
hoya012 /deep_learning_object_detection 参考上篇文献建立的一个项目：首尔国立大学的 Lee hoseong
包括 2014~2020年代表性目标检测算法以及数据库整合，从RCNN到RFBNet
视频教程
目标检测从入门到精通-基础原理与项目实战_AI研习图书馆
这个教程比较适合入门，也是我做笔记的主要课程
Bubbliiiing的频道>Pytorch 目标检测系列汇总
推荐up主Bubbliiiing的视频，讲得很清晰，他的代码注释也做得很详尽，也可以配合他的博客食用

（一）目标检测基本概念

（1）名词含义

目标检测

获得图像or视频中目标的位置信息和类别信息，通常图像中有多个目标需要检测

类别任务：输出N个类别的标签，评估指标是准确度Accuracy
定位任务：输出物体的位置坐标，评估指标IOU
物体位置放入boundingbox（bbox）里，有两种格式：xywh格式（中心点以及点距两边的高宽）&xmin,ymin,xmax,ymax（选框的左上角右下角坐标）

目标检测方法的分类

TwoStage（两步走Region Proposal）先做区域划分（候选区）再做目标分类
OneStage（端到端End to End）用同一个网络一步实现区域划分和分类

Bounding box

Ground-truth Bounding box真实框
Predicted Bounding box预测框

滑动窗口

原理：利用滑窗从左到右从上到下遍历图像寻找概率最大的位置
不同物体适合不同大小和高宽比的窗口→定义K个若干大小的窗口，每个窗口滑动M次，获得K*M张图片输入进入分类网络中
**Overfeat模型图解**（暴力穷举）

R-CNN步骤详解

在这里插入图片描述

1 标定候选区域Region of Interest（ROI）,选择性搜索Selective Search（SS）
选择性搜索Selective Search在一张图片上提取出来约2000个侯选区域
由于长宽不定,不能直接输入alexNet
2000个候选区域做大小变换
2 提取特征向量：输入AlexNet网络
3 用特征向量训练分类器
R-CNN选用SVM进行二分类。假设检测20个类别,那么会提供20个不同类别的SVM分类器,每个分类器都会对2000个候选区域的1特征向量分别判断一次，这样得出[2000, 20]的得分矩阵
20个分类器每个都会对2000个候选区域的特征向量分别进行打分，获得2000×20的得分矩阵，利用得分矩阵再进行下一步的迭代筛选
4 剔除重叠建议框：非极大抑制Non-maximum Suppression（NMS）
筛选候选区域，目标是一个物体只保留一个最优的框，来抑制那些冗余的候选框

迭代过程
1、对于所有的2000个候选区域得分进行概率筛选, 0.5
2、剩余的候选框，每个候选框找到各自的GT（Ground Truth）

假设图片真实物体个数为2（N） ,筛选之后候选框为5（P）,计算N中每个物体位置与所有P的交并比loU计算,得到P中每个候选框对应loU最高的N中一个

如下图, A、C候选框对应左边车辆, B、D、E对应右边车辆

假设在滑动窗口有：A、B、C、D、E5个候选框,

第一轮:对于右边车辆,假设B是得分最高的,与B的lou>0.5删除。现在与B计算loU, DE结果>0.5,剔除DE, B作为一个预测结果

第二轮:对于左边车辆, AC中, A的得分最高,与A计算loU, c的结果>0.5,剔除C, A作为一个结果
最后算法输出A，B；框的位置在上一步的选择性搜索就已经获得
最终输出：（理想）每个GroundTruth都有一个候选框预测结果

“但是SS获得的候选框位置未必特别准确，可能区域过大”——>要进行第五步，候选框bbox的修正

**5 修正候选框：得到bbox regressor **
回归用于修正筛选后的候选区域,使之回归于ground-truth；默认认为这两个框之间是线性关系,因为在最后筛选出来的候选区域和ground-truth很接近了
A是候选框，G是目标GT框，让A与G做回归训练，得到四个参数
获得最终R-CNN的输出：比如对于坐标x，x*w_x=x_locate

交并比Interest over Union（IoU）

两个区域的重叠程度overlap：侯选区域和标定区域的loU值（取值：0~1）
通常门限threshold设定为：类别正确即IoU>0.5，门限threshold=0.5，IoU越靠近1说明越准确

在这里插入图片描述

平均精确率Mean Average Precision（MAP）

在这里插入图片描述这个地方教程讲得不如这里详尽：睿智的目标检测2——mAP的概念

对于目标检测而言任务，每一个类都可以计算出其Precision和Recall，通过合理的计算，每个类都可以得到一条P-R曲线，曲线下的面积就是AP的值。

假设存在M张图片，对于其中一张图片而言，其具有N个检测目标，其具有K个检测类，使用检测器得到了S个Bounding Box(BB)，每个BB里包含BB所在的位置以及对于K个类的得分C。

利用BB所在的位置可以得到与其对应的GroundTruth的IOU值。

然后对其进行mAP的计算

（二）目标检测基本原理

基本思路

输出：
初步思路：对于单个物体，在做分类问题回归时增加一个定位信息的全连接输出层，即：FC1+FC2
但是由于图像中目标的数量不一定，所以模型的输出结构也不定
1.暴力穷举思路：Overfeat模型
2.候选区域思路：Region Proposal method——R-CNN模型
*这些具体可以参照上一部分内容

R-CNN的缺点

训练阶段多:步骤繁琐:微调网络+训练SVM+训练边框回归器。

训练耗时:占用磁盘空间大: 5000张图像产生几百G的特征文件。(VOC数据集的检测结果,因为SVM的存在)

处理速度慢:使用GPU, VGG16模型处理一张图像需要47s

图片形状变化:候选区域要经过crop/warp进行固定大小,无法保证图片不变形

R-CNN慢的主要原因就在于CNN特征提取（第三步）过于耗时

基于回归分析的思路
One-Stage方法

网络评估指标

在这里插入图片描述
分别对分类&定位两个任务分别评估

IoU交并比
主要是位置准确率的考量
MAP平均精确率
对于分类准确率的考量

模型MAP

双阶段Two-Stage算法

Overfeat
R-CNN
SPP-Net
Fast R-CNN
Faster R-CNN
R-FCN
Mask R-CNN

单阶段One-Stage算法
YOLO系列&SSD系列&others

YOLO
YOLOv2
YOLOv3
YOLOv4
YOLOv5
SSD
DSSD
R-SSD
F-SSD
DSOD
RetinaNet

（三）LabelImg学习

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

人工智能

目标检测学习笔记+附入门资料+表面缺陷检测的相关文章

比尔盖茨与萨姆.奥尔特曼的对话及感想

谈话内容比尔盖茨嘿萨姆萨姆奥尔特曼嘿比尔比尔盖茨你好吗萨姆奥尔特曼哦天哪这真的太疯狂了我还好这是一个非常激动人心的时期比尔盖茨团队情况怎么样萨姆奥尔特曼我想你知道很多人都注意到了这样一个事实
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
什么是充放电振子理论？

CHAT回复充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型这个模型把ENSO现象比喻成一个热力学振荡系统在这个模型中 ENSO现象由三个组成部分充电 Char
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建

随机推荐

[QT入门篇]信号槽机制

一信号与槽的引入信号与槽 Signal Slot 是 Qt 编程的基础信号槽实际是观察者模式发布订阅模式当某个事件发生之后比如按钮检测到自己被点击了一下它就会发出一个信号 signal 这种发出是没有目的的类似广播如
【NLP】第 1 章：机器阅读理解简介

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
Python可视化-气泡图

气泡图类似散点图也是表示XY轴坐标之间的变化关系也可以像彩色散点图给点上色区别在于可以通过图中散点的大小来直观感受其所表示的数值大小一数据文件准备 1 PeopleNumber csv city people price NJ 8
Android VNDK的作用

本文目的是让你理解VNDK是什么作用暂不做细节讲解在Android 8 0及更高版本中引入了很多技术都是为了将system和vendor分离这样设备厂商和芯片供应商只需关心vendor实现那么vendor实现时要加载framewo
【总结】前端常用编码写法合集

一 css样式 1 文字多行溢出单行溢出 overflow hidden white space nowrap text overflow ellipsis 多行溢出 display webkit box webkit box orien
Vue教程(一)：Vue核心

Vue教程一 Vue核心 1 1 Vue简介 1 1 1 Vue是什么一套用于构建用户界面的渐进式JS框架 1 1 2 谁开发的尤雨溪 2015 10 27 正式发布 Vue1 0 0 Evangelion 新世纪福音战士 2016
C语言结构体初阶

头文件 define CRT SECURE NO WARNINGS 1 include
毕设系列三之利用tensorflow做深度学习情感分析

利用tensorflow做深度学习情感分析深度学习作为一项学习数据的多层特征或表征的强大机器学习技术此项目中将使用tensorflow深度学习平台通过相关模型的构建以及数据的处理完成微博评论情感分析已到达类似百度AI情感分析功
多态（polymorphic）

目录 1 多态的基本介绍 2 多态实现条件 3 重写重写的介绍重写和重载的区别动静态绑定机制 5 向上转型和向下转型向上转型向上转型的特点总结向下转型多态的优缺点多态是Java三大基本特征中最抽象也是最重要的特征多态是
Html获取Url参数解决中文乱码

Html 获取 Url 参数解决中文乱码方法一分割为数组 function getQueryVariable name var query window location search substring 1 var vars que
hibernate 反向生成数据库表

hibernate 配置属性中 hibernate hbm2ddl auto可以帮助你实现正向工程即由 java 代码生成数据库脚本进而生成具体的表结构在hibernate cfg xml中 java 代码 html view pla
idea

1 本人最近刚开始切换到 Intellij idea 发现一个问题 maven工程项目老是有红色下划线提示错误 Cannot Resolve Symbol 但是这些依赖都已经通过pom引进了 idea的Library中也能看到试一下Fil
mysql 建表语句及完整案例

1 最简单的表名为name info 只包含id列和name列执行sql语句 CREATE TABLE name info id int not null name char 12 2 将id列设置为主键执行sql语句 CREATE
数据结构Java实现06----中缀表达式转换为后缀表达式

本文转载至 http www cnblogs com smyhvae p 4790373 html 本文主要内容表达式的三种形式中缀表达式与后缀表达式转换算法一表达式的三种形式中缀表达式运算符放在两个运算对象中间如 2 1 3
【华为OD机试真题 JS】火锅

标题火锅时间限制 1秒内存限制 262144K 语言限制不限入职后导师会请你吃饭你选择了火锅火锅里会在不同时间下很多菜不同食材要煮不同的时间才能变得刚好合适你希望吃到最多的刚好合适的菜但是你的手速不够快用m代表手速
[培训-无线通信基础-2]：无线电磁波传播机制（传播、衰减、链路预算）

作者主页文火冰糖的硅基工坊 https blog csdn net HiWangWenBing 本文网址 https blog csdn net HiWangWenBing article details 118667807 引言既然无
vue crypto-js加解密

1 安装crypto js npm install crypto js save 2 编写encrypt js const CryptoJS require crypto js import md5 from js md5 var key
关于程序员【锁死】服务器

干程序员这么多年头一次听说锁死服务器这么个名词乍一听到被媒体造的这个名词觉着很突兀自己念两遍就会感到头疼恶心想吐这么膈应服务器到底是怎么锁死的什么玩意你看看人家数据库系统概论里面人家关于锁的一个翻译死锁
ARM单片机通用IAP在线升级YMODEM协议

ARM单片机通用IAP在线升级YMODEM协议效果 YMODEM协议格式移植修改接口测试代码代码获取效果 YMODEM协议格式接收开始流程接收者1HZ发送接收状态 C C 代表字符 C 进入接收状态发送者发送起始帧 SOH
目标检测学习笔记+附入门资料+表面缺陷检测

待更新补充文章目录放在最前 MARK入门阅读学习资料一目标检测基本概念 1 名词含义目标检测目标检测方法的分类 Bounding box 滑动窗口 R CNN步骤详解交并比Interest over Union IoU 平均精