CS231n Lecture 11:图像分割与检测(各种R-CNN, YOLO, SSD)

2023-05-16

CS231n Lecture 11:图像分割与检测

图像的分割和检测的相关任务有不同的粒度,我们首先明确一下有关概念:

  • 语义分割(Semantic Segmentation):将每个像素标注为某一类别,是一个分类问题。该任务不区分实例,即同一类别的不同实例都标为同一颜色(如下图中的两头牛);
  • 单目标检测:只识别图像中的一个目标,并标出bounding box,此任务可以理解为分类+定位;
  • 目标检测(Object Detection):识别图像中的所有目标,并分别标出bounding box;
  • 实例分割(Instance Segmentation):识别图中所有目标,并标出它们的精确边界。

一、语义分割

滑动窗口?

现在尝试实现语义分割。为了预测某个像素所属的类别,我们可以以这个像素为中心在原图中裁切出一个子图(Patch),并对这个子图进行图像分类(Classification)。我们使用滑动窗口依次对每个像素对应的patch进行分类,最终得到结果。
这样做理论上是可以的,但显然计算量太大,有许多冗余计算——patch间的重合部分的feature map是相同的。

直接上CNN?

我们可以直接串联若干卷积层,输出C个[H x W]的feature map作为结果(C为类别数),第i个feature map代表各像素属于类别i的概率。但这需要需要人工标注大量的训练数据(给图片上的像素表类别),成本很高。除此之外,由于所有层产生的feature map与原图大小相同,当网络较深、输入图像分辨率较高是计算量和内存占用量都很大。

下采样+上采样

如前文所属保持feature map大小问题很大,所以我们可以先将feature map逐步缩小,然后再逐步变大。这样网络较深时中间部分的计算量也比较小。

有兴趣可以参考下面两篇paper:

  • Fully Convolutional Networks for Semantic Segmentation, CVPR 2015
  • Learning Deconvolution Network for Semantic Segmentation, ICCV 2015

卷积操作很容易做到下采样,我们现在来讨论如何做上采样。

  1. 反池化(UnPooling):可以用池化的逆操作,通过复制值或 填充常数0等操作增加feature map大小(其中UnMaxPooling在MaxPooling的对应位置保留数字,其他位置填充零),见下图

  2. 使用转置卷积(Transpose Convolution):分别将输入的feature map上的值与kernel的每个元素相乘,得到的矩阵作为输出,换言之,是分别将输入的feature map上的每个值作为kernel的权重。

    若得到的结果有重叠(如上图的红色和蓝色有1x3的相交区域),则把相交部分的数值相加。
    注意,这个操作也常被称为反卷积(DeConvolution),但实际上它并不是卷积的逆操作。

一维的转置卷积更好理解,如下图,输入[a b],kernel为[x y z],经过转置卷积的结果为[ax ay az+bx by bz]

二、单目标检测

我们可以将目标检测作为一个回归(Regression)任务。例如,将图片输入AlexNet,最后并行加上两个全连接层,分别进行分类和定位。其中,分类的输出是对每一类打分,这部分使用SoftMax Loss;而定位的输出为四个数字,分别代表bounding box的左上角横纵坐标和宽高,这部分使用L2 Loss。

这种看做回归问题的方法也可以用于其他的一些问题(只要所需信息的个数固定,如bounding box需要四个数字)。比如下图中的识别人体姿态,我们只需预测14个关键点的位置:

三、目标检测

目标检测需要找出所有目标的bounding box并标出类别,由于图中目标数量未知,因此不能简单地处理为分类+定位问题。

我们可以考虑前面提到的先提取patch的方法。对于每个patch,我们对它进行分类,测试其是否属于某类目标,或者是否是背景(归为“背景类”代表此处没有目标)。这种方法首先要解决问题是怎样找合适的patch。

我们不可能穷举所有可能的patch。实际上,我们使用的**区域推荐(Region Proposal)**的方法:先找出可能包含目标的候选框,然后识别每个候选框中是否包含目标。

下面介绍目标检测网络的发展~

R-CNN

R-CNN中的Region Proposal方法叫做Selective Search(一种传统算法,非CNN),它会约产生2000个候选区域(Regions of Interest, ROI)。之后,每个候选区域的图像会规格化到统一的大小,并分别送入一个使用ConvNet,最后用SVM进行分类。

R-CNN还会输出四个数字对候选框进行修正,注意这个修正不仅可能使候选框变小,还可能让它变大(比如这个框框出了一个没有头的人,那么网络可能推断出上方会有个人头,因此上边界变大)。

R-CNN存在以下问题:

  • 计算量大(处理2000个候选区域)
  • 训练慢(84小时),占用空间多
  • 训练完成后,运行速度也慢(使用VGG16时,每张图片要处理47s)

Fast-RCNN

我们不再分别将图像中的patch输入ConvNet,而是将整张图片输入ConvNet,得到一张整张图feature map,然后将RoI所对应的位置的feature map裁切出来。

同样的,如果我们使用全连接层做接下来的分类的话,裁切出来的feature map的patch必须规格化到固定的大小。这个操作使用RoI Pooling层实现的。

Faster R-CNN的的测试用时非常短,其中主要用时花在在Region Proposal上(见下图)。所以我们要想再加速就必须优化Region Proposal,而下面的Faster R-CNN就解决了这个问题。

Faster R-CNN

Faster R-CNN中的Region Proposal不再用传统算法做,而是使用称为Region Proposal Network (RPN)的网络来从feature中预测候选框,也就是说,现在的候选框也是学习出来的了。

整个网络设计如下图:图像经过一个CNN输出feature map,将该feature map输入RPN产生若干RoI,之后的处理方式和Fast R-CNN就相同了。

网络同样使用multi-task loss,共有下面四个loss:

  1. RPN 分类是否是目标的loss
  2. RPN回归候选框坐标的loss
  3. 对每个类别打分的loss
  4. 最终bounding box坐标的loss

注意到其中RPN的结果没有ground truth,那我们怎样评价一个候选框应不应该是候选框呢?Faster R-CNN中采取的方法是:如果一个候选框和某一个目标重合较大,它被认为是合适的候选框,反之不是。

使用RPN,Faster R-CNN的测试用时又大大缩短:

YOLO和SSD

R-CNN、Fast R-CNN和Faster R-CNN中的“R”代表区域(Region),它们都是基于区域候选的方法来做目标检测的(称作Region-based methods for object detection)。除了这样的方法,还有一些直接一个过程做完所有事情的网络,比较典型的有YOLO和SSD。

YOLO和SSD不再对每个候选框单独处理,而是将目标检测视为回归问题,使用某种CNN,将所有的预测框同时给出。

将整张图片划分为几个粗略的网格(Grid)(比如7x7的网格),在每个网格中存在固定数目(设这个数字为B)的base bounding box。

我们要预测的东西有:

  • 真实框与base bounding box的差异
  • 给出每个base bounding box的置信度,即包含目标的可能性
  • 这个bounding box属于各类别的分数
    综上,所以最终网络会输出7x7x(5B+C)个数字。其中C为类别数,每个7x7的网格中有B个base bounding box,每个base bounding box需要回归5个数字(4个表示修正坐标的数字和1个表示置信度的数字)。

四、实例分割

实例分割做的最好的网络是Mask R-CNN,它是上面方法的综合,对于每个RoI,它都再预测一个Binary Mask来像素级地刻画实例边界,网络设计如下:

这个方法的结果非常好:

五、网络对比

以上网络都是用Microsoft COCO数据集进行训练的,其中大约有200,000张图片,80个类别,每张图平均有五六个实例。

这些网络需要调整的参数十分复杂,如使用什么网络(VGG16,、ResNet等)、使用什么检测框架(Faster R-CNN、R-FCN等),不同设置的精度和速度都有差异,CVPR 2017的中paper“Speed/accuracy trade-offs for modern convolutional object detectors”对这些不同的选择进行了详尽的比较。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CS231n Lecture 11:图像分割与检测(各种R-CNN, YOLO, SSD) 的相关文章

  • Pytorch 实战RNN

    一 简单实例 span class token comment coding utf8 span span class token keyword import span torch span class token keyword as
  • Pytorch : Dataset和DataLoader

    一 综述 Dataset 对数据进行抽象 xff0c 将数据包装为Dataset类 DataLoader 在 Dataset之上对数据进行进一步处理 xff0c 包括进行乱序处理 xff0c 获取一个batch size的数据等 二 Dat
  • 特征工程

    一 数据读取 1 1 读取CSV文件 1 1 1 原文件内容 1 1 2 读取csv span class token keyword import span csv csv file span class token operator 6
  • 续集来了!我让 GPT-4 用 Laf 三分钟写了个完整的待办事项 App

    书接前文 xff0c 上篇文章我们教大家如何三分钟时间用 Laf 实现一个自己的 ChatGPT 一觉醒来 xff0c GPT 4 已经发布了 xff01 GPT 4 实现了真正的多模态 xff0c 可以把纸笔画的原型直接写出网页代码 读论
  • 代码命名规范

    代码命名规范 现在是2016年12月30日中午12点35分 xff0c 这是我第一次写博客 xff0c 用的是markdown编辑器 xff0c 还不太会用 今天就先简单的写一下 xff0c 看看写出来的效果是什么样的 xff01 xff0
  • 盘点2016

    年年有计划 xff0c 岁岁有复盘 xff0c 今天是2016年的最后一天 我也来回忆一下我的2016年 xff0c 展望一下2017年 记得去年的跨年是和几个朋友在一块儿的过的 xff0c 记得当时玩儿了麻将 xff0c 我输了 xff0
  • easyui combobox动态绑定数据

    1 jsp上的写法 lt input span class hljs keyword class span 61 span class hljs string 34 easyui combobox 34 span id 61 span cl
  • Echarts(二、柱状图(各参数详细描述))

    1 jsp页面 span class hljs tag lt span class hljs title body span gt span span class hljs tag lt span class hljs title div
  • js中级脚本算法

    1区间求值算法挑战 span class hljs function span class hljs keyword function span span class hljs title sumAll span span class hl
  • 自定义封装类PageData

    PageData类 xff0c 它继承了HashMap xff0c 外加实现了Map xff0c 用来自动将前台传递过来的数组参数自动装换成Map对象 PageData的对象 xff0c 这样做的 好处是每次不用手动去解析前台传递的数据了
  • 常用easyUI -icon 图标

    1 样式 代码 xff1a lt DOCTYPE html gt lt html lang 61 34 en 34 gt lt head gt lt meta charset 61 34 UTF 8 34 gt lt title gt Ea
  • vue与后台交互数据(vue-resource)

    需要引入库 xff1a vue resource lt script src 61 34 https cdn jsdelivr net vue resource 1 0 3 vue resource min js 34 gt lt scri
  • 嵌入式开发scp Permission denied

    嵌入式开发过程中 xff0c 遇到scp Permission denied xff0c 将目标文件chmod 777也不起作用 xff0c 其实需要修改ssh的配置 如下 xff1a sudo vim etc ssh ssh config
  • Ubuntu16.04下安装ROS Kinetic并接入某16线激光雷达SDK

    一 搭建ROS Kinetic 1 ROS版本和Ubuntu版本对应关系 xff1a 如上图所示 xff0c Ubuntu16 04对应kinetic xff0c Ubuntu14 04对应indigo xff0c 若在 Ubuntu 14
  • 快速开发一个 ChatGPT 应用的保姆级教程

    本文转自 GitHub xff0c 原文 xff1a https github com easychen openai gpt dev notes for cn developer xff0c 版权归原作者所有 欢迎投稿 xff0c 投稿请
  • 从ROS环境搭建到机械臂仿真与实验

    一 ROS环境搭建 二 安装moveit 三 机械臂仿真 四 机械臂实验
  • Dell G3-3579 安装 Ubuntu16.04 并安装显卡驱动

    之所以没有安装18 04是因为安装ubuntu18 04后安装NVIDIA显卡驱动时总是各种坑 ubuntu18 04认证机器里面没有Dell G3相近系列 而16 04认证机器里面有G3相近系列G5 G7 安装NVIDIA显卡驱动比较容易
  • 使用opencv VideoCapture遇到问题:Unable to stop the stream: Inappropriate ioctl for device

    使用OpenCV的VideoCapture 读取 mp4文件时出现以下错误 xff1a Unable to stop the stream Inappropriate ioctl for device 此问题由于未安装ffmpeg导致 su
  • error: Unknown module(s) in QT: qml quick svg webkit multimedia multimediawidgets

    error Unknown module s in QT qml quick pro QT 43 61 qml quick sudo apt get install qtdeclarative5 dev error Unknown modu
  • pixhawk接口图以及引脚说明

    pixhawk接口图和引脚如下 pixhawk可以同时使用2个GPS xff0c 这只能使用其中一个罗盘 xff0c 实际中飞控挑选其中信号好的一个GPS进行定位 硬件部分 xff1a 第二个GPS插在serial 4 5接口上 xff0c

随机推荐

  • 搭建pixhawk飞控无人小车--前期准备

    2019年打算搭建一款无人小车 xff0c 具有遥控 自动走线 激光雷达避障 视觉识别等功能 1 搭建apm开发环境 感谢阿木实验室提供开发环境 xff0c 下载其提供带开发环境的虚拟机即可 下载地址如下 xff1a 该地址已经失效 xff
  • 搭建pixhawk飞控无人小车--替换自带遥控器

    因为小车原装遥控器接收机和电调版整合在一个小板子上 xff0c 且没有相关资料 xff0c 无法接入飞控 因此单独购买遥控器 在某宝上购买富斯遥控器i6 xff0c 总共六个通道 三个双向开关 一个三向开关 遥控器简单入门视频如下 xff0
  • 搭建pixhawk飞控无人小车--飞控接遥控器、舵机、电调以及模式切换

    1 pixhawk飞控的RC IN接遥控器的接收机的PPM CH1 遥控器只需要接这个接线即可 注意飞控正面朝上 xff0c 上面为接地 和遥控器接收机刚好相反 因此不要接错 如下图 2 修改遥控器配置 xff1a System gt RX
  • 欠驱动Or全驱动?——关于机械手驱动方式的介绍与更优选择(以德国Schunk Hand为例)

    这篇文章主要将介绍机械手两种不同驱动方式 即欠驱动和全驱动的定义 应用背景 优劣性能等特性 xff0c 并将以雄克灵巧手为例 xff0c 讨论现阶段机械手驱动方式的更优选择方案 定义 xff1a 首先先来明确欠驱动和全驱动的定义 xff08
  • mysql 批量插入12位随机数字

    解析 xff1a 批量 随机12位数字 mysql随机12位数字 select CEILING RAND 900000000000 43 100000000000 mysql批量处理函数 delimiter create PROCEDURE
  • 俩小伙一晚上写了个 AI 应用,月入两万??(文末附开发教程)

    开发出一款能够与 AI 对话生成和编辑思维导图的工具 xff0c 听起来似乎只能是一群专业的 AI 背景团队花费大量的时间和精力训练模型 xff0c 打磨应用才能完成的事情 但是 xff0c 两名大学生却在一夜之间完成了 xff0c 就像炼
  • 几本对于笔试和面试有用的书

    4本408核心书籍 xff1a 数据结构 计算机操作系统 计算机网络 计算机组成原理 面试宝典 xff1a 程序员面试宝典 剑指offer 编程之美 微软技术面试心得 编程珠玑 Java程序员面试宝典 C语言 xff1a The C Pro
  • 我如何在计算机视觉顶级会议CVPR上发表论文?

    Scalers 点评 xff1a 两个月前 xff0c 成长会的Ramon S290 收到了计算机视觉顶级会议CVPR论文录取的通知 xff0c 而且是口头报告 CVPR在计算机视觉领域属于三大顶级会议之一 xff0c 具有较高的影响力 x
  • nginx整体结构,进程模型

    nginx的整体结构 xff1a 启动nginx 看到了一个master进程 xff0c 一个worker进程 命令 ps ef grep nginx 第一列 xff1a UID 进程所属的用户id 第二列 xff1a 进程ID PID 用
  • ICP、ISP、IAP、JTAG、SWD下载方式

    目录 ICP ISP IAP JTAG SWD下载方式 概述 JTAG SWD ICP ISP IAP ISP与ICP的差别 ISP和IAP的差别 ICP ISP IAP JTAG SWD下载方式 概述 JTAG和SWD是一种标准协议 xf
  • Linux定时任务crontab -e编辑无法保存

    创作时间 xff1a 2022年8月16日09 36 44 提示没权限 进入 var spool下查看cron目录是正常的 xff0c 但是在cron里面没有权限建立文件这个原因 可以尝试先在 var spool cron目录下用vim编辑
  • C++内存分配

    常见的内存分配方式 静态存储区 xff08 基栈 xff09 xff1a 此时的内存在程序编译的时候已经分配好 xff0c 并且在程序的整个运行期间都存在 里面的变量通常为 xff1a static变量 全局变量const常量 xff1b
  • PWM输出讲解

    一 PWM基础知识 1 PWM的定义 PWM xff0c 是脉冲宽度调制 缩写 xff0c 它是通过对一系列脉冲的宽度进行调制 xff0c 等效出所需要的波形 xff08 包含形状以及幅值 xff09 xff0c 对模拟信号电平进行数字编码
  • Win11中安装Linux 教程 | WSL2的使用

    Windows11今天正式向大家开始推送了 xff0c 这也算是十一假期中的一个重磅消息了 我相信有很多小伙伴会升级到Windows11 那这个视频就讲解一下如何在Windows11中安装Linux系统 xff0c 来帮助我们开发 也就是我
  • 没有键盘和显示屏玩转树莓派

    前期准备 win10电脑一台 xff0c 树莓派开发板 xff0c SD卡 xff0c 电源 xff0c 一根网线 xff08 教程中树莓派为RPI3 xff09 废话不说 xff0c 直接跟着走就行了 xff08 1 xff09 把SD卡
  • 无人机遥感应用

    xfeff xfeff 遥感的通用格式为tiff格式 科普 无人机遥感技术的几个领域应用 2016 09 14 10 10 来源 无人机频道 无人机 科普 原标题 xff1a 科普 无人机遥感技术的几个领域应用 无人机遥感在气象监测中的应用
  • Laf Assistant:云开发从未如此爽快!

    原文链接 xff1a https forum laf run d 67 工欲善其事 xff0c 必先利其器 在编写代码时 xff0c IDE 也是我们不可或缺的 它可以让我们更高效地完成代码编写 xff0c 提高开发效率 因此 xff0c
  • S 串口编程 详解4 串口发送数据

    S 串口编程 详解4 串口发送数据 串口发送数据包括 xff1a 十六进制发送数据 手动发送数据 自动发送数据 手动发送数据的代码如下 xff1a 手动发送 long TX count 61 0 void CSCOMMDlg OnButto
  • FreeRtos 获取任务运行时状态以及实现方式分析

    一 获取全部任务的状态 1 1 系统API函数 void vTaskList char pcWriteBuffer 1 2 函数功能 返回所有任务的 xff1a 任务名任务当前运行状态任务优先级任务剩余的最大栈空间任务ID 1 3 函数参数
  • CS231n Lecture 11:图像分割与检测(各种R-CNN, YOLO, SSD)

    CS231n Lecture 11 xff1a 图像分割与检测 图像的分割和检测的相关任务有不同的粒度 xff0c 我们首先明确一下有关概念 xff1a 语义分割 xff08 Semantic Segmentation xff09 xff1