【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别

2023-11-02

Directions in the CV

物体分割(Object segment)属于图像理解范畴。那什么是图像理解？Image Understanding (IU) 领域包含众多sub-domains，如图像分类、物体检测、物体分割、实例分割等若干问题。每个问题研究的范畴是什么？每个问题中，各个approach对应的the result of processing是什么？
Image Understanding (IU) is an interdisciplinary approach which fuse computer science, mathematics, engineering science, physics, neurosciences, and cognitive science etc. together.
一般我们将CV分为三个大方向：图像处理、图像分析、图像理解。其中图像理解分为以下三个部分
Image Classification:
即是将图像结构化为某一类别的信息，用事先确定好的类别（string）或实例ID来描述图片。其中ImageNet是最权威的测评集，每年的ILSVRC催生大量优秀的深度网络结构，为其他任务提供基础，在应用领域，人脸、场景识别都可以视为分类任务。
Detection
分类任务关心整体，给出的是整张图片的内容描述，而检测则关注特定的物体目标，要求获得这一目标的类别信息和位置信息。相比分类，检测给出的是对图片前景和背景的理解，我们需要从背景中分离出感兴趣的目标，并确定这一目标的描述（类别和位置），因而检测模型的输出是一个列表，列表的每一项使用一个数据组给出检出目标的类别和位置，常用矩形检测框的坐标表示。
Segmentation
分割包括语义分割（semantic segmentation）和实例分割（instance segmentation），前者是对背景分离的拓展，要求分离开具有不同语义的图像部分，而后者是检测任务的拓展，要求描述出目标的轮廓（相比检测框更为精细）。分割是对图像的像素级描述，它赋予每个像素类别意义，适用于理解要求较高的场景，如无人驾驶中对道路和非道路的分割。

后期我会写CV综述，此处留坑占位！
也会对object segmentation的方法进行总结，占坑！

Image Classification

The task of object classification requires binary labels indicating whether objects are present in an image.
Definition：Image Classification根据image中不同图像信息中不同的feature，把不同类别的object region进行分类。
该任务需要我们对出现在某幅图像中的物体做标注。
例如：一共有1000个物体类的image中，某个物体要么有，要么没有。可实现：输入一幅测试图片，输出该图片中物体类别的候选集。如下图所示，不同形状的图形，通过分类分成了8类

Object localization (目标定位)

在图像分类的基础上，我们还想知道图像中的目标具体在图像的什么位置，通常是以边界框的(bounding box)形式。
基本思路

多任务学习，网络带有两个输出分支。一个分支用于做图像分类，即全连接+softmax判断目标类别，和单纯图像分类区别在于这里还另外需要一个“背景”类。另一个分支用于判断目标位置，即完成回归任务输出四个数字标记bounding box位置(例如中心点横纵坐标和包围盒长宽)，该分支输出结果只有在分类分支判断不为“背景”时才使用。
人体位姿定位/人脸定位
目标定位的思路也可以用于人体位姿定位或人脸定位。这两者都需要我们对一系列的人体关节或人脸关键点进行回归。
弱监督定位
由于目标定位是相对比较简单的任务，近期的研究热点是在只有标记信息的条件下进行目标定位。其基本思路是从卷积结果中找到一些较高响应的显著性区域，认为这个区域对应图像中的目标。

Object detection(目标检测)

Detecting an object entails both stating that an object belonging to a specified class is present, and localizing it in the image. The location of an object is typically represented by a bounding box.
理解：object detection=classification+localization
定义：物体探测包含两个问题，一是判断属于某个特定类的物体是否出现在图中；二是对该物体定位，定位常用表征就是物体的边界框(bounding box)。
可实现：输入测试图片，输出检测到的物体类别和位置。如下图，移动的皮卡丘和恐龙

语义分割(Semantic Segmentation)

The task of labeling semantic objects in a scene requires that each pixel of an image be labeled as belonging to a category, such as sky, chair, floor, street, etc. In contrast to the detection task, individual instances of objects do not need to be segmented.
语义标注(Semantic scene labeling)/分割(segmentation)：该任务需要将图中每一点像素标注为某个物体类别。同一物体的不同实例不需要单独分割出来。

Instance segmentation

instance segment = object detect +semantic segment
相对物体检测的边界框，实例分割可精确到物体的边缘；相对语义分割，实例分割可以标注出图上同一物体的不同个体
分类任务通常来说就是识别出包含单个对象的图像是什么，但在分割实例时，我们需要执行更复杂的任务。我们会看到多个重叠物体和不同背景的复杂景象，我们不仅需要将这些不同的对象进行分类，而且还要确定对象的边界、差异和彼此之间的关系！
如下图所示，把不同的实例对象进行了分割，并用不同的颜色进行边缘标注（而不是边框标注）

Some examples

在这里插入图片描述

综述

图像理解领域中的object segmentation方向包括了：image classification、object localization、object detection、semantic segmentation、instance-level segmentation。分类复杂度依次递增，分类详细程度依次递增。

若干参考资料：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Salient Object Detection

computer vision

Object Segmentation

【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别的相关文章

基于面部视觉的疲劳检测-哈欠

基于视觉的疲劳检测可以认为大致分为三个部分点头哈欠眨眼分别为姿态嘴部特征眼部特征本文主要介绍哈欠的测定方法首先研究了陈博士基于可拓学与面部视觉一文他提出一种基于特征点曲线拟合的嘴唇内轮廓检测方法先对嘴巴进行粗定位然
目标分割、目标识别、目标检测和目标跟踪的区别

前些天发现了一个巨牛的人工智能学习网站通俗易懂风趣幽默 https www cbedai net linuxcore 1 目标分割任务是把目标对应的部分分割出来 2 目标检测检测到图片当中的目标的具体位置 3 目标识别即是在所有的
目标检测(一)：背景差分法

目标检测是将运动的物体从背景中检测出来人们希望设计能适用于各种监控环境不受光照天气等外界因素影响的目标检测算法但这种算法难免复杂度大现有一些算法大多是针对某一类问题提出的主要包括背景减法相邻帧差法和光流法等1 1背景减法背景
背景减除法的研究

本篇对背景减除法做了一个全面的分析与比较首先按照数学模型的不同把背景减除法分为六大类然后在每一类中选取了一些经典的有代表性的算法进行介绍最后通过理论研究与实验比较从准确性鲁棒性内存需求和计算速度的角度指出了这些种背景
MVCNN：利用二维多视角的3D识别

Highlights 用物体的三维数据从不同视角所得到的二维渲染图作为原始的训练数据用经典成熟的二维图像卷积网络进行训练训练出的模型对三维物体的识别分类效果之好比那些用三维数据直接训练出的模型好很多 Critical Re
【vision transformer】DETR原理及代码详解（三）

transformer 端到端目标检测DETR项目实践及代码详解 Paddle Detr git PaddleViT object detection DETR at develop BR IDL PaddleViT GitHub 数据集及
圆投影匹配算法描述及实现

解决模板图和基准图之间存在任意角度旋转的景象匹配问题的关键是找到一个旋转不变量圆投影匹配算法就是利用圆的各向同性和投影特征提出来的传统的图像匹配算法如归一化交叉互相关算法主要利用像素点与像素点之间的相关性计算匹配图像与模板之间的
深度网络架构的设计技巧＜一＞：Can CNNs Be More Robust Than Transformers？

导读启发于Transformer结构作者将三种设计引入到CNN中加强后的CNN取得比ViT更强的鲁棒性这三种设计实现简单仅仅几行代码就能实现高效的CNN结构设计 ArXiv https arxiv org abs 2206 03
ROC曲线-阈值评价标准

ROC曲线指受试者工作特征曲线接收器操作特性曲线 receiver operating characteristic curve 是反映敏感性和特异性连续变量的综合指标是用构图法揭示敏感性和特异性的相互关系它通过将连续变量设定出多个不
什么是I帧,P帧,B帧

视频压缩中每帧代表一幅静止的图像而在实际压缩时会采取各种算法减少数据的容量其中IPB就是最常见的简单地说 I帧是关键帧属于帧内压缩就是和AVI的压缩是一样的 P是向前搜索的意思 B是双向搜索他们都是基于I帧来压缩数据 I帧表
【生成式网络】入门篇(二)：GAN的代码和结果记录

GAN非常经典我就不介绍具体原理了直接上代码感兴趣的可以阅读里面有更多变体 https github com rasbt deeplearning models tree master pytorch ipynb gan GAN 在
OpenCV自带函数实现灰度图像平移和旋转算法（平面内）

float shift and rot test opencv cv Mat des Vector2f shift int rot float center x DIM SAMPLE POINTS X 1 2 0 float center
DOTA: A Large-scale Dataset for Object Detection in Aerial Images 翻译

DOTA 用于航空图像中目标检测的大规模数据集原文 https arxiv org pdf 1711 10398 pdf 官网 https captain whu github io DOTA dataset https captain
ICP算法（Iterative Closest Point迭代最近点算法）

最近在做点云匹配需要用c 实现ICP算法下面是简单理解期待高手指正 ICP算法能够使不同的坐标下的点云数据合并到同一个坐标系统中首先是找到一个可用的变换配准操作实际是要找到从坐标系1到坐标系2的一个刚性变换 ICP算法本质上是基于
SIFT特征提取-应用篇

SIFT特征具有缩放旋转特征不变性下载了大牛的matlab版SIFT特征提取代码解释如下 1 调用方法将文件加入matlab目录后在主程序中有两种操作 op1 寻找图像中的Sift特征 image descrips locs si
深度网络架构的设计技巧(三)之ConvNeXt：打破Transformer垄断的纯CNN架构

单位 FAIR DenseNet共同一作曾获CVPR2017 best paper UC伯克利 ArXiv https arxiv org abs 2201 03545 Github https github com facebookre
M-estimator M估计法用于几何模型建立

M estimators是一类广泛估计函数定义为所给数据上的最小和函数最小平方估计和极大似然估计都是M估计法 M估计法由鲁棒的数据作为运行保证一般地一个M estimation定义为一个估计函数为0的情况这个估计函数经常是一些统计
计算机视觉应该怎样入门？

知乎问答计算机视觉应该怎样入门目录第一阶段技术基石图像处理基础图像处理进阶第二阶段深度学习神经网络初步与调参技巧深度卷积神经网络原理与实践图像搜索技术大规模车辆图片搜索重识别第三阶段重点攻坚目标检测及其在无人
ML Impossible and Rescure

No Rule to Define will cause conflict Using available data to estimate target function if without rule target is unknown
Binary Classification Core PLA

Target Step Verify My verification Pocket Algorithm Pros Cons of PLA

随机推荐

Appium自动化测试基础 — APPium基本原理

1 APPium自动化测试架构 APPium是一个C S架构的自动化测试框架 APPium的核心其实是一个暴露了一系列REST API的server 也就是Appium的核心是一个提供了一组REST API的Web服务器这个server的
区块链专家洪蜀宁：实现全民普惠的专业化产品设计

洪蜀宁老师曾两次受邀在混沌大学授课毕业于清华大学计算机系曾长期在中国人民银行工作对金融科技有着丰富的研究和实战经验洪蜀宁早在十年前 2011年就发表了国内第一篇研究比特币的论文比特币一种新型货币对金融体系的挑战该文刊登于
CSS之文字样式

1 字体类型设置标签名 font family 注意英文字体只适用于英文中文字体可以适用中文和英文代码
linux命令总结【系统，防火墙，java，文件及文件夹，解压缩，mysql，nginx，redis，rabbitmq，rocketmq，elasticsearch，nacos，canal】

日常开发过程中需要用到linux相关命令整合一下如发现问题欢迎留言反馈目录一系统相关命令二防火墙三 java相关 1 安装 2 启动jar包 3 java进程四文件及文件夹 1 上传下载文件 2 解压文件 3 查看文件
关于Java调用dll的方法

Java语言本身具有跨平台性如果通过Java调用DLL的技术方便易用使用Java开发前台界面可以更快速也能带来跨平台性 Java调用C C 写好的DLL库时由于基本数据类型不同使用字节序列可能有差异所以在参数传递过程中容易出现问
【IP层分组转发的流程】划分子网的情况下，分组转发的算法。

首先参考了一张谢希仁老师的书里的一个示例主机H1向H2发送分组的过程首先跟本子网内的子网掩码 255 255 255 128与目标主机H2的IP地址 128 30 33 128 相与得到网络号 128 30 33 128 显然这与子
IDEA从零到精通（12）之用C3P0连接Mysql数据库

文章目录作者简介引言导航热门专栏推荐一下载驱动并加入项目中二编写配置文件三编写工具类四编写测试类五测试运行小结导航热门专栏推荐作者简介作者名编程界明世隐简介 CSDN博客专家从事软件开发多年精通
Linux nohup、&、 2>&1是什么？

基本含义 dev null 表示空设备文件 0 表示stdin标准输入 1 表示stdout标准输出 2 表示stderr标准错误 gt file 表示将标准输出输出到file中也就相当于 1 gt file 2 gt error 表示将
JVisualVM初步使用

JVisualVM初步使用 1 前言 jvm调优工具有常见的为Jconsole jProfile VisualVM Jconsole 为jdk自带功能简单但是可以在系统有一定负荷的情况下使用对垃圾回收算法有很详细的跟踪 JProfil
学习HTML的知识点总结

一网页 1 什么是网页网站是指在因特网上根据一定规律使用HTML等制作用于展示特定内容的网页集合网页是网站中的一页通常是HTML格式的文件他要通过浏览器来阅读网页是构成网站的基本元素它通常由图片链接文字声音视频等元
【大模型】更强的 LLaMA2 来了，开源可商用、与 ChatGPT 齐平

大模型可商用且更强的 LLaMA2 来了 LLaMA2 简介论文 GitHub huggingface 模型列表训练数据训练信息模型信息许可证参考 LLaMA2 简介 2023年7月19日 Meta 发布开源可商用模型 Lla
合并有序数组

合并两个有序数组描述给你两个有序整数数组 nums1 和 nums2 请你将 nums2 合并到 nums1 中使 num1 成为一个有序数组说明初始化 nums1 和 nums2 的元素数量分别为 m 和 n 你可以假设 num
Pytest+selenium+allure+Jenkins自动化测试框架搭建及使用

一环境搭建 1 Python下载及安装 Python可应用于多平台包括windows Linux 和 Mac OS X 本文主要介绍windows环境下你可以通过终端窗口输入 python 命令来查看本地是否已经安装Python以及Py
软件测试22种测试方法与详解

黑盒测试不基于内部设计和代码的任何知识而是基于需求和功能性白盒测试基于一个应用代码的内部逻辑知识测试是基于覆盖全部代码分支路径条件单元测试最微小规模的测试以测试某个功能或代码块典型地由程序员而非测试员来做因为它需要
用js制作一个视觉差背景

我在网上冲浪的时候看到了一个文字和背景下滑速度不一致的情况这看起来背景会有一种3d的感觉于是研究了一下首先先写出大概的html和css div class box div class bg div h2 我是一个文字 h2 p 我是一
算法实验题1

第一题由1 3 4 5 7 8这6个数字组成六位数中能被11整除的最大的数是多少解答可以使用暴力枚举法将1 3 4 5 7 8的所有排列组合情况求出来判断它们是否能被11整除然后取其中能被11整除的最大值但是这个方法的时间复
蓝桥杯第6天动态规划（4）

目录 1 121 买卖股票的最佳时机力扣 LeetCode leetcode cn com 1 暴力解法 2 动态规划 2 122 买卖股票的最佳时机 II 力扣 LeetCode leetcode cn com 3 123 买卖股票的最
uni-app 页面样式

页面样式与布局尺寸单位 uni app 支持的通用 css 单位包括 px rpx px 即屏幕像素 rpx 即响应式px 一种根据屏幕宽度自适应的动态单位以750宽的屏幕为基准 750rpx恰好为屏幕宽度屏幕变宽 rpx 实际显示效
C++整数转成二进制方法总结

经常遇到要用到二进制的情况这里我就记录下 1 逐次经典位操作返回一个含有二进制数的vector include
【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别

Directions in the CV 物体分割 Object segment 属于图像理解范畴那什么是图像理解 Image Understanding IU 领域包含众多sub domains 如图像分类物体检测物体分割实例分割