【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别

2023-11-02

Directions in the CV

  • 物体分割(Object segment)属于图像理解范畴。那什么是图像理解?Image Understanding (IU) 领域包含众多sub-domains,如图像分类、物体检测、物体分割、实例分割等若干问题。每个问题研究的范畴是什么?每个问题中,各个approach对应的the result of processing是什么?
  • Image Understanding (IU) is an interdisciplinary approach which fuse computer science, mathematics, engineering science, physics, neurosciences, and cognitive science etc. together.
  • 一般我们将CV分为三个大方向:图像处理、图像分析、图像理解。其中图像理解分为以下三个部分
  • Image Classification:
    即是将图像结构化为某一类别的信息,用事先确定好的类别(string)或实例ID来描述图片。其中ImageNet是最权威的测评集,每年的ILSVRC催生大量优秀的深度网络结构,为其他任务提供基础,在应用领域,人脸、场景识别都可以视为分类任务。
  • Detection
    分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求获得这一目标的类别信息和位置信息。相比分类,检测给出的是对图片前景和背景的理解,我们需要从背景中分离出感兴趣的目标,并确定这一目标的描述(类别和位置),因而检测模型的输出是一个列表,列表的每一项使用一个数据组给出检出目标的类别和位置,常用矩形检测框的坐标表示。
  • Segmentation
    分割包括语义分割(semantic segmentation)和实例分割(instance segmentation),前者是对背景分离的拓展,要求分离开具有不同语义的图像部分,而后者是检测任务的拓展,要求描述出目标的轮廓(相比检测框更为精细)。分割是对图像的像素级描述,它赋予每个像素类别意义,适用于理解要求较高的场景,如无人驾驶中对道路和非道路的分割。

后期我会写CV综述,此处留坑占位!
也会对object segmentation的方法进行总结,占坑!

Image Classification

  • The task of object classification requires binary labels indicating whether objects are present in an image.
  • Definition:Image Classification根据image中不同图像信息中不同的feature,把不同类别的object region进行分类。
  • 该任务需要我们对出现在某幅图像中的物体做标注。
  • 例如:一共有1000个物体类的image中,某个物体要么有,要么没有。可实现:输入一幅测试图片,输出该图片中物体类别的候选集。如下图所示,不同形状的图形,通过分类分成了8类
    在这里插入图片描述

Object localization (目标定位)

  • 在图像分类的基础上,我们还想知道图像中的目标具体在图像的什么位置,通常是以边界框的(bounding box)形式。
  • 基本思路
  1. 多任务学习,网络带有两个输出分支。一个分支用于做图像分类,即全连接+softmax判断目标类别,和单纯图像分类区别在于这里还另外需要一个“背景”类。另一个分支用于判断目标位置,即完成回归任务输出四个数字标记bounding box位置(例如中心点横纵坐标和包围盒长宽),该分支输出结果只有在分类分支判断不为“背景”时才使用。
  2. 人体位姿定位/人脸定位
    目标定位的思路也可以用于人体位姿定位或人脸定位。这两者都需要我们对一系列的人体关节或人脸关键点进行回归。
  3. 弱监督定位
    由于目标定位是相对比较简单的任务,近期的研究热点是在只有标记信息的条件下进行目标定位。其基本思路是从卷积结果中找到一些较高响应的显著性区域,认为这个区域对应图像中的目标。

Object detection(目标检测)

  • Detecting an object entails both stating that an object belonging to a specified class is present, and localizing it in the image. The location of an object is typically represented by a bounding box.
  • 理解:object detection=classification+localization
  • 定义:物体探测包含两个问题,一是判断属于某个特定类的物体是否出现在图中;二是对该物体定位,定位常用表征就是物体的边界框(bounding box)。
  • 可实现:输入测试图片,输出检测到的物体类别和位置。如下图,移动的皮卡丘和恐龙
  • 在这里插入图片描述
    在这里插入图片描述

语义分割(Semantic Segmentation)

  • The task of labeling semantic objects in a scene requires that each pixel of an image be labeled as belonging to a category, such as sky, chair, floor, street, etc. In contrast to the detection task, individual instances of objects do not need to be segmented.
  • 语义标注(Semantic scene labeling)/分割(segmentation):该任务需要将图中每一点像素标注为某个物体类别。同一物体的不同实例不需要单独分割出来。

Instance segmentation

  • instance segment = object detect +semantic segment
  • 相对物体检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割可以标注出图上同一物体的不同个体
  • 分类任务通常来说就是识别出包含单个对象的图像是什么,但在分割实例时,我们需要执行更复杂的任务。我们会看到多个重叠物体和不同背景的复杂景象,我们不仅需要将这些不同的对象进行分类,而且还要确定对象的边界、差异和彼此之间的关系!
  • 如下图所示,把不同的实例对象进行了分割,并用不同的颜色进行边缘标注(而不是边框标注)
    在这里插入图片描述
    在这里插入图片描述

Some examples


在这里插入图片描述

综述

图像理解领域中的object segmentation方向包括了:image classification、object localization、object detection、semantic segmentation、instance-level segmentation。分类复杂度依次递增,分类详细程度依次递增。


若干参考资料:

  1. https://blog.csdn.net/niaolianjiulin/article/details/52948274?utm_source=copy
  2. https://blog.csdn.net/np4rHI455vg29y2/article/details/79250952
  3. https://www.jianshu.com/p/e3ec3f1ed6fc
  4. https://yq.aliyun.com/articles/396373
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别 的相关文章

  • 基于面部视觉的疲劳检测-哈欠

    基于视觉的疲劳检测可以认为大致分为三个部分 点头 哈欠 眨眼 分别为姿态 嘴部特征 眼部特征 本文主要介绍哈欠的测定方法 首先研究了陈博士 基于可拓学与面部视觉 一文 他提出一种基于特征点曲线拟合的嘴唇内轮廓检测方法 先对嘴巴进行粗定位 然
  • 目标分割、目标识别、目标检测和目标跟踪的区别

    前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 https www cbedai net linuxcore 1 目标分割 任务是把目标对应的部分分割出来 2 目标检测 检测到图片当中的目标的具体位置 3 目标识别 即是在所有的
  • 目标检测(一):背景差分法

    目标检测是将运动的物体从背景中检测出来 人们希望设计能适用于各种监控环境 不受光照 天气等外界因素影响的目标检测算法 但这种算法难免复杂度大 现有一些算法大多是针对某一类问题提出的 主要包括背景减法 相邻帧差法和光流法等1 1背景减法 背景
  • 背景减除法的研究

    本篇对背景减除法做了一个全面的分析与比较 首先 按照数学模型的不同 把背景减除法分为六大类 然后 在每一类中选取了一些经典的 有代表性的算法进行介绍 最后 通过理论研究与实验比较 从准确性 鲁棒性 内存需求和计算速度的角度 指出了这些种背景
  • MVCNN:利用二维多视角的3D识别

    Highlights 用物体的三维数据从不同 视角 所得到的二维渲染图 作为原始的训练数据 用经典 成熟的二维图像卷积网络进行训练 训练出的模型 对三维物体的识别 分类效果之好 比那些用三维数据直接训练出的模型好很多 Critical Re
  • 【vision transformer】DETR原理及代码详解(三)

    transformer 端到端目标检测DETR项目实践及代码详解 Paddle Detr git PaddleViT object detection DETR at develop BR IDL PaddleViT GitHub 数据集及
  • 圆投影匹配算法描述及实现

    解决模板图和基准图之间存在任意角度旋转的景象匹配问题的关键是找到一个旋转不变量 圆投影匹配算法就是利用 圆 的各向同性和投影特征提出来的 传统的图像匹配算法 如归一化交叉互相关算法 主要利用像素点与像素点之间的相关性计算匹配图像与模板之间的
  • 深度网络架构的设计技巧<一>:Can CNNs Be More Robust Than Transformers?

    导读 启发于Transformer结构 作者将三种设计引入到CNN中 加强后的CNN取得比ViT更强的鲁棒性 这三种设计 实现简单 仅仅几行代码就能实现高效的CNN结构设计 ArXiv https arxiv org abs 2206 03
  • ROC曲线-阈值评价标准

    ROC曲线指受试者工作特征曲线 接收器操作特性曲线 receiver operating characteristic curve 是反映敏感性和特异性连续变量的综合指标 是用构图法揭示敏感性和特异性的相互关系 它通过将连续变量设定出多个不
  • 什么是I帧,P帧,B帧

    视频压缩中 每帧代表一幅静止的图像 而在实际压缩时 会采取各种算法减少数据的容量 其中IPB就是最常见的 简单地说 I帧是关键帧 属于帧内压缩 就是和AVI的压缩是一样的 P是向前搜索的意思 B是双向搜索 他们都是基于I帧来压缩数据 I帧表
  • 【生成式网络】入门篇(二):GAN的 代码和结果记录

    GAN非常经典 我就不介绍具体原理了 直接上代码 感兴趣的可以阅读 里面有更多变体 https github com rasbt deeplearning models tree master pytorch ipynb gan GAN 在
  • OpenCV自带函数实现灰度图像平移和旋转算法(平面内)

    float shift and rot test opencv cv Mat des Vector2f shift int rot float center x DIM SAMPLE POINTS X 1 2 0 float center
  • DOTA: A Large-scale Dataset for Object Detection in Aerial Images 翻译

    DOTA 用于航空图像中目标检测的大规模数据集 原文 https arxiv org pdf 1711 10398 pdf 官网 https captain whu github io DOTA dataset https captain
  • ICP算法(Iterative Closest Point迭代最近点算法)

    最近在做点云匹配 需要用c 实现ICP算法 下面是简单理解 期待高手指正 ICP算法能够使不同的坐标下的点云数据合并到同一个坐标系统中 首先是找到一个可用的变换 配准操作实际是要找到从坐标系1到坐标系2的一个刚性变换 ICP算法本质上是基于
  • SIFT特征提取-应用篇

    SIFT特征具有缩放 旋转特征不变性 下载了大牛的matlab版SIFT特征提取代码 解释如下 1 调用方法 将文件加入matlab目录后 在主程序中有两种操作 op1 寻找图像中的Sift特征 image descrips locs si
  • 深度网络架构的设计技巧(三)之ConvNeXt:打破Transformer垄断的纯CNN架构

    单位 FAIR DenseNet共同一作 曾获CVPR2017 best paper UC伯克利 ArXiv https arxiv org abs 2201 03545 Github https github com facebookre
  • M-estimator M估计法 用于几何模型建立

    M estimators是一类广泛估计函数 定义为所给数据上的最小和函数 最小平方估计和极大似然估计都是M估计法 M估计法由鲁棒的数据作为运行保证 一般地 一个M estimation定义为一个估计函数为0的情况 这个估计函数经常是一些统计
  • 计算机视觉应该怎样入门?

    知乎问答 计算机视觉应该怎样入门 目录 第一阶段 技术基石 图像处理基础 图像处理进阶 第二阶段 深度学习 神经网络初步与调参技巧 深度卷积神经网络原理与实践 图像搜索技术 大规模车辆图片搜索 重识别 第三阶段 重点攻坚 目标检测及其在无人
  • ML Impossible and Rescure

    No Rule to Define will cause conflict Using available data to estimate target function if without rule target is unknown
  • Binary Classification Core PLA

    Target Step Verify My verification Pocket Algorithm Pros Cons of PLA

随机推荐

  • Appium自动化测试基础 — APPium基本原理

    1 APPium自动化测试架构 APPium是一个C S架构的自动化测试框架 APPium的核心其实是一个暴露了一系列REST API的server 也就是Appium的核心是一个提供了一组REST API的Web服务器 这个server的
  • 区块链专家洪蜀宁:实现全民普惠的专业化产品设计

    洪蜀宁老师 曾两次受邀在混沌大学授课 毕业于清华大学计算机系 曾长期在中国人民银行工作 对金融科技有着丰富的研究和实战经验 洪蜀宁早在十年前 2011年 就发表了国内第一篇研究比特币的论文 比特币 一种新型货币对金融体系的挑战 该文刊登于
  • CSS之文字样式

    1 字体类型设置 标签名 font family 注意 英文字体只适用于英文 中文字体可以适用中文和英文 代码
  • linux命令总结【系统,防火墙,java,文件及文件夹,解压缩,mysql,nginx,redis,rabbitmq,rocketmq,elasticsearch,nacos,canal】

    日常开发过程中需要用到linux相关命令 整合一下 如发现问题欢迎留言反馈 目录 一 系统相关命令 二 防火墙 三 java相关 1 安装 2 启动jar包 3 java进程 四 文件及文件夹 1 上传下载文件 2 解压文件 3 查看文件
  • 关于Java调用dll的方法

    Java语言本身具有跨平台性 如果通过Java调用DLL的技术方便易用 使用Java开发前台界面可以更快速 也能带来跨平台性 Java调用C C 写好的DLL库时 由于基本数据类型不同 使用字节序列可能有差异 所以在参数传递过程中容易出现问
  • 【IP层分组转发的流程】划分子网的情况下,分组转发的算法。

    首先 参考了一张谢希仁老师的书里的一个示例 主机H1向H2发送分组的过程 首先 跟本子网内的子网掩码 255 255 255 128与目标主机H2的IP地址 128 30 33 128 相与得到网络号 128 30 33 128 显然这与子
  • IDEA从零到精通(12)之用C3P0连接Mysql数据库

    文章目录 作者简介 引言 导航 热门专栏推荐 一 下载驱动并加入项目中 二 编写配置文件 三 编写工具类 四 编写测试类 五 测试运行 小结 导航 热门专栏推荐 作者简介 作者名 编程界明世隐 简介 CSDN博客专家 从事软件开发多年 精通
  • Linux nohup、&、 2>&1是什么?

    基本含义 dev null 表示空设备文件 0 表示stdin标准输入 1 表示stdout标准输出 2 表示stderr标准错误 gt file 表示将标准输出输出到file中 也就相当于 1 gt file 2 gt error 表示将
  • JVisualVM初步使用

    JVisualVM初步使用 1 前言 jvm调优工具有常见的为Jconsole jProfile VisualVM Jconsole 为jdk自带 功能简单 但是可以在系统有一定负荷的情况下使用 对垃圾回收算法有很详细的跟踪 JProfil
  • 学习HTML的知识点总结

    一 网页 1 什么是网页 网站是指在因特网上根据一定规律 使用HTML等制作用于展示特定内容的网页集合 网页是网站中的一 页 通常是HTML格式的文件 他要通过浏览器来阅读 网页是构成网站的基本元素 它通常由图片 链接 文字 声音 视频等元
  • 【大模型】更强的 LLaMA2 来了,开源可商用、与 ChatGPT 齐平

    大模型 可商用且更强的 LLaMA2 来了 LLaMA2 简介 论文 GitHub huggingface 模型列表 训练数据 训练信息 模型信息 许可证 参考 LLaMA2 简介 2023年7月19日 Meta 发布开源可商用模型 Lla
  • 合并有序数组

    合并两个有序数组 描述 给你两个有序整数数组 nums1 和 nums2 请你将 nums2 合并到 nums1 中 使 num1 成为一个有序数组 说明 初始化 nums1 和 nums2 的元素数量分别为 m 和 n 你可以假设 num
  • Pytest+selenium+allure+Jenkins自动化测试框架搭建及使用

    一 环境搭建 1 Python下载及安装 Python可应用于多平台包括windows Linux 和 Mac OS X 本文主要介绍windows环境下 你可以通过终端窗口输入 python 命令来查看本地是否已经安装Python以及Py
  • 软件测试22种测试方法与详解

    黑盒测试 不基于内部设计和代码的任何知识 而是基于需求和功能性 白盒测试 基于一个应用代码的内部逻辑知识 测试是基于覆盖全部代码 分支 路径 条件 单元测试 最微小规模的测试 以测试某个功能或代码块 典型地由程序员而非测试员来做 因为它需要
  • 用js制作一个视觉差背景

    我在网上冲浪的时候看到了一个文字和背景下滑速度不一致的情况 这看起来背景会有一种3d的感觉 于是研究了一下 首先先写出大概的html和css div class box div class bg div h2 我是一个文字 h2 p 我是一
  • 算法实验题1

    第一题 由1 3 4 5 7 8这6个数字组成六位数中 能被11整除的最大的数是多少 解答 可以使用暴力枚举法 将1 3 4 5 7 8的所有排列组合情况求出来 判断它们是否能被11整除 然后取其中能被11整除的最大值 但是这个方法的时间复
  • 蓝桥杯 第6天 动态规划(4)

    目录 1 121 买卖股票的最佳时机 力扣 LeetCode leetcode cn com 1 暴力解法 2 动态规划 2 122 买卖股票的最佳时机 II 力扣 LeetCode leetcode cn com 3 123 买卖股票的最
  • uni-app 页面样式

    页面样式与布局 尺寸单位 uni app 支持的通用 css 单位包括 px rpx px 即屏幕像素 rpx 即响应式px 一种根据屏幕宽度自适应的动态单位 以750宽的屏幕为基准 750rpx恰好为屏幕宽度 屏幕变宽 rpx 实际显示效
  • C++整数转成二进制方法总结

    经常遇到要用到二进制的情况 这里我就记录下 1 逐次经典位操作 返回一个含有二进制数的vector include
  • 【深度学习之图像理解】图像分类、物体检测、物体分割、实例分割、语义分割的区别

    Directions in the CV 物体分割 Object segment 属于图像理解范畴 那什么是图像理解 Image Understanding IU 领域包含众多sub domains 如图像分类 物体检测 物体分割 实例分割