目标分割、目标识别、目标检测和目标跟踪的区别

2023-10-26

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默:
https://www.cbedai.net/linuxcore

1)目标分割,任务是把目标对应的部分分割出来。
2)目标检测,检测到图片当中的目标的具体位置
3) 目标识别,即是在所有的给定数据中,分类出哪一些sample是目标,哪一些不是。这个仅仅做一下分类任务。
4)目标追踪,这个任务很重要的第一点是目标定位(Target Locating)。而且这个任务设计到的数据一般具有时间序列(Temporal Data)。常见的情况是首先Target被Identify以后,算法或者系统需要在接下来时序的数据中,快速并高效地对给定目标进行再定位。任务需要区别类似目标,需要避免不要的重复计算,充分利用好时序相关性(Temporal Correlation),并且需要对一些简单的变化Robust,必须旋转,遮盖,缩小放大,Motion Blur之类的线性或者非线性变化。
目标跟踪:追踪目标运动轨迹。这个仅仅应用在视频当中。
粗略理解:

  • 目标分割:像素级的对前景与背景进行分类,将背景剔除;
  • 目标检测:定位目标,确定目标位置及大小;
  • 目标识别:定性目标,确定目标是什么;
  • 目标跟踪:追踪目标运动轨迹。

典型的技术路线是:目标分割 ——>目标检测 ——>目标识别 ——>目标跟踪

举个栗子,如:需要对视频中的小明进行跟踪,处理过程将经历如下过程:
(1)首先,采集第一帧视频图像,因为人脸部的肤色偏黄,因此可以通过颜色特征将人脸与背景分割出来(目标分割);
(2)分割出来后的图像有可能不仅仅包含人脸,可能还有部分环境中颜色也偏黄的物体,此时可以通过一定的形状特征将图像中所有的人脸准确找出来,确定其位置及范围(目标检测);
(3)接下来需将图像中的所有人脸与小明的人脸特征进行对比,找到匹配度最好的,从而确定哪个是小明(目标识别);
(4)之后的每一帧就不需要像第一帧那样在全图中对小明进行检测,而是可以根据小明的运动轨迹建立运动模型,通过模型对下一帧小明的位置进行预测,从而提升跟踪的效率(目标跟踪)

OT与OD到底啥区别

最大的区别我觉得OT只给了第一帧的GT
目标跟踪不需要目标识别,可以根据运动特征来进行跟踪,而无需确切知道跟踪的是什么,所以如果利用视频画面之间(帧之间)的临时关系,单纯的目标跟踪可以很高效的实现。

基于OD的目标跟踪算法计算非常昂贵,需要对每帧画面进行检测,才能得到目标的运动轨迹。而且,只能追踪已知的目标,因为目标检测算法就只能实现已知类别的定位识别。

因此,OD要求定位+分类。而目标跟踪,分类只是一个可选项,根据具体问题而定,我们可以完全不在乎跟踪的目标是什么,只在乎它的运动特征。实际中,目标检测可以通过目标跟踪来加速,然后再间隔一些帧进行分类(好几帧进行一次分类)。在一个慢点的线程上寻找目标并锁定,然后在快的线程上进行目标跟踪,运行更快。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

目标分割、目标识别、目标检测和目标跟踪的区别 的相关文章

  • 基于GroundingDINO构建目标检测数据集自动标注工具-支持COCO和VOC格式

    0 介绍 GroundingDINO是最新发布的zero shot目标检测器 在多个数据集上取得了很好的结果 在该方法的基础上 本人修复该方法自动标注的bug 并增加VOC格式 1 安装GroundingDINO 根据github提供的源码
  • YOLOV2个人理解总结

    YOLOv2框架图 YOLOv2改进之处 1 Batch Normalization BN Batch Normalization 层简单讲就是对网络的每一层的输入都做了归一化 这样网络就不需要每层都去学数据的分布 收敛会快点 原来的YOL
  • 基于YOLOv8模型的烟火目标检测系统(PyTorch+Pyside6+YOLOv8模型)

    摘要 基于YOLOv8模型的烟火目标检测系统可用于日常生活中检测与定位烟火目标 利用深度学习算法可实现图片 视频 摄像头等方式的目标检测 另外本系统还支持图片 视频等格式的结果可视化与结果导出 本系统采用YOLOv8目标检测算法训练数据集
  • import tensorflow as tf报错ModuleNotFoundError: No module named 'tensorflow'

    在安装tenserflow和keras的时候 安装完毕进行验证的时候会报错 解决方法就是需要安装tf nightly 安装完毕错误就不再报了 pip install tf nightly
  • 【目标检测】【语义分割】—Mask-R-CNN详解

    一 mask rcnn简介 论文链接 论文链接 论文代码 Facebook代码链接 Tensorflow版本代码链接 Keras and TensorFlow版本代码链接 MxNet版本代码链接 mask rcnn是基于faster rcn
  • 睿智的目标检测24——Keras搭建Mobilenet-SSD目标检测平台

    睿智的目标检测24 Keras搭建Mobilenet SSD目标检测平台 更新说明 学习前言 什么是SSD目标检测算法 源码下载 SSD实现思路 一 预测部分 1 主干网络介绍 2 从特征获取预测结果 3 预测结果的解码 4 在原图上进行绘
  • 动手学CV-目标检测入门教程4:模型结构

    3 4 模型结构 本文来自开源组织 DataWhale CV小组创作的目标检测入门教程 对应开源项目 动手学CV Pytorch 的第3章的内容 教程中涉及的代码也可以在项目中找到 后续会持续更新更多的优质内容 欢迎 如果使用我们教程的内容
  • 【今日CV 计算机视觉论文速览 第149期】Tue, 30 Jul 2019

    今日CS CV 计算机视觉论文速览 Tue 30 Jul 2019 Totally 77 papers 上期速览 更多精彩请移步主页 Interesting MaskGAN人脸属性操作的新方法 为了克服先前方法受限于预定义的有限人脸特征操作
  • 从近两年的CVPR会议来看,目标检测的研究方向是怎么样的?

    Old Xie CS2EE2CS Naiyan Wang 等 85 人赞同 目前object detection的工作可以粗略的分为两类 1 使用region proposal的 目前是主流 比如RCNN SPP Net Fast RCNN
  • (linux系统下)MMCV及MMClassification教程及安装问题解决

    说一下依托关系 MMCV是面向计算机视觉的一个基础库 它支持OpenMMLab的各个模块包括MMClassification图像分类 MMDetectionm目标检测 MMOCR文字检测识别等等 本文主要详细介绍一下mmcv和mmcls的安
  • 【目标检测】OneNet: Towards End-to-End One-Stage Object Detection

    label assignment是指 在训练过程中如何将某个prediction指定给某个GT 用于计算损失 训练网络 对于上一篇文章 他们首先用one to one label assignment替换了one to many label
  • Dlib的编译

    有2种方法 1 新建空的工程 导入后编译 2 采用CMake自动生成工程文件后 再编译 官网上建议第1种方法 第1种方法好处就是编译后 在使用lib文件时 不需要将libjpeg libpng and zlib目录下的文件导入到工程文件中
  • 基于ShuffleNetv2-YOLOv4模型的目标检测

    目录 1 引言 摘要 1 1 说明 1 2替换完成的工程请参考gitee 2 网络结构基础 2 1YOLOv3 2 1 YOLOv4算法 2 3 ShuffleNetv2 2 4 替换后的网络结构 3 实验结果 3 1实验环境配置及数据集介
  • FPN网络详解

    1 特征金字塔 特征金字塔 Feature Pyramid Networks FPN 的基本思想是通过构造一系列不同尺度的图像或特征图进行模型训练和测试 目的是提升检测算法对于不同尺寸检测目标的鲁棒性 但如果直接根据原始的定义进行FPN计算
  • STM32f103增加ESP8266模块,通过Wifi用手机TCP服务端远程与STM32通信

    STM32f103增加ESP8266模块 通过Wifi用手机TCP服务端远程与STM32通信 提示 esp8266开启透传模式 连上路由器Wifi 电脑热点 接入STM32串口引脚 另外手机TCP服务端是手机IP地址 串口号 大于8000滴
  • 【pytorch目标检测】创新之作:Fast R-CNN算法解读

    背景 2015年 提出了Fast RCNN算法 训练步骤实现端到端 CNN 基于VGG6 Fast R CNN是基于R CNN和SPPnets进行的改进 成果 训练速度比RCNN块9倍 测试速度快乐23倍 准确率68 4 SPPnets网络
  • 目标检测算法改进系列之添加SCConv空间和通道重构卷积

    SCConv 空间和通道重构卷积 SCConv 空间和通道重构卷积 的高效卷积模块 以减少卷积神经网络 CNN 中的空间和通道冗余 SCConv旨在通过优化特征提取过程 减少计算资源消耗并提高网络性能 该模块包括两个单元 1 空间重构单元
  • 什么是概率匹配

    概率匹配是一种在信息论和统计学中常用的方法 用于将一个随机事件的概率分布与另一个概率分布进行匹配或逼近 它在数据处理 编码 压缩和模型选择等领域具有重要的应用 为我们理解和处理复杂的概率分布提供了一种有效的工具 首先 让我们来了解概率匹配的
  • 目标检测深度学习的anchor

    在目标检测深度学习中 Anchor是一种预定义的框 用于在图像中采样不同位置 尺度和长宽比例的区域 作为目标检测模型的候选区域 Anchor是Faster R CNN等基于Anchor的目标检测算法的核心概念 具体来说 Anchor有以下几
  • 什么是深度学习的无监督学习与有监督学习

    无监督学习 深度学习中的无监督学习方法是一种训练算法 它在没有标注输出的情况下从输入数据中学习模式和特征 这种方法的核心是探索和理解数据的内在结构和分布 而不是通过已知的输出来指导学习过程 无监督学习在深度学习领域有许多不同的形式和应用 以

随机推荐

  • git中的后悔方法:rebase,revert,reset

    http zhaojunde1976 blog 163 com blog static 12199866820136119201752 如果git中提交了错误代码 怎么办 有三种选择 rebase revert reset revert 用
  • Ubuntu git GnuTLS recv 错误(-110):TLS 连接未正确终止error: server certificate verification failed. CAfile: /e

    git错误error server certificate verification failed CAfile etc ssl certs ca certificates crt CRLfile none 重新卸载git 安装脚本 安装脚
  • Vue框架学习一

    1 Vue初体验 Vue 读音 vju 类似于 view 是一套用于构建用户界面的渐进式框架 与其它大型框架不同的是 Vue 被设计为可以自底向上逐层应用 Vue 的核心库只关注视图层 不仅易于上手 还便于与第三方库或既有项目整合 另一方面
  • WebGL three.js学习笔记 使用粒子系统模拟时空隧道(虫洞)

    WebGL three js学习笔记 使用粒子系统模拟时空隧道 本例的运行结果如图 时空隧道demo演示 Demo地址 https nsytsqdtn github io demo sprite tunnel three js的粒子系统 t
  • 一文彻底搞懂前端实现文件预览(word、excel、pdf、ppt、mp4、图片、文本)

    作者 竹业 https juejin cn post 7071598747519549454 前言 因为业务需要 很多文件需要在前端实现预览 今天就来了解一下吧 Demo地址 1 https zhuye1993 github io file
  • Linux系统查看文件的命令及作用详解

    在Linux系统中 查看文件的命令常用的有五个 分别是 find命令 locate命令 whereis命令 which命令及type命令 接下来通过这篇文章为大家详细介绍一下这五个命令 Linux查看文件的五种命令 1 find find是
  • OLED屏幕对比LCD为什么更加省电?

    OLED显示技术与传统的LCD显示方式不同 无需背光灯 采用非常薄的有机材料涂层和玻璃基板 当有电流通过时 这些有机材料就会发光 而且OLED显示屏幕可以做得更轻更薄 可视角度更大 并且能够显著节省电能 OLED的特性是自己发光 不像TFT
  • Windows Docker 端口占用错误解决

    Windows Docker 端口占用错误解决 错误来源 Error invoking remote method docker start container Error HTTP code 500 server error Ports
  • 微信小程序-配置请求域名合法的问题以及豆瓣api问题

    一 配置请求域名合法的问题 在哪里找到配置request合法域名 1 进入在微信公众平台官网首页 mp weixin qq com 微信公众平台 小程序 首页 2 右下角设置 3 开发设置 里面有AppID和服务器域名 二 豆瓣api问题
  • Windows系统缺失ieframe.dll文件如何解决?

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个ieframe
  • BOOST升压电路参数计算

    BOOST电路的参数计算主要包括占空比D 电感值L 电容值C 假设1 电感的电流工作在连续的状态并忽略电感的阻值 假设2 电路工作在稳定的状态 1 计算占空比D 电路稳定时 电感满足 伏秒值相等的原则 占空比D 导通状态 截止状态 考虑二极
  • Django by Example·第二章

    Django by Example 第二章 Enhancing Your Blog with Advanced Features 为博客系统添加高级功能 笔记 这本书的结构确实很不错 如果能够坚持看下去 那么Django框架的各种用法也就掌
  • Linux的Web服务器配置

    准备工作 1 准备两台虚拟机 CentOS 一台作为服务器 一台作为客户机 选择仅主机模式进行连接 2 检查是否安装好了httpd rpm q httpd 3 如果没有安装好 安装步骤 cd run media root CentOS 7
  • 【大数据】基于 Flink CDC 高效构建入湖通道

    基于 Flink CDC 高效构建入湖通道 1 Flink CDC 核心技术解析 2 CDC 数据入湖入仓的挑战 2 1 CDC 数据入湖架构 2 2 CDC 数据 ETL 架构 3 基于 Flink CDC 的入湖入仓方案 3 1 Fli
  • bigquery使用教程_如何使用Python和Google BigQuery构建机器人以自动执行您的笨拙任务...

    bigquery使用教程 Do you have repetitive tasks Something that you do regularly every week or even every day Reporting might b
  • 简谈高防CDN

    高防CDN即内容分流网络流量防御 原理就是构建在网络之上的内容分发网络 依靠部署在各地的边缘服务器 通过中心平台的负载均衡 内容分发 调度等功能模块 使用户就近获取所需内容 而不用直接访问网站源服务器 其原理简单的说就是架设多个高防CDN节
  • 2023年03月 C/C++(一级)真题解析#中国电子学会#全国青少年软件编程等级考试

    C C 编程 1 8级 全部真题 点这里 第1题 字符长方形 给定一个字符 用它构造一个长为4个字符 宽为3个字符的长方形 可以参考样例输出 时间限制 1000 内存限制 65536 输入 输入只有一行 包含一个字符 输出 该字符构成的长方
  • 轻松记住大端小端的含义(附对大端和小端的解释)

    或许你曾经仔细了解过什么是大端小端 也动手编写了测试手头上的机器上是大端还是小端的程序 甚至还编写了大端小端转换程序 但过了一段时间之后 当你再看到大端和小端这两个字眼 你的脑中很快浮起了自己曾经做过的工作 却总是想不起究竟哪种是大端 哪种
  • Navicat连接不上sqlserver问题解决(2008R2)

    Navicat连接不上sqlserver问题解决 一 连接SQL Server时出错 未发现数据源名称并且未指定默认驱动程序 1 安装支持文件 因为没有安装连接支持文件 本身navicat其实是支持SQL server的连接的 只不过是因为
  • 目标分割、目标识别、目标检测和目标跟踪的区别

    前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 https www cbedai net linuxcore 1 目标分割 任务是把目标对应的部分分割出来 2 目标检测 检测到图片当中的目标的具体位置 3 目标识别 即是在所有的