汇总

2023-11-02

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

汇总图像语义分割那些质量最好的数据集与常用benchmark数据集

前言

图像语义分割是计算机视觉最经典的任务之一,早期的图像分割主要有以下几种实现方法。

基于像素分布的分割算法:KMeans、Fuzzy C Means、 GMM、MeanShift

基于图像拓扑结构的分割算法:分水岭填充、轮廓边缘分析

基于能量最大化的分割方法:图割

b1306e988f483b1ac6493c82dfc4a864.png

但是随着深度学习的兴趣,最近几年传统的图像分割方法已经很少被人提起,现在开始学习图像分割的都是基于深度学习的各种模型实现,这其中模型的训练需要大量的数据,所以想要了解图像分割,首先需要了解图像分割那些质量最好的各种数据集。这些数据集有的作为benchmark 可以很公平的比较各种语义分割模型的性能与精度,评价一个模型的好坏。


数据集分类与汇总

这些数据集的标注多数都是基于像素级别的标签,也有的是基于点级别的标签。语义分割针对不同的任务,数据集分为如下三类:

  • 2D RGB图像数据集

  • 2.5D或者RGB-D的深度图像数据集

  • 纯立体或者3D图像数据集

这些数据集总的列表如下:

23f851293620a129b79d3e7698c0ab5e.png


2D/RGB数据集

图像语义分割多数都是针对二维的图像进行过,所以2D 数据集是数据集类别最多的,这里2D包括RGB彩色与灰度图像。

PASCAL Visual Object Classes(VOC)数据集

PASCAL VOC数据集支持五种不同的视觉任务训练包括图像分类、对象检测、图像分割、行为分类、人体Layout。分割是预测图像种每个像素属于哪个类别的任务,VOC数据集总计有21个类别(包括背景)。分割数据集被分为训练与测试两个子集,分别有1464与1449张图像。

PASCAL Context数据集

它是PASCAL VOC 2010数据集的扩展,包含10103张基于像素级别标注的训练图像,它包含总数540个类别,其中59个类别是常见类别,被大量标注,整个类别图像的数据符合幂次法则分布。

SBD (Semantic Boundaries Dataset)数据集

它的数据来自那些在PASCAL VOC中没有被语义分割标注的图像数据,总计有11355张图像来自PASCAL VOC 2011,实现了两个层级的标注分布是种类/类别与实例对象分割,其中8498张为训练集,2857张为测试集。

COCO(Microsoft Common Objects in Context)数据集

是微软发布的图像分类、对象检测、实例分割、图像语义的大规模数据集,其中图像分割部分有80分类,82783张训练图像、40504张验证图像,测试集好感80000张图像,而且测试集本身被分为四种不同测试数据,分别应对开发测试、标准测试、评估挑战、过拟合测试。

Cityscapes

一个大规模的城市道路与交通语义分割数据集,8大类别30种类的像素级别标注,数据集包含5000张精准标注的图像,20000张标注图像。数据收集来自50多个城市,前后花了几个月的时间,对这个时间线与天气下的场景都进行图像采集,最初原始的数据是视频方式,通过人工选择视频帧,得到最终的数据。整个数据集支持三个级别的分割性能评估

  • 像素级别分割

  • 实例级别分割

  • 全景级别分割

其中数据采集的城市地图如下:

65f8ac5f668516f3278e16a2c5d79ef5.png

精准标注的图像

bcc2ff32ee753a5f5922827afeb3403d.png

粗糙标注的图像

1613d3813e7f1cff1b7c80fb5d940d9d.png

所有数据组与类别列表如下

cc845b067c4163a7cdf0f96d3c8806ef.png

CamVid

是来自剑桥的道路与驾驶场景图像分割数据集,图像数据来自视频帧提取,原始分辨率大小为960x720,包括32个类别。分为367张训练图像,100张验证图像,233张测试图像。

KITTI

自动驾驶最常用的一个数据集,数据采集来自高分辨RGB、灰度立体相机,3D激光扫描等。但是数据集本身不包括标注的ground truth分割(一般人用不起),网上有很多研究机构部分标注的数据集可以下载!

Youtube-Objects

数据收集来自Youtube视频网站,分类是PASCAL VOC其中10个子分类包括(aeroplane, bird, boat, car, cat, cow, dog, horse, motorbike, and train) ,数据集没有被标注,但是有个好人手动标注了一些,他对视频序列每十帧标注一帧,总计对480x360视频数据的10167帧数据进行了标注。

Adobe’s Portrait Segmentation

8f9664a30d0b95240f364594c693ce12.png

它是一个人体肖像分割数据集,图像分辨率为800x600数据来自Flickr,多数数据是来自手机前置相机拍照的生成。数据集包含1500张训练图像,300张测试图像,全部被标注了,人与背景的分类,图像标注的时候采用了半自动的标注方式。先通过程序进行人脸检测,然后人工手动PS生成。

Materials in Context (MINC)

全场景的物体识别数据集,包含23个类别,7061张标记训练图像,5000张作为测试,2500张作为验证。这些图像主要来自OpenSur face数据集。整个数据集的图像分辨率分布从800x500到500x800之间。

Densely-Annotated VIdeo Segmentation (DAVIS)

该数据集主要是视频中对象分割数据,目的是适应实时动态视频语义分割挑战。主要有50段视频序列构成,其中4219帧是训练数据,2013帧是验证数据,所有的视频数据都下采样至480P大小,像素级别的对每帧数据标注四个类别,分别是人、动物、车辆、对象。视频的另外一个特征是每帧至少有一个前景目标对象在视频帧中出现。

Stanford background

该数据集是室外场景数据集,主要数据来自LabelMe、MSRC、PASCAL VOC、Geometric Context公开数据集。数据集包含715张至少有一个前景对象图像,进行了像素级别的图像标注。主要用于评估分割模型的语义场景理解。

SiftFlow

包含2688完全标注的图像,是LabelMe数据集的子集。绝大数图像是室外八种场景,33个类别,256x256大小。

ADE20K

e500931ba0dd7c4f12f1121ce50fea95.png

该数据集是全尺寸的图像语义分割标注数据集,其中训练图像201210张,验证图像2000张,该数据集格式如下:

*.jpg表示RGB图像
*_seg.png表示对象分割mask图像,既包括实例mask也包括类别mask信息,其中通道R与G被编码成对象mask,通道B被编码成实例mask。
*_seg_parts_N.png 表示部分分割mask
*.txt表述每个分割图像的对象与parts的冗余信息文本文件

上述的这些图像语义分割数据集都是2D图像语义分割模型训练、评估、测试经常是使用的一些基准数据集。大家觉得有用请不要忘记分享给更多需要的人 ,赠人玫瑰、手有余香

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

7b1cab7dad12791d69b4815dbeadafc8.png

383109c67a90373072f765992dd4da1b.png

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

汇总 的相关文章

随机推荐

  • 赶快进来!!!手把手教你贪吃蛇

    一 大体框架 这里和前面写过的游戏一样 大体框架都是这样 有个简要的目录 我们主要是对play 函数进行封装 由于我们引用了自己的头文件 game h 所以我们可以把所要引用的库函数的预处理指令都放在 game h 的头文件中 如果你细心的
  • Vue3中vuex的基本使用

    一 基本结构 src store index js中 代码如下 vue3中创建store实例对象的方法createStore 按需引入 import createStore from vuex export default createSt
  • pywt 安装学习

    安装 conda install c conda forge pywavelets github地址 里面有demo https github com PyWavelets pywt 这个是学习笔记 https blog csdn net
  • UPC--扑克牌

    题目描述 从一副含有n n 10000 张的扑克牌 显然每张扑克牌都不相同 中 分给m m 100 个人 第i个人得到ai 0 ai 100 张牌 求一共有几种分法 这个数可能非常大 请输出此数模10007后的结果 输入 第一行两个整数 为
  • HDU1874 单源最短路经 dijkstra或者floyd

    include
  • 3、域渗透详解

    在渗透测试过程中 我们经常会遇到以下场景 某处于域中的服务器通过路由做端口映射 对外提供web服务 我们通过web脚本漏洞获得了该主机的system权限 如果甲方有进一步的内网渗透测试需求 以证明企业所面临的巨大风险 这个时候就需要做内网的
  • 模拟IC应届生都这么牛,我想到了崩溃

    再过两个月就到学弟学妹找工作的高峰期了 做为一个2007年的毕业生 能为学弟学妹做的 就是把我去年到今年找工作的经历和经验与他们分享 希望大家都能找到合适的工作 因为本人是模拟ic设计方向的 所以只能介绍些模拟ic设计方面的找工作经验 其实
  • SVM如何避免过拟合

    过拟合 Overfitting 表现为在训练数据上模型的预测很准 在未知数据上预测很差 过拟合主要是因为训练数据中的异常点 这些点严重偏离正常位置 我们知道 决定SVM最优分类超平面的恰恰是那些占少数的支持向量 如果支持向量中碰巧存在异常点
  • pyside6中QcommandLinkButton 控件qss有哪些用法和案例

    QCommandLinkButton 是 Qt GUI 框架中的一个功能按钮类 而 Qt Style Sheets QSS 提供了一种强大的方式来自定义 Qt 控件的外观 以下是 QCommandLinkButton 常用的 QSS 用法
  • 比亚迪半导体IPO再生波折:又被中止审核 红杉小米是股东

    雷递网 雷建平 4月1日报道 2022年1月底刚刚过会的比亚迪半导体上市再生波折 于2022年3月31日的审核再度被中止 这不是比亚迪半导体IPO审核第一次被深交所中止 2021年8月8日 因律师北京市天元律师事务所被中国证监会立案调查 比
  • [从零开始学DeepFaceLab-16]: 使用-命令行八大操作步骤-第6步:模型的选择与训练 - 进阶 - SAEHD模型训练参数详解与优化

    目录 前言 第1章 SAEHD模型训练参数详解 1 1 SAEHD参数汇总 默认 1 2 参数详解
  • 手把手教你:解决python UnicodeDecodeError: 'gb2312' codec can't decode问题

    问题 UnicodeDecodeError gb2312 codec can t decode bytes in position 2 3 illegal multibyte sequence 原因 python在做将普通字符串转换为uni
  • 【Github Action】使用ssh-deploy上传文件的小坑

    可以使用这个Github Action上传文件到服务器 https github com easingthemes ssh deploy README中描述了使用方法 name Deploy to Staging server uses e
  • FastAPI从入门到实战(13)——常见配置项

    这一部分的内容主要是一些常见的配置 包括路由 静态文件等 还包括一些路径和文档的修饰器 包括简介 标签参数等内容 配置静态文件 from fastapi import FastAPI from fastapi staticfiles imp
  • jvisualvm ssl远程连接JVM

    jvisualvm 远程ssl连接 文章目录 一 没认证的 JMX连接 不安全 二 SSL证书认证的JMX连接 安全 1 进入生成证书的目录 并执行脚本 2 一键生成密钥脚本 3 服务器端运行jar包时 开启ssl连接 4 客户端远程SSL
  • AR小项目的制作过程(一)

    前段时间一直想着初一个教程 怎么用unity去做一个AR小demo 在做之前先科普一下什么是AR AR技术也被称作是 增强现实 主要是一种将虚拟信息与真实世界巧妙融合的技术 现在光返的运用在很多方面 例如多媒体 3D建模 实时跟踪及注册 智
  • 如何在CentOS 8上使用firewalld设置防火墙

    介绍 Introduction firewalld is firewall management software available for many Linux distributions which acts as a fronten
  • JVM内存结构与内存模型

    JVM内存结构 前言 java开发人员不像C C 开发人员那样需要自己来管理内存 每一个对象从出生到死亡都需要由开发人员来管理 对于初级开发人员来说很容易出现内存问题 而java开发人员就很 幸运 了 内存的管理几乎全部交给JVM虚拟机来管
  • php 操作系统之间的一些黑魔法(绕过文件上传a.php/.)

    http wonderkun cc index html p 626 0x00 前言 做了一个CTF题目 遇到了一些有趣的东西 所以写了这篇文章记录了一下 但是我却不明白造成这个问题的原因在哪里 所以不知道给文章起什么标题 就姑且叫这个非常
  • 汇总

    点击上方 小白学视觉 选择加 星标 或 置顶 重磅干货 第一时间送达 汇总图像语义分割那些质量最好的数据集与常用benchmark数据集 前言 图像语义分割是计算机视觉最经典的任务之一 早期的图像分割主要有以下几种实现方法 基于像素分布的分