读书笔记-视觉综述翻译_数据集介绍

2023-11-02

4 数据集介绍

4.1 计算机视觉

4.1.1 目标识别

诸如ImageNet [160],PASCAL VOC和Microsoft COCO之类的大规模公开可用数据集的出现,推动了新颖的计算机视觉算法(特别是深度学习技术)的发展,用于对象等识别任务分类,检测和语义分割。

Jia Deng, Wei Dong, Richard Socher, Li-jia Li, Kai Li, and Li Fei-fei. \Imagenet: A large-scale hierarchical image database". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2009.

由Ev-eringham等人提供的欧盟资助的PASCAL视觉目标类挑战VOC。 是目标分类,目标检测,目标分割和动作识别的基准。它由从Flickr收集的具有挑战性的照片组成,具有高质量注释,并且在姿势,照明和遮挡方面具有很大的差异。自引入以来,VOC挑战已成为基准识别算法最流行的测试平台之一。在2012年PASCAL计划结束之前,它一直定期适应社区的需求。这些年来,基准的规模不断扩大,在2012年达到了11,530张图像和27,450个带注释的对象。
Lin引入了Microsoft COCO数据集,用于对象检测,实例分割和上下文推理。他们提供复杂的日常场景的图像,这些场景包含自然环境中的常见对象。该数据集包括91个对象类,250万个带注释的实例以及总共32.8万张图像。 Microsoft COCO在每个类中的实例数量比PASCALVOC对象分段基准大得多。所有对象均已按实例分割进行注释。

4.1.2 目标跟踪

为了追踪多个物体,Leal-Taix́e等人引入了第一个集中式基准MOTChallenge。基准测试包含14个具有挑战性的视频序列,这些视频序列是在不受限制的环境中用静态和动态相机拍摄的。 MOTChallenge结合了多个现有的多对象跟踪基准,例如PETS [203]和KITTI [238]。基准测试提供的公共检测可以分析独立于检测器的跟踪系统的性能。

J. Ferryman and A. Shahrokni. \PETS2009: Dataset and challenge".In: Performance Evaluation of Tracking and Surveillance. 2009, pp. 1{6}.
Andreas Geiger, Philip Lenz, and Raquel Urtasun. \Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite". In: Proc.IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).2012.

4.1.3 立体视觉和3D重建

Middlebury立体视觉基准在双目视觉中很成功,激发了Seitz 创建了 Middlebury multi-view stereo (MVS),该数据集包含了校准的高分辨率多视图, 具有3D ground truth模型的图像,但缺点是在数据量大小和多样性上存在不足。
DTUMVS数据集提供了124种不同的场景,通过组合来自不同相机位置的结构化光扫描获得参考数据,但相对客观世界来说还是不够。
EPFL Multi-View dataset包括5个不同建筑物的图像和LiDAR扫描。
ETH3Ddataset 提供了高分辨率图像以及适用于各种室内和室外场景的同步低分辨率立体视频。他们使用高精度激光扫描仪,并使用强大的优化技术记录了所有图像。
Tanks and Temples使用了一个高精度的激光扫描仪和两个高分辨率相机(一个带有全局快门,另一个带有滚动快门)创建了一个新的室外和室内场景数据集。该数据集由14个场景组成,包括雕塑,大型车辆,房屋规模的建筑物以及大型室内和室外场景。
BigSFM dataset集合了目前相当受欢迎的。

4.1.4 光流法

Middlebury flow benchmark也提供了基准模型,由于尺寸较小,在实验室采集的数据在复杂结构,光照变化,阴影上与自然条件存在一定的差距,且只包含小运动,但应用范围较为局限。
Slow Flow方法提出了一种新颖的方法,可以通过在时空体积中密集采样,跟踪像素来从高速摄像机获得准确的参考数据。这种方法可以获取具有挑战性的日常场景中的光流地面真相,并具有逼真的效果(例如运动模糊)来增强数据,以比较不同条件下的方法。该方法提供了160种多样的现实世界动态场景序列,其分辨率(1280×1024像素)比以前的光学数据集要大得多。

Joel Janai, Fatma G¨uney, Jonas Wulff, Michael Black, and Andreas Geiger. Slow Flow: Exploiting High-Speed Cameras for Accurate and Diverse Optical Flow Reference Data". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2017.

获取光流地面真相的问题也可以通过创建合成数据集来解决。 MPI Sintel optical flow benchmark通过光流场真实性来渲染场景。Sintel由1,628帧组成,并提供了三个不同的数据集,这些数据集具有不同的复杂度,这些数据集是使用不同通道的渲染管线获得的。与Middlebury类似,它们提供了一个评估服务器进行比较。

D. J. Butler, J. Wulff, G. B. Stanley, and M. J. Black. \A naturalistic open source movie for optical flow evaluation". In: Proc. of the
European Conf. on Computer Vision (ECCV). 2012
光流数据集的有限大小会影响对深度高层容量模型的训练。

Mayer提出了另一个大规模的数据集,由具有光流场真相的三个合成立体声视频数据集组成:FlyingTh-ings3D,Monkaa和Driving。 FlyingThings3D提供了在随机创建的场景中沿着随机3D轨迹飞行的日常3D对象。受KITTI数据集的启发,已创建了一个驾驶数据集,该数据集使用了与FlyingThings3D相同池中的汽车模型,并使用了来自3D Warehouse的高度详细的树和建筑模型。 Monkaa是一部动画短片,类似于MPI Sintel基准测试中使用的Sintel。

N. Mayer, E. Ilg, P. Haeusser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox. \A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2016.

合成光流数据集为训练提供了许多示例,但是,在深层神经网络中,它们缺乏现实性,并且多样性受到限制。因此,通常将大规模的综合数据集用于预训练,然后,将预训练的模型面向小型,更加现实的数据进行微调。

4.2 自动驾驶数据集

已经提出了一些数据集以专门解决自动驾驶的问题。 Geigeret等人介绍的KITTI Vision Benchmark。该数据集是自动驾驶环境下立体声,光流,视觉测距/ SLAM和3D对象检测的第一个公开基准。该数据集是从配备有高分辨率彩色和灰度立体摄像头,Velodyne 3D激光扫描仪以及高精度GPS / IMU惯性导航系统的自动驾驶平台采集到的。
由于用作参考基准传感器中激光雷达旋转的局限性,立体视觉和光流基准被局限在具有摄像机运动的静态场景中。在2015版的KITTI光流和立体视觉Benchmark中,Menze和Geiger将3D CAD模型拟合到所有运动中的车辆,为动态场景提供了地面真实性 。对于KITTI对象检测挑战,已经开发了一种特殊的3D标签工具,以在7481个训练图像和7518个测试图像中用3D边界框注释所有3D对象。物体检测的基准被分为车辆,行人和骑车人的检测任务,从而使分析的重点放在自动驾驶汽车方面最重要的问题上。视觉里程表/ SLAM挑战赛由22个序列组成,总长度为39.2公里。使用GPS / IMU定位单元获得地面真实姿态,并向其提供RTK校正信号。

Moritz Menze and Andreas Geiger. \Object Scene Flow for Autonomous Vehicles". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2015.

KITTI数据集已将其自身确立为上述所有任务中的标准基准之一,特别是在自动驾驶应用中。然而,尽管KITTI为该工作中考虑的所有问题提供了带注释的数据和评估服务器,但规模仍然相当有限。因此,KITTI数据集通常最常用于评估和微调。

4.2.1 目标检测与语义分割

Cordts等人提供的Cityscapes Dataset。 该数据集像素级和实例级语义标签提供了一个基准和大规模数据集,该标签捕获了现实世界中城市场景的复杂性。为5,000张图像提供了高质量的像素级注释,同时使用众包获得的粗略标签为20,000张其他图像添加了注释。虽然Cityscapes提供了一个评估服务器来公平地比较方法,但数据集的大小和多样性依然有限。
对于物体检测,Braun等人提出了在12个欧洲国家的31个城市中记录的大规模数据集。与Cityscapes类似,评估服务器可以对方法进行公平比较。但是,他们只为行人,骑车人和城市交通中的其他骑手提供边界框,遮挡和方向注释。

Markus Braun, Sebastian Krebs, Fabian Flohr, and Dariu M. Gavrila.The EuroCity Persons Dataset: A Novel Benchmark for Object Detection". In: IEEE Trans. on Pattern Analysis and Machine Intelligence (PAMI) (2019).

众包公司Mapillary已收集了2.82亿张街道图像,覆盖了全球450万公里。根据这些数据,创建了Mapillary Vistas Dataset并与社区共享,提供了25,000张高分辨率图像,其中包含66个对象类别的密集注释和37个类的实例特定标签。
BerkeleyDeepDrive数据集用于对象检测,实例分割,道路和车道检测,提供了来自纽约,伯克利,旧金山和湾区的100K部分注释的驾驶视频。该数据集在场景和天气条件上比“Cityscapes”更为多样化,但在用于记录的城市数量方面仍然受到限制。在这种情况下,Mapillary Vistas数据集是用于语义分割和对象识别的最多样化的与自动驾驶相关的数据集,然而,像Mapillary Vistas数据集,ImageNet,PASCAL VOC和Microsoft Coco这样的数据集不太适合训练和测试方法的时间一致性是因为它们仅提供单个图像,而KITTI,Cityscapes和Berkeley DeepDrive则提供图像序列。
最近,致力于自动驾驶解决方案的主要公司也开始公开提供其注释数据。百度的自动驾驶项目阿波罗(Apollo)创建了数据开放平台,该平台由用于自动驾驶的模拟,注释和演示数据组成。 ApolloScape数据集提供带注释的街景图像(144K图像)和实例分割(90K图像),车道检测(160K图像),汽车检测(70K)以及交通参与者的跟踪(100K图像)。该数据集可以评估在不同天气条件下以及在不同白天的方法的性能。
Nutonomy公司发布了NuScenes数据集,该数据集提供来自整个传感器套件的数据,并带有用于语义分割和对象检测的注释。该数据集包含超过一百万个摄像机图像。但是,ApolloScape和NuScenes均仅分别在一个或两个城市中记录,因此多样性仍然受到限制。
到目前为止,用于3D语义分割的数据集在大小和类数方面受到限制。最近,Behleyet等人基于KITTI视觉测程基准提出了一个用于3D语义分割的大型数据集。与先前的注解相反,此次可以为LiDAR完整的360度视野提供密集的逐​​点注释。数据集包含25种不同类别的20,000多次扫描。

Jens Behley, Martin Garbade, Andres Milioto, Jan Quenzel, Sven Behnke, Cyrill Stachniss, and Juergen Gall. \A Dataset for Semantic Segmentation of Point Cloud Sequences". In: arXiv.org (2019).
Andreas Geiger, Philip Lenz, Christoph Stiller, and Raquel Urtasun. Vision meets Robotics: The KITTI Dataset". In: International Journal of Robotics Research (IJRR) 32.11 (2013), pp. 1231{1237.

4.2.2 目标跟踪

Dollar等人提出的Caltech行人检测基准提供25万帧序列的序列,这些序列是在城市环境中通过常规流量行驶时记录的。注释了350,000个边界框和2,300个唯一的行人,包括边界框和详细的遮挡标签之间的时间对应关系。

  • 上述的目标检测为时间序列的检测,均包含跟踪信息。学习一下是不是这样
  • 还有一些公司举办的数据处理比赛,能否加进去进行更新
  • 对数据集有更新的,更详细的介绍,比如数据集中有哪些标签信息,可以直接看出可以用多少。

4.2.3 交通标志检测

4.2.4 道路边沿检测

KITTI基准由Fritsch等人扩展进行道路/车道检测任务。总共已经选择了600种不同的训练和测试图像,用于手动标注道路和车道区域。 Mattyus等使用航拍图像来增强KITTI数据集的细粒度细分类别,例如停车位和人行道以及行车道的数量和位置。

Jannik Fritsch, Tobias Kuehnl, and Andreas Geiger. “A New Perfor-mance Measure and Evaluation Benchmark for Road Detection Algo-rithms”. In:Proc. IEEE Conf. on Intelligent Transportation Systems(ITSC). 2013
航拍图像:Gellert Mattyus, Shenlong Wang, Sanja Fidler, and Raquel Urtasun.“HD Maps: Fine-Grained Road Segmentation by Parsing Ground andAerial Images”. In:Proc. IEEE Conf. on Computer Vision and PatternRecognition (CVPR). 2016

大型车道检测数据集,Caltech车道检测数据集,该数据集在不同的时间记录在加利福尼亚州的帕萨迪纳市,由1200多个帧组成。 [1]提出了第一个大规模车道检测数据集,并提供了超过20,000张图像。与以前的数据集相比,他们还考虑了不同的天气条件。迄今为止,[2]具有100,000张图像的Berkeley DeepDrive数据集26 是最大,最多样化的车道/道路检测数据集.

[1] Seokju Lee, Jun-Sik Kim, Jae Shin Yoon, Seunghak Shin, OleksandrBailo, Namil Kim, Tae-Hee Lee, Hyun Seok Hong, Seung-Hoon Han,and In So Kweon. “VPGNet: Vanishing Point Guided Network for Laneand Road Marking Detection and Recognition”. In:Proc. of the IEEEInternational Conf. on Computer Vision (ICCV). 2017, pp. 1965–1973.
[2] Fisher Yu, Wenqi Xian, Yingying Chen, Fangchen Liu, Mike Liao,Vashisht Madhavan, and Trevor Darrell. “BDD100K: A Diverse Driv-ing Video Database with Scalable Annotation Tooling”. In:arXiv.org(2018).

4.2.5 光流和立体视觉的检测

4.2.6 长时间序列检测

诸如KITTI或Cityscapes之类的一些数据集专注于自动驾驶算法能力的发展,但并未解决长期自主性的挑战,例如环境随时间的变化。为了解决这个问题,Carlevaris-Bianco等人提出了一个新的长期视野和LiDAR数据集,包括27节。但是,该数据集不是从车辆记录的,而是在密歇根大学校园内使用Segway机器人记录的。

Nicholas Carlevaris-Bianco, Arash K. Ushani, and Ryan M. Eustice. University of Michigan North Campus long-term vision and lidar dataset". In: International Journal of Robotics Research (IJRR) 35.9 (2016), pp. 1023{1035.

Maddern等人提出了一种用于长期自动驾驶的新颖数据集。他们收集了图像,LiDAR和GPS数据,同时全年中转1000公里。这使他们能够捕获由于照明,天气和季节变化,动态物体和构造而导致的场景外观的巨大变化。这样的长期数据集可以深入研究阻碍实现自主车辆实现的问题,例如一年中不同时间的定位。

Will Maddern, Geoff Pascoe, Chris Linegar, and Paul Newman. 1 Year, 1000km: The Oxford RobotCar Dataset". In: International Journal of Robotics Research (IJRR) (2016)

最近,Sattler等人 [571]提出了三个数据集,用于在不同天气条件,季节以及白天和黑夜的情况下记录的视觉本地化(亚琛白天,机器人季节和CMU季节)。亚琛Day-Night数据集包含使用消费类相机记录的图像,而RobotCar Seasons和CMU Seasons是使用车载相机获取的。

Torsten Sattler, Will Maddern, Carl Toft, Akihiko Torii, Lars Hammarstrand, Erik Stenborg, Daniel Safari, Masatoshi Okutomi, Marc Pollefeys, Josef Sivic, Fredrik Kahl, and Tom´as Pajdla. \Benchmarking 6DOF Outdoor Visual Localization in Changing Conditions". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2018, pp. 8601{8610

最近,Scape Technologies展示了使用低端消费类球形摄像机在伦敦帝国理工学院附近捕获的长期数据集。该数据集记录了一年的时间,并结合了不同的天气条件,白天和季节。

Vassileios Balntas. SILDa: A Multi-Task Dataset for Evaluating Visual Localization. https://medium.com/scape-technologies/silda-amulti - task - dataset - for - evaluating - visual - localization - 7fc6c2c56c74. Online: accessed 17-June-2019. 2019.

4.3 利用游戏环境合成数据

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

读书笔记-视觉综述翻译_数据集介绍 的相关文章

  • Wireshark使用详解

    文章目录 wireshark简介 抓包原理 抓包 抓包窗口介绍 封包详细信息 Packet Details Pane 过滤信息介绍 显示过滤 抓包过滤 高级功能 数据流追踪 wireshark简介 wireshark是捕获机器上的某一块网卡
  • smart doc:自动生成接口文档拓展

    smart doc 作为一个接口文档生成工具 可以根据代码的java doc注释 生成接口文档 同时已经对接到Torna接口平台 鉴于大家用的接口平台五花八门 Torna的功能可能不符合大家的需求 研究下是否可以基于smart doc 拓展
  • 百度UE富文本编辑器设置自适应大小和滚动条等

    其实真特么简单 一开始还试着自己设置 弄来弄去都不合适 最后发现你想要的人家其实都有 你只需要设置就好了 后知后觉啊 你想要的效果可能在文件夹下config js里边都有 只需要在界面中实例化页面的那行代码里边设置就好了 代码如下 var
  • ubuntu下redis安装配置

    为什么80 的码农都做不了架构师 gt gt gt ubuntu下redis安装配置 一 redis介绍 redis是一个key value存储系统 与memcached类似 但是解决了断电后数据完全丢失的现象 支持数据类型有string

随机推荐

  • 数学-麦克劳林公式

    麦克劳林公式是泰勒公式 在 记 的一种特殊形式 在不需要余项的精确表达式时 n阶泰勒公式也可写成 由此得近似公式 误差估计式变为 在麦克劳林公式中 误差 R x 是当x 0时比x 高阶的无穷小 若函数f x 在开区间 a b 有直到n 1阶
  • DiffusionDet: Diffusion Model for Object Detection

    DiffusionDet Diffusion Model for Object Detection 论文概述 不同之处 整体流程 论文题目 DiffusionDet Diffusion Model for Object Detection
  • C#连接sql的两种方法

    数据库连接 方法1 using System using System Collections Generic using System Linq using System Text using System Threading Tasks
  • H - Nine Packs Kattis - ninepacks

    题目链接 题意就是在a数组中找出x个数 b数组中找出y个数 且x个数之和等于y个数之和 本想着用暴力的写法 但是出来之后不对 因为此题并不是连续的 还可以跳着取数 下面是WA的代码 include
  • 基于Web的网络在线考试系统

    基于Web的网络在线考试系统 一 系统简介 本系统是一种基于Web的网络在线考试系统 各个模块主要从JSP Servlet JDBC JavaBean四部分技术角度出发搭建框架 其中Servlet是运行在服务器端的程序 被Web服务器 To
  • YARN 状态机的原理和使用

    有了异步处理 为什么还需要状态机 可以保存对象当前的状态 当接收到一个事件后 可以根据不同的状态 可以方便的决定怎么处理 如接收到用户发送的KILL事件时 当Job的状态为正在初始化时 只要把启动的进程kill就可以 当Job的状态为正在运
  • 快手app sig3 42位、48位参数分析

    免责任声明 任何可操作性的内容与本文无关 文章内容仅供参考学习 如有侵权 损害贵公司利益 请联系作者 会立刻马上进行删除 在抓包的时候 会发现有几个非常重要的参数 sig 和 sig3 然后sig参数的计算逻辑大概就是对请求url 后面的参
  • 1:1病例对照匹配的Python实现步骤详解

    这周接到一个活 因为某个课题研究需要 须把脑卒中患者的名单和一份健康人 对照 名单按照 性别相同 乡镇地址相同 年龄相差3岁以内 作为匹配条件进行1 1的匹配 现将思考及实现的过程逐一记录并在此分享 希望能给大家有所借鉴与帮助 拿到这份数据
  • VM-基本功能

    VMware专题 介绍 VM 基本功能 一 VMware Tools基本特性 二 快照功能 三 Template技术介绍 1 用Template技术批量部署虚拟机 先创建自定义规范 2 部署虚拟机 四 创建虚拟机参数说明 五 虚拟机内存技术
  • [记录]GAN学习之路[持续更新]

    目录 一 原始GAN 二 WGAN GP 三 pix2pix 四 CycleGAN 一 原始GAN 通俗解释 GAN由生成器 Generator 和判别器 Discriminator 组成 生成器负责生成假的图片来骗过判别器 而判别器需要不
  • mesh 模拟加入噪音数据,并根据每个三角形集群的数量进行去噪处理(附open3d python 代码)

    本篇文章对三角网格模型进行分割和去噪处理 其中包括以下主要步骤 1 使用Open3D库中的 o3d io read triangle mesh 函数读取PLY格式的三角网格模型 2 生成小立方体作为噪声 并将其添加到原始的三角网格模型中 3
  • response.sendRedirect(url)中的url问题

    servlet实现跳转页面时 对于重定向response sendRedirect url 对于参数url 一直引用的是本地上的html而且使用的是绝对路径 但是这个不能实现重定向 后来了解到这个url应该是指向在任何服务器上的项目的url
  • 【Tensorflow2.0】7、全流程model.fit模型训练方法

    文章目录 第一种方法直接用keras的fit方法 以fashion mnist为例 配置超参数 选择指定显卡及自动调用显存 准备数据 使用tf data来准备训练集和测试集 准备模型定义 开始定义模型 用functional方法 打印模型结
  • SoapUI 5.2.1测试接口

    俗话说 好记性不如烂笔头 今天我们就来介绍下SopaUI如何测试接口 首先我们新建一个WebService public class WebService System Web Services WebService WebMethod p
  • 双指针实现链表反转

    题目 定义一个函数 输入一个链表的头节点 反转该链表并输出反转后链表的头节点 示例 输入 1 gt 2 gt 3 gt 4 gt 5 gt NULL 输出 5 gt 4 gt 3 gt 2 gt 1 gt NULL 代码实现 Definit
  • 华为OD机试 -查找两个字符串a,b中的最长公共子串(C++ & Java & JS & Python)

    描述 查找两个字符串a b中的最长公共子串 若有多个 输出在较短串中最先出现的那个 注 子串的定义 将一个字符串删去前缀和后缀 也可以不删 形成的字符串 请和 子序列 的概念分开 数据范围 字符串长度1 300 1 length 300 进
  • hadoop 2.6遇到的DataNode无法启动问题

    一 问题描述 当我们多次格式化文件系统 hadoop namenode format 时 会出现DataNode无法启动 多次启动中发现有NameNode节点 并没有DataNode节点 如图所示 二 查看问题 回头看启动过程 注意如下 l
  • php在远程获取图片生成文件为空文件

    之前遇到一个很坑爹的问题 就是去获取远程图片的文件流生成本地文件时 发现生成的是空白文件 说明只是创建了文件 没把文件流写进去 之前一直以为是网站设置了权限什么的东西 最后百度了下发现了原来是php ini的openssl没开启 解决方法就
  • 由于电脑出现msvcr110.dll提示错误的解决方法

    最近 我在尝试运行一款新的软件时 突然遇到了一个错误提示 提示说缺少msvcr110 dll文件 导致软件无法启动 在使用电脑过程中 我们常常会遇到一些系统文件丢失的问题 其中 msvcr110 dll是Windows操作系统中的一个重要的
  • 读书笔记-视觉综述翻译_数据集介绍

    4 数据集介绍 4 1 计算机视觉 4 1 1 目标识别 诸如ImageNet 160 PASCAL VOC和Microsoft COCO之类的大规模公开可用数据集的出现 推动了新颖的计算机视觉算法 特别是深度学习技术 的发展 用于对象等识