读书笔记-视觉综述翻译_数据集介绍

2023-11-02

4 数据集介绍

4.1 计算机视觉

4.1.1 目标识别

诸如ImageNet [160]，PASCAL VOC和Microsoft COCO之类的大规模公开可用数据集的出现，推动了新颖的计算机视觉算法（特别是深度学习技术）的发展，用于对象等识别任务分类，检测和语义分割。

Jia Deng, Wei Dong, Richard Socher, Li-jia Li, Kai Li, and Li Fei-fei. \Imagenet: A large-scale hierarchical image database". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2009.

由Ev-eringham等人提供的欧盟资助的PASCAL视觉目标类挑战VOC。是目标分类，目标检测，目标分割和动作识别的基准。它由从Flickr收集的具有挑战性的照片组成，具有高质量注释，并且在姿势，照明和遮挡方面具有很大的差异。自引入以来，VOC挑战已成为基准识别算法最流行的测试平台之一。在2012年PASCAL计划结束之前，它一直定期适应社区的需求。这些年来，基准的规模不断扩大，在2012年达到了11,530张图像和27,450个带注释的对象。
Lin引入了Microsoft COCO数据集，用于对象检测，实例分割和上下文推理。他们提供复杂的日常场景的图像，这些场景包含自然环境中的常见对象。该数据集包括91个对象类，250万个带注释的实例以及总共32.8万张图像。 Microsoft COCO在每个类中的实例数量比PASCALVOC对象分段基准大得多。所有对象均已按实例分割进行注释。

4.1.2 目标跟踪

为了追踪多个物体，Leal-Taix́e等人引入了第一个集中式基准MOTChallenge。基准测试包含14个具有挑战性的视频序列，这些视频序列是在不受限制的环境中用静态和动态相机拍摄的。 MOTChallenge结合了多个现有的多对象跟踪基准，例如PETS [203]和KITTI [238]。基准测试提供的公共检测可以分析独立于检测器的跟踪系统的性能。

J. Ferryman and A. Shahrokni. \PETS2009: Dataset and challenge".In: Performance Evaluation of Tracking and Surveillance. 2009, pp. 1{6}.
Andreas Geiger, Philip Lenz, and Raquel Urtasun. \Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite". In: Proc.IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).2012.

4.1.3 立体视觉和3D重建

Middlebury立体视觉基准在双目视觉中很成功，激发了Seitz 创建了 Middlebury multi-view stereo (MVS)，该数据集包含了校准的高分辨率多视图, 具有3D ground truth模型的图像，但缺点是在数据量大小和多样性上存在不足。
DTUMVS数据集提供了124种不同的场景，通过组合来自不同相机位置的结构化光扫描获得参考数据，但相对客观世界来说还是不够。
EPFL Multi-View dataset包括5个不同建筑物的图像和LiDAR扫描。
ETH3Ddataset 提供了高分辨率图像以及适用于各种室内和室外场景的同步低分辨率立体视频。他们使用高精度激光扫描仪，并使用强大的优化技术记录了所有图像。
Tanks and Temples使用了一个高精度的激光扫描仪和两个高分辨率相机（一个带有全局快门，另一个带有滚动快门）创建了一个新的室外和室内场景数据集。该数据集由14个场景组成，包括雕塑，大型车辆，房屋规模的建筑物以及大型室内和室外场景。
BigSFM dataset集合了目前相当受欢迎的。

4.1.4 光流法

Middlebury flow benchmark也提供了基准模型，由于尺寸较小，在实验室采集的数据在复杂结构，光照变化，阴影上与自然条件存在一定的差距，且只包含小运动，但应用范围较为局限。
Slow Flow方法提出了一种新颖的方法，可以通过在时空体积中密集采样，跟踪像素来从高速摄像机获得准确的参考数据。这种方法可以获取具有挑战性的日常场景中的光流地面真相，并具有逼真的效果（例如运动模糊）来增强数据，以比较不同条件下的方法。该方法提供了160种多样的现实世界动态场景序列，其分辨率（1280×1024像素）比以前的光学数据集要大得多。

Joel Janai, Fatma G¨uney, Jonas Wulff, Michael Black, and Andreas Geiger. Slow Flow: Exploiting High-Speed Cameras for Accurate and Diverse Optical Flow Reference Data". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2017.

获取光流地面真相的问题也可以通过创建合成数据集来解决。 MPI Sintel optical flow benchmark通过光流场真实性来渲染场景。Sintel由1,628帧组成，并提供了三个不同的数据集，这些数据集具有不同的复杂度，这些数据集是使用不同通道的渲染管线获得的。与Middlebury类似，它们提供了一个评估服务器进行比较。

D. J. Butler, J. Wulff, G. B. Stanley, and M. J. Black. \A naturalistic open source movie for optical flow evaluation". In: Proc. of the
European Conf. on Computer Vision (ECCV). 2012
光流数据集的有限大小会影响对深度高层容量模型的训练。

Mayer提出了另一个大规模的数据集，由具有光流场真相的三个合成立体声视频数据集组成：FlyingTh-ings3D，Monkaa和Driving。 FlyingThings3D提供了在随机创建的场景中沿着随机3D轨迹飞行的日常3D对象。受KITTI数据集的启发，已创建了一个驾驶数据集，该数据集使用了与FlyingThings3D相同池中的汽车模型，并使用了来自3D Warehouse的高度详细的树和建筑模型。 Monkaa是一部动画短片，类似于MPI Sintel基准测试中使用的Sintel。

N. Mayer, E. Ilg, P. Haeusser, P. Fischer, D. Cremers, A. Dosovitskiy, and T. Brox. \A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2016.

合成光流数据集为训练提供了许多示例，但是，在深层神经网络中，它们缺乏现实性，并且多样性受到限制。因此，通常将大规模的综合数据集用于预训练，然后，将预训练的模型面向小型，更加现实的数据进行微调。

4.2 自动驾驶数据集

已经提出了一些数据集以专门解决自动驾驶的问题。 Geigeret等人介绍的KITTI Vision Benchmark。该数据集是自动驾驶环境下立体声，光流，视觉测距/ SLAM和3D对象检测的第一个公开基准。该数据集是从配备有高分辨率彩色和灰度立体摄像头，Velodyne 3D激光扫描仪以及高精度GPS / IMU惯性导航系统的自动驾驶平台采集到的。
由于用作参考基准传感器中激光雷达旋转的局限性，立体视觉和光流基准被局限在具有摄像机运动的静态场景中。在2015版的KITTI光流和立体视觉Benchmark中，Menze和Geiger将3D CAD模型拟合到所有运动中的车辆，为动态场景提供了地面真实性。对于KITTI对象检测挑战，已经开发了一种特殊的3D标签工具，以在7481个训练图像和7518个测试图像中用3D边界框注释所有3D对象。物体检测的基准被分为车辆，行人和骑车人的检测任务，从而使分析的重点放在自动驾驶汽车方面最重要的问题上。视觉里程表/ SLAM挑战赛由22个序列组成，总长度为39.2公里。使用GPS / IMU定位单元获得地面真实姿态，并向其提供RTK校正信号。

Moritz Menze and Andreas Geiger. \Object Scene Flow for Autonomous Vehicles". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2015.

KITTI数据集已将其自身确立为上述所有任务中的标准基准之一，特别是在自动驾驶应用中。然而，尽管KITTI为该工作中考虑的所有问题提供了带注释的数据和评估服务器，但规模仍然相当有限。因此，KITTI数据集通常最常用于评估和微调。

4.2.1 目标检测与语义分割

Cordts等人提供的Cityscapes Dataset。该数据集像素级和实例级语义标签提供了一个基准和大规模数据集，该标签捕获了现实世界中城市场景的复杂性。为5,000张图像提供了高质量的像素级注释，同时使用众包获得的粗略标签为20,000张其他图像添加了注释。虽然Cityscapes提供了一个评估服务器来公平地比较方法，但数据集的大小和多样性依然有限。
对于物体检测，Braun等人提出了在12个欧洲国家的31个城市中记录的大规模数据集。与Cityscapes类似，评估服务器可以对方法进行公平比较。但是，他们只为行人，骑车人和城市交通中的其他骑手提供边界框，遮挡和方向注释。

Markus Braun, Sebastian Krebs, Fabian Flohr, and Dariu M. Gavrila.The EuroCity Persons Dataset: A Novel Benchmark for Object Detection". In: IEEE Trans. on Pattern Analysis and Machine Intelligence (PAMI) (2019).

众包公司Mapillary已收集了2.82亿张街道图像，覆盖了全球450万公里。根据这些数据，创建了Mapillary Vistas Dataset并与社区共享，提供了25,000张高分辨率图像，其中包含66个对象类别的密集注释和37个类的实例特定标签。
BerkeleyDeepDrive数据集用于对象检测，实例分割，道路和车道检测，提供了来自纽约，伯克利，旧金山和湾区的100K部分注释的驾驶视频。该数据集在场景和天气条件上比“Cityscapes”更为多样化，但在用于记录的城市数量方面仍然受到限制。在这种情况下，Mapillary Vistas数据集是用于语义分割和对象识别的最多样化的与自动驾驶相关的数据集，然而，像Mapillary Vistas数据集，ImageNet，PASCAL VOC和Microsoft Coco这样的数据集不太适合训练和测试方法的时间一致性是因为它们仅提供单个图像，而KITTI，Cityscapes和Berkeley DeepDrive则提供图像序列。
最近，致力于自动驾驶解决方案的主要公司也开始公开提供其注释数据。百度的自动驾驶项目阿波罗（Apollo）创建了数据开放平台，该平台由用于自动驾驶的模拟，注释和演示数据组成。 ApolloScape数据集提供带注释的街景图像（144K图像）和实例分割（90K图像），车道检测（160K图像），汽车检测（70K）以及交通参与者的跟踪（100K图像）。该数据集可以评估在不同天气条件下以及在不同白天的方法的性能。
Nutonomy公司发布了NuScenes数据集，该数据集提供来自整个传感器套件的数据，并带有用于语义分割和对象检测的注释。该数据集包含超过一百万个摄像机图像。但是，ApolloScape和NuScenes均仅分别在一个或两个城市中记录，因此多样性仍然受到限制。
到目前为止，用于3D语义分割的数据集在大小和类数方面受到限制。最近，Behleyet等人基于KITTI视觉测程基准提出了一个用于3D语义分割的大型数据集。与先前的注解相反，此次可以为LiDAR完整的360度视野提供密集的逐点注释。数据集包含25种不同类别的20,000多次扫描。

Jens Behley, Martin Garbade, Andres Milioto, Jan Quenzel, Sven Behnke, Cyrill Stachniss, and Juergen Gall. \A Dataset for Semantic Segmentation of Point Cloud Sequences". In: arXiv.org (2019).
Andreas Geiger, Philip Lenz, Christoph Stiller, and Raquel Urtasun. Vision meets Robotics: The KITTI Dataset". In: International Journal of Robotics Research (IJRR) 32.11 (2013), pp. 1231{1237.

4.2.2 目标跟踪

Dollar等人提出的Caltech行人检测基准提供25万帧序列的序列，这些序列是在城市环境中通过常规流量行驶时记录的。注释了350,000个边界框和2,300个唯一的行人，包括边界框和详细的遮挡标签之间的时间对应关系。

上述的目标检测为时间序列的检测，均包含跟踪信息。学习一下是不是这样
还有一些公司举办的数据处理比赛，能否加进去进行更新
对数据集有更新的，更详细的介绍，比如数据集中有哪些标签信息，可以直接看出可以用多少。

4.2.3 交通标志检测

4.2.4 道路边沿检测

KITTI基准由Fritsch等人扩展进行道路/车道检测任务。总共已经选择了600种不同的训练和测试图像，用于手动标注道路和车道区域。 Mattyus等使用航拍图像来增强KITTI数据集的细粒度细分类别，例如停车位和人行道以及行车道的数量和位置。

Jannik Fritsch, Tobias Kuehnl, and Andreas Geiger. “A New Perfor-mance Measure and Evaluation Benchmark for Road Detection Algo-rithms”. In:Proc. IEEE Conf. on Intelligent Transportation Systems(ITSC). 2013
航拍图像：Gellert Mattyus, Shenlong Wang, Sanja Fidler, and Raquel Urtasun.“HD Maps: Fine-Grained Road Segmentation by Parsing Ground andAerial Images”. In:Proc. IEEE Conf. on Computer Vision and PatternRecognition (CVPR). 2016

大型车道检测数据集，Caltech车道检测数据集，该数据集在不同的时间记录在加利福尼亚州的帕萨迪纳市，由1200多个帧组成。 [1]提出了第一个大规模车道检测数据集，并提供了超过20,000张图像。与以前的数据集相比，他们还考虑了不同的天气条件。迄今为止，[2]具有100,000张图像的Berkeley DeepDrive数据集26 是最大，最多样化的车道/道路检测数据集.

[1] Seokju Lee, Jun-Sik Kim, Jae Shin Yoon, Seunghak Shin, OleksandrBailo, Namil Kim, Tae-Hee Lee, Hyun Seok Hong, Seung-Hoon Han,and In So Kweon. “VPGNet: Vanishing Point Guided Network for Laneand Road Marking Detection and Recognition”. In:Proc. of the IEEEInternational Conf. on Computer Vision (ICCV). 2017, pp. 1965–1973.
[2] Fisher Yu, Wenqi Xian, Yingying Chen, Fangchen Liu, Mike Liao,Vashisht Madhavan, and Trevor Darrell. “BDD100K: A Diverse Driv-ing Video Database with Scalable Annotation Tooling”. In:arXiv.org(2018).

4.2.5 光流和立体视觉的检测

4.2.6 长时间序列检测

诸如KITTI或Cityscapes之类的一些数据集专注于自动驾驶算法能力的发展，但并未解决长期自主性的挑战，例如环境随时间的变化。为了解决这个问题，Carlevaris-Bianco等人提出了一个新的长期视野和LiDAR数据集，包括27节。但是，该数据集不是从车辆记录的，而是在密歇根大学校园内使用Segway机器人记录的。

Nicholas Carlevaris-Bianco, Arash K. Ushani, and Ryan M. Eustice. University of Michigan North Campus long-term vision and lidar dataset". In: International Journal of Robotics Research (IJRR) 35.9 (2016), pp. 1023{1035.

Maddern等人提出了一种用于长期自动驾驶的新颖数据集。他们收集了图像，LiDAR和GPS数据，同时全年中转1000公里。这使他们能够捕获由于照明，天气和季节变化，动态物体和构造而导致的场景外观的巨大变化。这样的长期数据集可以深入研究阻碍实现自主车辆实现的问题，例如一年中不同时间的定位。

Will Maddern, Geoff Pascoe, Chris Linegar, and Paul Newman. 1 Year, 1000km: The Oxford RobotCar Dataset". In: International Journal of Robotics Research (IJRR) (2016)

最近，Sattler等人 [571]提出了三个数据集，用于在不同天气条件，季节以及白天和黑夜的情况下记录的视觉本地化（亚琛白天，机器人季节和CMU季节）。亚琛Day-Night数据集包含使用消费类相机记录的图像，而RobotCar Seasons和CMU Seasons是使用车载相机获取的。

Torsten Sattler, Will Maddern, Carl Toft, Akihiko Torii, Lars Hammarstrand, Erik Stenborg, Daniel Safari, Masatoshi Okutomi, Marc Pollefeys, Josef Sivic, Fredrik Kahl, and Tom´as Pajdla. \Benchmarking 6DOF Outdoor Visual Localization in Changing Conditions". In: Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). 2018, pp. 8601{8610

最近，Scape Technologies展示了使用低端消费类球形摄像机在伦敦帝国理工学院附近捕获的长期数据集。该数据集记录了一年的时间，并结合了不同的天气条件，白天和季节。

Vassileios Balntas. SILDa: A Multi-Task Dataset for Evaluating Visual Localization. https://medium.com/scape-technologies/silda-amulti - task - dataset - for - evaluating - visual - localization - 7fc6c2c56c74. Online: accessed 17-June-2019. 2019.

4.3 利用游戏环境合成数据

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

自动驾驶

深度学习