包罗万象!V3Det:1.3W类全新目标检测数据集(港中文&上海AI Lab)

2023-05-16

作者 | CV君  编辑 | 我爱计算机视觉

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【目标检测】技术交流群

后台回复【2D检测综述】获取鱼眼检测、实时检测、通用2D检测等近5年内所有综述!

介绍一篇今天新出的文章,来自上海人工智能实验室和香港中文大学的学者提出了一个海量类别的目标检测数据集V3Det,总类别数达到13029

0aa4960fbcb5f677d200ccf73ab9de45.png

▌V3Det: Vast Vocabulary Visual Detection Dataset1e0e960b95bd74427badae6f0f39070a.png

论文作者:Jiaqi Wang,Pan Zhang,Tao Chu,Yuhang Cao,Yujie Zhou,Tong Wu,Bin Wang,Conghui He,Dahua Lin

作者单位:Shanghai AI Laboratory(上海人工智能实验室); The Chinese University of Hong Kong(香港中文大学); Centre of Perceptual and Interactive Intelligence

论文链接:http://arxiv.org/abs/2304.03752v1

这个世界有多少种类别的物体?仅目前已经发现的昆虫,就有1000多万种。而目前计算机视觉领域大部分的数据集类别都是非常有限的,之前最多类别的LVIS有1203类,所以在真实世界中检测任意对象的研究往往是在类别受限的目标检测数据集上训练和评估的。

V3Det,正是为了应对这一挑战而开发的,不仅图像数量多(245k),而且类别个数多(13029),且具有精确的标注(1753k个包围框)。

相信构建这一数据集过程也是异常费时费力的!

为更好地理解数据,作者们还为V3Det构建了层次分类树,可以方便访问和研究类别之间的包含关系,每个类别都有专业的描述。

V3Det提供了广泛的探索空间,可以在广泛和开放的目标检测任务上进行广泛的基准测试,为研究提供新的观察、实践和见解。它有潜力成为开发更普遍的视觉感知系统的重要参考数据集!

V3Det与其他知名目标检测数据集的统计比较:019e2e109ffe8b6314b015b0e6043bdc.png

V3Det类别数是之前最大数据集的10倍!

如此大规模多类别的数据集标注过程肯定是异常艰辛的,为了保证标注数据的准确性,数据创建团队付出了大量的工作。

V3Det的标注过程:


74949e03cb15e3ffd451cb1a1a38ca6a.png

包括分组、粗粒度标注、合并与联合验证、细粒度标注、类别的验证、类别描述等过程。

比较有意思的是,在对类别进行描述的步骤中,ChatGPT也参与进来。

下图是对V3Det和其他数据集的统计分析:


4420bb5a83d4a47fde12dd5f8d51ae72.png

包括类别分布、均值分辨率、包围框分布。

下图展示了常见的目标检测算法在V3Det上评估的表现:

631ac2521316e1e5da61664443bcefee.png

作者还根据不同采样方法、表示方法、算法框架等对数据集进行了各种评估:


71af6647e28d4a1e90b614ebfbc9e3e9.png

38a59e630d81224aeb3599f5f86d59e3.png 6d06107d8f18e79251689da767bf35b4.png 541c2b1e5bcfb149dc87fb3b4475992a.png bbee8ae0ec76301a6e0d68f305ae6e21.png 8fa7119c70e1cc4a4ab26303d37434b3.png 79326ea588f2b6ab2ec7b9c8eadd7cf9.png 85ae493a2ab78a29eb5476d98dbe1d4d.png 8ede2e30f9033b565dd22f72dcc35311.png cd1ae66fec32144019cb3fd3a8716b0c.png

下面这张图展示了类别层次图的可视化,相当震撼!35816195e937b22c78f677ab64dfc1fb.png

V3Det数据集中“粗类别”的统计和描述:a6fbf45da02b9e7b1c4fc3e4bc0a1b95.png

可见Animal & Human 相关的类别是最多的,达到7485类,其次是Flower,1911类。

e1fe63b15df131c2b5e7a892af9b4f03.png 57c171ad7fb7e86a3f46bc9a02a92371.png

类别描述示例:


f423fe7a407fab794cb08f5bfd400ca9.png

标注示例:


43b956099123a64c9b22a063d5aa0c19.png

95b397991adf619af862cf916e5c7480.png

包围框真是密密麻麻!(数据创建团队辛苦了!!)

这是一项特别有意义的工作,也是非常有价值的资产,相信能够促进大规模海量类别目标检测的相关研究。

作者说数据集将于6月份公开,大家拭目以待!

往期回顾

史上最全综述 | 3D目标检测算法汇总!(单目/双目/LiDAR/多模态/时序/半弱自监督)

视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

2e28a7f15c4892fa7c65f1350caaaf35.png

(扫码学习最新视频)

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

48eca77b415552003a15d59847b950b0.jpeg

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

9179b7b221af5d2b6a83ef1f94d5bca6.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

包罗万象!V3Det:1.3W类全新目标检测数据集(港中文&上海AI Lab) 的相关文章

  • 深度相机介绍(TOF、RGB双目、结构光参数对比)

    一 深度相机的介绍 随着计算机视觉与人工智能技术的飞速发展 xff0c 采用深度相机进行场景三维重建 目标检测 环境感知等应用越来越广泛 xff0c 与传统的2D相机不同 xff0c 深度相机可以通过拍摄空间来获得景深信息 xff0c 从而
  • 网络编程——UDP

    目录 UDP的服务器端 UDP的echo客户端代码 UDP的echo服务器端代码 UDP的服务器端 先运行服务器端 xff0c 再运行客户端 服务端 xff1a 开发者 xff1a Virtuous 开发版本 xff1a 1 0 开发时间
  • HTTP 完全解析

    Http 详解 HTTP 的定义 HTTP即是 xff1a Hypertext Transfer Protocol xff0c 超文本传输协议 xff0c 种 络传输协议 xff0c 位于 TCP IP 协议族的最顶层 应 层 URL 说到
  • STM32 自定义串口协议

    STM32 自定义串口协议 1 串行通信1 1 原理与优缺点1 2 分类1 2 1 按通信方向1 2 2 按通信方式 1 3 异步串行引脚连接1 3 1 串口外设之间1 3 2 ARM与PC之间 1 4 字符帧格式1 5 串口通信过程1 6
  • 无人机——电机篇(一)

    文章目录 1 电机的定义 2 电机的分类 3 电机的参数 4 电机效率 5 电机的选择 1 电机的定义 电机俗称 马达 是无人机的动力来源 无人机通过改变电机的转速来改变无人机的飞行状态 即改变每个电机的速度 使得无人机能够盘旋空中 上升或
  • HTTP请求/响应报文结构

    HTTP请求报文 一个HTTP请求报文由四个部分组成 xff1a 请求行 请求头部 空行 请求数据 1 请求行 请求行由 请求方法字段 URL字段 和 HTTP协议版本字段 3个字段组成 xff0c 它们用空格分隔 比如 GET data
  • AStar寻路算法

    概述 AStar算法是一种图形搜索算法 xff0c 常用于寻路 他是以广度优先搜索为基础 xff0c 集Dijkstra算法和最佳优先 best fit 于一身的一种算法 示例1 4向 示例2 8向 思路 递归的通过估值函数找到最佳路径 x
  • ECCV2022 | 多模态融合检测新范式!基于概率集成实现多模态目标检测

    点击下方卡片 xff0c 关注 自动驾驶之心 公众号 ADAS巨卷干货 xff0c 即可获取 点击进入 自动驾驶之心技术交流群 后台回复 ECCV2022 获取ECCV2022所有自动驾驶方向论文 xff01 说在前面的话 标题 xff1a
  • 什么是地址映射

    ARM体系结构 地址映射 一 什么是地址映射 1 ARM Cortex A8架构 xff0c 32位CPU xff0c CPU设计时就有32根地址线和32根数据线 2 32根地址线决定了CPU的地址空间为4G xff0c 那么这4G空间如何
  • 寄存器和GPIO

    一 什么是GPIO 1 GPIO的英文全称General Purpose Input Output Ports 中文意思是通用I O端口 2 GPIO就是芯片的引脚 xff08 芯片上的引脚有些不是GPIO xff0c 只有一部分是 xff
  • 什么是I2C通信

    ARM体系 I2C通信 一 什么是I2C 1 I2C总线是由Philips公司开发的一种简单 双向二线制同步串行总线 它只需要两根线即可在连接于总线上的设备之间传送信息 2 主设备用于启动总线传送数据 xff0c 并产生时钟以开放传送的设备
  • 什么是AD转换

    ARM体系 ADC 一 什么是ADC 1 ADC xff1a analog digital converter xff0c AD转换 xff0c 模数转换 xff08 也就是模拟转数字 xff09 2 模拟信号只有通过A D转化为数字信号后
  • 什么是SPI通信

    ARM体系 SPI通信 一 什么是SPI通信 1 SPI是串行外设接口 Serial Peripheral Interface xff0c 可以理解为一种通信协议 xff0c 也就是用来传输数据的 2 SPI 是由摩托罗拉 Motorola
  • petalinux uboot源码在哪的问题

    petalinux uboot源码在哪的问题 提出问题解决问题注意 xff1a 要知道自己的版本 1 uboot2 kernel 提出问题 petalinux 源码目录存放在哪里的问题 xff0c 也就是petalinux工程的uboot和
  • petalinux uboot源码怎么打补丁

    petalinux的源码 petalinux工程对于我来说 xff0c 就是有一点不能直接起修改源码 xff0c 你需要间接的修改源码的内容 xff1f 这个修改你还需要遵从petalinux的规章流程 当你不知道的时候你会感到无从下手 x
  • 嵌入式Ubuntu根文件系统移植带桌面

    1 为什么要移植Ubuntu根文件系统 相信到达这一步的人 xff0c 都已经对根文件系统有了个充分的认识 xff0c 已经自己从无到有创建过根文件系统了 xff0c 玩过busybox的了 xff0c 也可能移植过别的嵌入式文件系统了 但
  • Keil5在已有项目中导入文件夹(文件或模块),后编译,头文件找不到问题

    Keil5在已有项目中导入文件夹 文件或模块 后编译 头文件找不到问题 如果你是以及成功导入文件后 但是编译时发现头文件找不到 可以直接从第二部分看起 第一部分导入文件 第二部分导入头文件 导入头文件时注意 注意 注意路径问题要和导入文件时
  • stm32之串口使用和串口中断

    1 定义 串口通讯 Serial Communication 是一种设备间非常常用的串行通讯方式 xff0c 因为它简单便捷 xff0c 因此大部分电子设备都支持该通讯方式 xff0c 其通讯协议可分层为协议层和物理层 物理层规定通信协议中
  • 万字长文解析CV中的注意力机制(通道/空间/时域/分支注意力)

    点击下方卡片 xff0c 关注 自动驾驶之心 公众号 ADAS巨卷干货 xff0c 即可获取 点击进入 自动驾驶之心技术交流群 后台回复 transformer综述 获取2022最新ViT综述论文 xff01 注意力机制是机器学习中嵌入的一
  • 5. STM32——串口发送字符、字符串 + printf 的重定向

    STM32 串口发送字符 字符串 43 printf 的重定向 基本框架1 配置时钟 xff1a 配置GPIO时钟 窗口时钟 引脚复用时钟2 配置GPIO结构体在 stm32f10x gpio h 头文件中查找相关函数函数 3 配置串口结构

随机推荐