PointAugmenting Cross-Modal Augmentation for 3D Object Detection

2023-05-16

文章目录

  • 摘要
  • Introduction
      • paragraph1
      • paragraph2 -5
      • paragraph6
  • 相关工作
  • PointAugmenting
      • Cross-Modal Fusion
      • Point-wise Feature Fetching 逐点特征提取
      • 3D Detection
      • Cross-modal data Augment
  • 实验
    • Ablation Studies(可以参考这里进行自己论文的实验)
      • Cross-Modal data Augmentation
      • visualization of 2D Detection
      • Runtime
  • 总结
  • 我的总结

论文: PointAugmenting: Cross-Modal Augmentation for 3D Object Detection

摘要

先提出背景,然后方法,难点/挑战(不过这篇没在摘要里面提出挑战,应该会放到引言里面提)

  • 背景 :摄像头和激光雷达是自动驾驶环境中用于 3D 对象检测的两个互补传感器。相机提供丰富的纹理和颜色提示,而激光雷达则专注于相对距离感应。 3D 物体检测的挑战在于有效地将 2D 相机图像与 3D LiDAR 点融合。

  • 方法:提出了一种新的跨模态 3D 对象检测算法,名为PointAugmenting。

    • 简述方法(概括方法)

      • 一方面,PointAugmenting 用预训练的 2D 检测模型提取的相应逐点 CNN 特征来装饰点云,然后在装饰点云上执行 3D 对象检测。与装饰点云的高度抽象的语义分割分数相比,来自检测网络的 CNN 特征适应对象外观变化,取得显着改善。
      • 另一方面,PointAugmenting 受益于一种新颖的跨模态数据增强算法,该算法在网络训练期间始终将虚拟对象粘贴到图像和点云中。

Introduction

paragraph1

  1. 介绍3D物体检测和激光雷达背景和挑

    1. 背景:3D 对象检测在自动驾驶的 3D 场景理解中起着至关重要的作用。现有的 3D 物体检测算法主要使用激光雷达和相机来感知环境。激光雷达以稀疏点云的形式获取深度信息,而相机以具有丰富色彩和纹理的密集强度阵列形式捕获图像。
    2. 挑战: 3D 对象检测的挑战在于图像和点云之间的错位。
    3. 解决挑战的方法在这项工作中,我们的目标是通过有效的跨模态数据融合和增强来推进 3D 对象检测。

paragraph2 -5

  1. 介绍现有方法和缺点

    1. 现有方法:三种跨模态分类:result-level fusion、proposal-level fusion和point-level fusion。

    2. 缺点:

      • result-level fusion[13, 21] 采用现成的 2D 对象检测器,因此它们的性能受到 2D 检测器上限的限制。
      • proposal-level fusion的融合方法,例如 MV3D [3] 和 AVOD [8],在区域提议级别执行融合,导致计算量很大。
      • 最近的方法 [11, 10, 29, 16, 7, 19] 试图通过将点云投影到图像平面上来获取逐点图像特征。[11,10,29] 在与 LiDAR BEV 特征融合之前构建鸟瞰 (BEV) 相机特征以减轻视点不一致。跨视图变换很容易导致特征模糊。
    3. (反转)相反,MVX-Net [16]、EPNet [7] 和 PointPainting [19] 直接利用逐点对应来使用 CNN 特征或图像分割的分割分数来增强每个 LiDAR 点。

    4. 在分割分数的帮助下,PointPainting 已成为一种流行的融合基线,在大规模数据集上比仅使用 LiDAR 的检测器获得了巨大的收益。

    5. **通过实验探索更有效的改进方式(前面夸了Point Painting很好,但是还有不足,因为还存在挑战、可改进的地方)**图像的高维CNN特征比分割分数有更丰富的的外观线索和更大的感受野。

    6. 改进: 对发现的高维CNN特点进行改进,把VGG16换成了CenterNet的DLA34层作为输出,是为了强调细粒度的细节以加强点云之间的区别。

    7. **再改进:**改善LiDAR和相机之间的模态差距,采用跨模态的后期融合机制。(并展现了融合后的效果)

    8. (训练中存在的瓶颈):跨模态的数据增强

      1. 先介绍现有的数据增强方案GT-Paste
      2. 但这种增强方案会破坏LiDAR点和相机图像之间的一致性
      3. 从而解决这个问题 :首先遵循观察者的视角,根据几何一致规则过滤被遮挡的 LiDAR 点。然后抓住当前场景中的所有对象,并将它们对应的补丁以远近顺序粘贴到图像上

paragraph6

贡献总结

  1. 我们从 2D 对象检测网络中探索有效的 CNN 特征作为图像表示,以与 LiDAR 点融合以进行 3D 对象检测。
  2. 考虑到相机和激光雷达之间的模态一致性,我们提出了一种简单而有效的跨模态数据增强方法来训练 3D 对象检测器。
  3. 我们在大规模 nuScenes 和 Waymo 数据集上广泛验证了跨模式融合和数据增强的有效性。提出的 3D 检测器 PointAugmenting 在迄今为止的 nuScenes 排行榜上取得了新的最新成果。

相关工作

针对类型概括相关工作特点和其缺点

  • LIDAR-Based 3D Detection

    • 基于网络
    • 基于点
  • Fusion-Based 3D Detection:在我们的工作中,我们探索了一种更好的图像表示和融合机制,以促进逐点跨模态数据融合。

  • 数据增强: 受 Cutmix 的启发,我们跨模态 3D 增强的意图是同时将对象点和图像块粘贴到场景中,同时保持传感器之间的一致性。

PointAugmenting

先用第一段介绍该论文的方法大致结构,然后开始分点详细介绍方法。

Cross-Modal Fusion

Point-wise Feature Fetching 逐点特征提取

最近检测器 PointPainting [19] 的成功启发我们用相机图像的语义来装饰 LiDAR 点。(这里还是大胆的表明了,是引用的别人的方法,并不是自己创新)最后使用了2D对象检测而不是语义分割训练的现成网络

  • 提出了为什么才用这个方法的三个原因:

    • 2D与3D互补,专注于对象的不同粒度级别,彼此受益。
    • 2D检测标签更容易获得
    • 检测网络比分割网络友好
  • 然后再总结自己方法的使用方式。

3D Detection

这里就开始简述该论文的3D检测方法了

Cross-modal data Augment

这里的数据增强也是运用的别人的方法

  • 受最近的图像增强方法 Cutmix [31] 的启发,我们尝试在将虚拟对象的 LiDAR 点粘贴到当前 3D 场景中时同时将图像补丁附加到图像。

主要挑战:在于保持相机和激光雷达数据之间的一致性。

  • 如图 4 所示,从观察者的角度来看,粘贴的自行车在原始 3D 场景中被汽车部分遮挡,导致相机图像重叠。如果我们直接将虚拟对象补丁粘贴到图像上,则投影在重叠区域中的对象点可能会获取不匹配的特征。此外,投影到虚拟补丁中的背景点也会捕获不正确的信息。

解决方式:我们确定了前景物体之间的遮挡关系,并从观察者的角度过滤了那些被遮挡的 LiDAR 点。对于相机图像,我们取出虚拟对象和原始对象,并按远近顺序附加它们的补丁。

再详细介绍方法

  • Augmentation for LiDAR Points.
  • Augmentation for Camera Images.

实验

本篇论文也只总共在两个数据集上进行了实验

Ablation Studies(可以参考这里进行自己论文的实验)

  1. 跨模态融合的好处 (a,d):我们的融合架构将仅 LiDAR 的性能显着提高了 +10.1% mAP,这表明跨模态融合对于 3D 对象检测的重要性。(参考这里的话,跨模态的VGG和没有跨模态的VGG对比)
  2. 用于融合的相机输入 (b,c):将 PointPainting 建议的分割分数替换为我们的检测功能会产生 +3.7% 的 mAP 改进。尽管分割分数提供了一个紧凑的表示来补充 LiDAR 点,但 CNN 特征更擅长提供丰富的外观线索和大的感受野。结果表明为相机模态选择有效表示的重要性
  3. 不同的融合机制 (c,d):将我们的后期融合机制与简单的串联进行比较,我们通过使用我们的检测特征作为输入实现了 +1.5% 的 mAP 增益。早期的逐点连接忽略了 LiDAR 和相机之间数据特征的巨大差异。

Cross-Modal data Augmentation

因为本文的数据增强也是一大特点,所以也对数据增强的不同方法进行了ablation studies

visualization of 2D Detection

还通过可显示化证明结果的可靠性和进行分析

Runtime

比较检测速度 (这里的话,感觉没有什么可取的,因为我那个不是很参考检测速度)

总结

在本文中,我们提出了一种新颖的跨模态 3D 对象检测器,名为 PointAugmenting。通过提出的跨模态数据融合和数据增强方案,PointAugmenting 在 nuScenes 检测排行榜上设置了新的最先进的结果。作为跨模态 3D 检测器的强大基线,我们的 PointAugmenting 在未来的工作中可以在两个方面进行改进。首先,尽管我们的后期融合机制有效,但更有效的跨模态融合方案是可取的。此外,考虑到 Waymo 数据集中 LiDAR 和摄像头之间的不同视场,实际应用需要一个适应不同模态(仅 LiDAR 或跨模态)的单一模型。

我的总结

  1. 本论文几乎没有公式
  2. 也没有特别提出创新点,都是受人启发,这是完全没有错的,并且在论文中明确的引用了,很正确的行为。毕竟当前创新的东西早就被人提烂了。
  3. 工作量很大
  4. 逻辑很清晰
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

PointAugmenting Cross-Modal Augmentation for 3D Object Detection 的相关文章

随机推荐

  • Unable to determine the device handle for GPU. GPU is lost. Reboot the system to recover this GPU.

    最近服务器跑程序的时候经常出现GPU lost的情况 xff0c 报错信息如下 xff1a Unable to determine the device handle span class token keyword for span GP
  • 安装matlab的R2017b或者R2018a版本注意事项

    如果我们目前使用的是win10系统 xff0c 并且正确地按照网上安装并激活matlab的R2017b或者R2018a版本 xff0c 但是运行matlab时仍然会报错的情况 xff0c 报错内容是License Manager Error
  • IP地址0.0.0.0表示什么

    声明 xff1a 尊重原创 xff0c 查看原文请点击 IP地址0 0 0 0表示什么 转发目的为了构建 计算机网络 专栏 xff0c 收集相关优秀文章 xff0c 并创建自己的文章 方便自己和他人系统的学习相关知识 xff0c 感谢原文
  • Android群英传——第九章packages.xml的作用

    Android系统在初始化时 xff0c PackageManager的底层实现类PackageManagerService 回去扫描系统的 data system 目录下的packages xml文件 xff0c 这个文件包含了所有的ap
  • 百思不得姐之图片处理(保存与下载)

    一 功能图 二 讲解思路 1 回顾上一篇内容 2 创建加载图片类 同时创建xib 3 点击图片查看大图 4 点击查看大图 查看长图 5 model出展示图片的控制器 6 保存图片 7 封装根据网络状态展示不同的图片 三 回顾上一篇内容 1
  • 路由器电路(高清图)

    路由器正面 路由器背面
  • 技术4面+HR面,花了一个半月的时间准备,终于上岸阿里测开岗

    这次阿里的面试 xff0c 给我的感触很深 xff0c 意识到基础的重要性 一共经历了五轮面试 xff1a 技术4面 xff0b HR面 下面看正文 本人自动化专业毕业 xff0c 压抑了五个多月 xff0c 终于鼓起勇气 xff0c 去阿
  • 5个实用的性能测试工具(软件测试工程师必备)

    在日常的软件测试工作中 xff0c 最常用的性能测试工具是LoadRunner和Jmeter 今天给大家整理了5个针对web应用程序性能和负载压力能力的最广泛使用的性能测试工具 这几个负载测试工具将确保应用程序在高峰流量和极端压力条件下的性
  • 4个强大JavaScript运算符

    作者 Anthony Jimenez 译者 吴留坡 策划 田晓旭 来源 前端之巅 今天我们学习新的 JS 运算符 xff01 你有没有花一个下午的时间阅读 Mozilla 文档 xff1f 如果有 xff0c 你会发现网上有很多 JS 资料
  • 一些java开发代码规范心得

    1 equals方法规范 Object的equals方法容易抛空指针异常 xff0c 应使用常量或确定有值的对象来调用equals 正例 xff1a test equals object 反例 xff1a object equals tes
  • 8张Linux思维导图(定位自己能力、清楚学习方向)

    Linux学习路径 xff1a Linux桌面介绍 xff1a FHS 文件系统目录标准 以上三张图 xff0c 都是在学习实验楼上的课程 Linux 基础入门 xff0c 教程里面看到的 Linux需要特别注意的目录 这是在搜索的时候 x
  • Keil串口仿真调试

    用到的软件 Keil开发软件 虚拟串口软件 串口调试小助手 软件介绍 1 虚拟串口软件 对于笔记本电脑来说 xff0c 没有自带串口使用虚拟串口软件可以模拟真实的串口 程序可以利用虚拟串口与其他串口交换数据 Virtual Serial P
  • IEEE754详解(最详细简单有趣味的介绍)

    序言 xff1a 博主个人认为本系列文章是目前博主看过的介绍 IEEE754 xff0c 即浮点数的机器存储的最好的文章 它比白中英老师的 计算机组成原理 xff0c 在大学时计算机相关专业一般会使用的 绿皮书 xff0c 更加通俗易懂 x
  • 70_爬楼梯 滚动数组 动态规划 python

    题目搬运者 https leetcode cn com problems climbing stairs 思路 滚动数组 动态规划其实更像数学里面的找规律找公式 xff0c 数列吧 以前一直学不会动态规划的原因是一提起动态规划就觉得高大上
  • CutPaste Self-Supervised Learning for Anomaly Detection and Localization

    CutPaste Self Supervised Learning for Anomaly Detection and Localization 用于异常检测和定位的自监督学习 简洁版 问题 xff1a 异常的检测和定位 现有工作不足 xf
  • 1.Windows基础上安装Ubuntu20.04 双系统共存

    背景 服务器已安装Windows系统 在此基础上安装Ubuntu20 04 xff0c 实现双系统在本地电脑上远程访问Ubuntu20 04系统 xff0c 通过VNC操作Ubuntu20 04下载CUDA驱动在Ubuntu20 04安装A
  • 3. Ubuntu下载CUDA驱动

    背景 服务器已安装Windows系统 在此基础上安装Ubuntu20 04 xff0c 实现双系统在本地电脑上远程访问Ubuntu20 04系统 xff0c 通过VNC操作Ubuntu20 04下载CUDA驱动在Ubuntu20 04安装A
  • 4. 在Ubuntu20.04安装Anaconda Pytorch Pycharm

    文章目录 背景安装Anaconda安装Pytorch安装pycharmpytorch中使用conda创建pytorch虚拟环境 背景 服务器已安装Windows系统 在此基础上安装Ubuntu20 04 xff0c 实现双系统在本地电脑上远
  • 5. 本地Pycharm 专业版通过 SSH 连接远程服务器的Pytorch虚拟环境

    背景 服务器已安装Windows系统 在此基础上安装Ubuntu20 04 xff0c 实现双系统在本地电脑上远程访问Ubuntu20 04系统 xff0c 通过VNC操作Ubuntu20 04下载CUDA驱动在Ubuntu20 04安装A
  • PointAugmenting Cross-Modal Augmentation for 3D Object Detection

    文章目录 摘要Introductionparagraph1paragraph2 5paragraph6 相关工作PointAugmentingCross Modal FusionPoint wise Feature Fetching 逐点特