PointAugmenting Cross-Modal Augmentation for 3D Object Detection

2023-05-16

文章目录

摘要
Introduction
- - paragraph1
  - paragraph2 -5
  - paragraph6
相关工作
PointAugmenting
- - Cross-Modal Fusion
  - Point-wise Feature Fetching 逐点特征提取
  - 3D Detection
  - Cross-modal data Augment
实验
- Ablation Studies（可以参考这里进行自己论文的实验）
- - Cross-Modal data Augmentation
  - visualization of 2D Detection
  - Runtime
总结
我的总结

论文： PointAugmenting: Cross-Modal Augmentation for 3D Object Detection

摘要

先提出背景，然后方法，难点/挑战（不过这篇没在摘要里面提出挑战，应该会放到引言里面提）

背景：摄像头和激光雷达是自动驾驶环境中用于 3D 对象检测的两个互补传感器。相机提供丰富的纹理和颜色提示，而激光雷达则专注于相对距离感应。 3D 物体检测的挑战在于有效地将 2D 相机图像与 3D LiDAR 点融合。
方法：提出了一种新的跨模态 3D 对象检测算法，名为PointAugmenting。
- 简述方法（概括方法）
  - 一方面，PointAugmenting 用预训练的 2D 检测模型提取的相应逐点 CNN 特征来装饰点云，然后在装饰点云上执行 3D 对象检测。与装饰点云的高度抽象的语义分割分数相比，来自检测网络的 CNN 特征适应对象外观变化，取得显着改善。
  - 另一方面，PointAugmenting 受益于一种新颖的跨模态数据增强算法，该算法在网络训练期间始终将虚拟对象粘贴到图像和点云中。

Introduction

paragraph1

介绍3D物体检测和激光雷达背景和挑
1. 背景：3D 对象检测在自动驾驶的 3D 场景理解中起着至关重要的作用。现有的 3D 物体检测算法主要使用激光雷达和相机来感知环境。激光雷达以稀疏点云的形式获取深度信息，而相机以具有丰富色彩和纹理的密集强度阵列形式捕获图像。
2. 挑战： 3D 对象检测的挑战在于图像和点云之间的错位。
3. 解决挑战的方法在这项工作中，我们的目标是通过有效的跨模态数据融合和增强来推进 3D 对象检测。

paragraph2 -5

介绍现有方法和缺点
1. 现有方法：三种跨模态分类：result-level fusion、proposal-level fusion和point-level fusion。
2. 缺点：
  - result-level fusion[13, 21] 采用现成的 2D 对象检测器，因此它们的性能受到 2D 检测器上限的限制。
  - proposal-level fusion的融合方法，例如 MV3D [3] 和 AVOD [8]，在区域提议级别执行融合，导致计算量很大。
  - 最近的方法 [11, 10, 29, 16, 7, 19] 试图通过将点云投影到图像平面上来获取逐点图像特征。[11,10,29] 在与 LiDAR BEV 特征融合之前构建鸟瞰 (BEV) 相机特征以减轻视点不一致。跨视图变换很容易导致特征模糊。
3. （反转）相反，MVX-Net [16]、EPNet [7] 和 PointPainting [19] 直接利用逐点对应来使用 CNN 特征或图像分割的分割分数来增强每个 LiDAR 点。
4. 在分割分数的帮助下，PointPainting 已成为一种流行的融合基线，在大规模数据集上比仅使用 LiDAR 的检测器获得了巨大的收益。
5. **通过实验探索更有效的改进方式（前面夸了Point Painting很好，但是还有不足，因为还存在挑战、可改进的地方）**图像的高维CNN特征比分割分数有更丰富的的外观线索和更大的感受野。
6. 改进： 对发现的高维CNN特点进行改进，把VGG16换成了CenterNet的DLA34层作为输出，是为了强调细粒度的细节以加强点云之间的区别。
7. **再改进：**改善LiDAR和相机之间的模态差距，采用跨模态的后期融合机制。（并展现了融合后的效果）
8. （训练中存在的瓶颈）：跨模态的数据增强
  1. 先介绍现有的数据增强方案GT-Paste
  2. 但这种增强方案会破坏LiDAR点和相机图像之间的一致性
  3. 从而解决这个问题 ：首先遵循观察者的视角，根据几何一致规则过滤被遮挡的 LiDAR 点。然后抓住当前场景中的所有对象，并将它们对应的补丁以远近顺序粘贴到图像上

paragraph6

贡献总结

我们从 2D 对象检测网络中探索有效的 CNN 特征作为图像表示，以与 LiDAR 点融合以进行 3D 对象检测。
考虑到相机和激光雷达之间的模态一致性，我们提出了一种简单而有效的跨模态数据增强方法来训练 3D 对象检测器。
我们在大规模 nuScenes 和 Waymo 数据集上广泛验证了跨模式融合和数据增强的有效性。提出的 3D 检测器 PointAugmenting 在迄今为止的 nuScenes 排行榜上取得了新的最新成果。

PointAugmenting

先用第一段介绍该论文的方法大致结构，然后开始分点详细介绍方法。

Cross-Modal Fusion

Point-wise Feature Fetching 逐点特征提取

最近检测器 PointPainting [19] 的成功启发我们用相机图像的语义来装饰 LiDAR 点。（这里还是大胆的表明了，是引用的别人的方法，并不是自己创新）最后使用了2D对象检测而不是语义分割训练的现成网络

提出了为什么才用这个方法的三个原因：
- 2D与3D互补，专注于对象的不同粒度级别，彼此受益。
- 2D检测标签更容易获得
- 检测网络比分割网络友好
然后再总结自己方法的使用方式。

3D Detection

这里就开始简述该论文的3D检测方法了

Cross-modal data Augment

这里的数据增强也是运用的别人的方法

受最近的图像增强方法 Cutmix [31] 的启发，我们尝试在将虚拟对象的 LiDAR 点粘贴到当前 3D 场景中时同时将图像补丁附加到图像。

主要挑战：在于保持相机和激光雷达数据之间的一致性。

如图 4 所示，从观察者的角度来看，粘贴的自行车在原始 3D 场景中被汽车部分遮挡，导致相机图像重叠。如果我们直接将虚拟对象补丁粘贴到图像上，则投影在重叠区域中的对象点可能会获取不匹配的特征。此外，投影到虚拟补丁中的背景点也会捕获不正确的信息。

解决方式：我们确定了前景物体之间的遮挡关系，并从观察者的角度过滤了那些被遮挡的 LiDAR 点。对于相机图像，我们取出虚拟对象和原始对象，并按远近顺序附加它们的补丁。

再详细介绍方法

Augmentation for LiDAR Points.
Augmentation for Camera Images.

实验

本篇论文也只总共在两个数据集上进行了实验

Ablation Studies（可以参考这里进行自己论文的实验）

跨模态融合的好处 (a,d)：我们的融合架构将仅 LiDAR 的性能显着提高了 +10.1% mAP，这表明跨模态融合对于 3D 对象检测的重要性。(参考这里的话，跨模态的VGG和没有跨模态的VGG对比)
用于融合的相机输入 (b,c)：将 PointPainting 建议的分割分数替换为我们的检测功能会产生 +3.7% 的 mAP 改进。尽管分割分数提供了一个紧凑的表示来补充 LiDAR 点，但 CNN 特征更擅长提供丰富的外观线索和大的感受野。结果表明为相机模态选择有效表示的重要性。
不同的融合机制 (c,d)：将我们的后期融合机制与简单的串联进行比较，我们通过使用我们的检测特征作为输入实现了 +1.5% 的 mAP 增益。早期的逐点连接忽略了 LiDAR 和相机之间数据特征的巨大差异。

Cross-Modal data Augmentation

因为本文的数据增强也是一大特点，所以也对数据增强的不同方法进行了ablation studies

visualization of 2D Detection

还通过可显示化证明结果的可靠性和进行分析

Runtime

比较检测速度（这里的话，感觉没有什么可取的，因为我那个不是很参考检测速度）

总结

在本文中，我们提出了一种新颖的跨模态 3D 对象检测器，名为 PointAugmenting。通过提出的跨模态数据融合和数据增强方案，PointAugmenting 在 nuScenes 检测排行榜上设置了新的最先进的结果。作为跨模态 3D 检测器的强大基线，我们的 PointAugmenting 在未来的工作中可以在两个方面进行改进。首先，尽管我们的后期融合机制有效，但更有效的跨模态融合方案是可取的。此外，考虑到 Waymo 数据集中 LiDAR 和摄像头之间的不同视场，实际应用需要一个适应不同模态（仅 LiDAR 或跨模态）的单一模型。

我的总结

本论文几乎没有公式
也没有特别提出创新点，都是受人启发，这是完全没有错的，并且在论文中明确的引用了，很正确的行为。毕竟当前创新的东西早就被人提烂了。
工作量很大
逻辑很清晰

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PointAugmenting Cross-Modal Augmentation for 3D Object Detection 的相关文章

OpenBTS for bladeRF代码修改

首先从https github com Nuand dev 上 git clone 下来下载打包的文件 xff0c 接着到本地dev目录下执行 clone sh下载OpenBTS以及它的其他依赖的安装包这里在openbts文件夹Trasc
g2o_a_general_framework_for_graph_optimaization

g2o A General Framework for Graph Optimization NONLINEAR GRAPH OPTIMIZATION USING LEAST SQUARES 机器人和计算机视觉中的许多问题都可以用下列方程的
undefined reference to `vtable for XXXXX`

vtable 表示的是虚表这个错误出现时请检查你的父类所有虚函数是否实现或者子类是否把父类的虚函数都处理完注意析构函数也算
Release file for http://xxx/ubuntu/dists/bionic-updates/InRelease is not valid yet报错解决

参考 https blog 51cto com 5437315 2420097 中说明的原因原因 xff1a 系统时间与网络时间 xff08 仓库 xff09 的不同导致更新错误按照这个原因解释 xff0c 我查看了自己虚拟机内ubun
vue 指定index.html,在vue中,v-for的索引index在html中的使用方法

在vue中 v for的索引index在html中的使用方法如下所示 xff1a 以上这篇在vue中 v for的索引index在html中的使用方法就是小编分享给大家的全部内容了 xff0c 希望能给大家一个参考 xff0c 也希望大家
C++ for无限循环~

无限循环如果条件永远不为假 xff0c 则循环将变成无限循环 for 循环在传统意义上可用于实现无限循环由于构成循环的三个表达式中任何一个都不是必需的 xff0c 您可以将某些条件表达式留空来构成一个无限循环 include lt io
mavlink解码java_mavlink: A Java API for MAVLink communication

Overview A Java SDK for communication using the Mavlink1 and Mavlink2 protocols Structure The project is made up of 3 co
.error: C++ requires a type specifier for all declarations

error C 43 43 requires a type specifier for all declarations 出错原因 xff1a 代码片段没有写在函数中解决方法 xff1a 将代码片段写进函数中
TypeError: Expected Ptr＜cv::UMat＞ for argument ‘img‘

使用opencv过程中报错 xff1a TypeError Expected Ptr for argument 39 img 39 请检查img参数是否是numpy数组 xff0c 以及其数据类型 dtype是否是np uint8 如果这两
【PyCharm】Couldn‘t refresh skeletons for remote interpreter: Can‘t get remote credentials for server

错误描述连接远程服务器的pycharm崩溃后 xff0c 程序无法调试 xff0c 出现错误 xff1a Couldn 39 t refresh skeletons for remote interpreter Can 39 t get
VTK6.3.0 error: no override found for 'vtkPolyDataMapper'

1 开发环境计算机系统 Win7 Qt版本 5 4 0 Qt Creator版本 3 0 1 VTK版本 6 3 0 编译器 VS2013 2 解决方法1 根据参考资料 1 的说明 xff0c 在源程序中添加头文件 cpp view pl
RS雷达转Velodyne雷达数据Failed to find match for field ‘intensity‘

目录 xff1a 问题分析解决问题因为目前很多SLAM框架支持的激光雷达都是Velodyne型号的 xff0c 对于速腾RS雷达的使用者来说 xff0c 需要对数据进行转换 xff0c 其实现在速腾的雷达已经支持输出XYZI和XYZIR
ESP32 for arduino 的3个hardware serial

在arduino IDE的开发环境中 xff0c 如果使用的开发板不是arduino的开发平台 xff0c 而是ESP32模组的开发板 xff0c 那么在实际开发中由于ESP32的支持库与arduino不同 xff0c 会使得我们在使用一些
ChkBugReport工具for Android

关于这个工具 xff0c 找到的资料都比较旧了 xff0c 貌似是索尼移动的开发人员开发的 xff0c 2014年左右的文章比较多 xff0c 应该是那个时候索尼移动还是比较鼎盛的时期吧现在已经很少看到关于这个工具的文章了 xff0c G
twemproxy for redis使用说明及简单分析

redis的数据量在内存高过50G时系统出现了明显的瓶颈为了解决这个问题 xff0c 笔者找了些相关的资料 xff0c 发现了这个开源软件功能很强大 xff0c 包含了last fm的ketama的一致性hash算法 xff0c 对于笔
最短路径算法之AStar算法(三) 《A* Pathfinding for Beginners》一文中的两个问题

现在 xff0c 看看网上流传的很广的一篇文章 A Pathfinding for Beginners xff0c 经典的A STar算法的入门文章 xff0c 也是我前面推荐的阅读文章个人认为 xff0c 这篇入门文章的算法不能找出最短
iptables - administration tools for packet filtering and NAT

2 iptables administration tools for packet filtering and NAT Linux Iptables Manual Incoming Traffic V 43 43 PREROUTING 4
MPLAB构建项目报错“recipe for target ‘.build-conf‘ failed”

recipe for target build conf failed 刚入门单片机 xff0c 在写程序时 xff0c 当时写完 xff0c build成功 xff0c 但是第二天过来 xff0c 改写了部分代码 xff0c 然后去bui
学习ROS-Academy-for-Beginners-noetic，修改记录

一编译安装ROS Academy for Beginners noetic 可以参考我之前的博客ROS Academy for Beginers noetic安装教程之后可以看到里面提供了很多例程 xff0c 包括软件包内容 rob
Go语言学习15-基本流程控制

基本流程控制流程控制对比 Go 和 C 基本流程控制 1 代码块和作用域 2 if 语句 3 switch语句 3 1 表达式switch语句 3 2 类型switch语句 4 for 语句 4 1 for 子句 4 2 range 子句

随机推荐

Unable to determine the device handle for GPU. GPU is lost. Reboot the system to recover this GPU.

最近服务器跑程序的时候经常出现GPU lost的情况 xff0c 报错信息如下 xff1a Unable to determine the device handle span class token keyword for span GP
安装matlab的R2017b或者R2018a版本注意事项

如果我们目前使用的是win10系统 xff0c 并且正确地按照网上安装并激活matlab的R2017b或者R2018a版本 xff0c 但是运行matlab时仍然会报错的情况 xff0c 报错内容是License Manager Error
IP地址0.0.0.0表示什么

声明 xff1a 尊重原创 xff0c 查看原文请点击 IP地址0 0 0 0表示什么转发目的为了构建计算机网络专栏 xff0c 收集相关优秀文章 xff0c 并创建自己的文章方便自己和他人系统的学习相关知识 xff0c 感谢原文
Android群英传——第九章packages.xml的作用

Android系统在初始化时 xff0c PackageManager的底层实现类PackageManagerService 回去扫描系统的 data system 目录下的packages xml文件 xff0c 这个文件包含了所有的ap
百思不得姐之图片处理(保存与下载)

一功能图二讲解思路 1 回顾上一篇内容 2 创建加载图片类同时创建xib 3 点击图片查看大图 4 点击查看大图查看长图 5 model出展示图片的控制器 6 保存图片 7 封装根据网络状态展示不同的图片三回顾上一篇内容 1
路由器电路（高清图）

路由器正面路由器背面
技术4面+HR面，花了一个半月的时间准备，终于上岸阿里测开岗

这次阿里的面试 xff0c 给我的感触很深 xff0c 意识到基础的重要性一共经历了五轮面试 xff1a 技术4面 xff0b HR面下面看正文本人自动化专业毕业 xff0c 压抑了五个多月 xff0c 终于鼓起勇气 xff0c 去阿
5个实用的性能测试工具（软件测试工程师必备）

在日常的软件测试工作中 xff0c 最常用的性能测试工具是LoadRunner和Jmeter 今天给大家整理了5个针对web应用程序性能和负载压力能力的最广泛使用的性能测试工具这几个负载测试工具将确保应用程序在高峰流量和极端压力条件下的性
4个强大JavaScript运算符

作者 Anthony Jimenez 译者吴留坡策划田晓旭来源前端之巅今天我们学习新的 JS 运算符 xff01 你有没有花一个下午的时间阅读 Mozilla 文档 xff1f 如果有 xff0c 你会发现网上有很多 JS 资料
一些java开发代码规范心得

1 equals方法规范 Object的equals方法容易抛空指针异常 xff0c 应使用常量或确定有值的对象来调用equals 正例 xff1a test equals object 反例 xff1a object equals tes
8张Linux思维导图（定位自己能力、清楚学习方向）

Linux学习路径 xff1a Linux桌面介绍 xff1a FHS 文件系统目录标准以上三张图 xff0c 都是在学习实验楼上的课程 Linux 基础入门 xff0c 教程里面看到的 Linux需要特别注意的目录这是在搜索的时候 x
Keil串口仿真调试

用到的软件 Keil开发软件虚拟串口软件串口调试小助手软件介绍 1 虚拟串口软件对于笔记本电脑来说 xff0c 没有自带串口使用虚拟串口软件可以模拟真实的串口程序可以利用虚拟串口与其他串口交换数据 Virtual Serial P
IEEE754详解（最详细简单有趣味的介绍）

序言 xff1a 博主个人认为本系列文章是目前博主看过的介绍 IEEE754 xff0c 即浮点数的机器存储的最好的文章它比白中英老师的计算机组成原理 xff0c 在大学时计算机相关专业一般会使用的绿皮书 xff0c 更加通俗易懂 x
70_爬楼梯滚动数组动态规划 python

题目搬运者 https leetcode cn com problems climbing stairs 思路滚动数组动态规划其实更像数学里面的找规律找公式 xff0c 数列吧以前一直学不会动态规划的原因是一提起动态规划就觉得高大上
CutPaste Self-Supervised Learning for Anomaly Detection and Localization

CutPaste Self Supervised Learning for Anomaly Detection and Localization 用于异常检测和定位的自监督学习简洁版问题 xff1a 异常的检测和定位现有工作不足 xf
1.Windows基础上安装Ubuntu20.04 双系统共存

背景服务器已安装Windows系统在此基础上安装Ubuntu20 04 xff0c 实现双系统在本地电脑上远程访问Ubuntu20 04系统 xff0c 通过VNC操作Ubuntu20 04下载CUDA驱动在Ubuntu20 04安装A
3. Ubuntu下载CUDA驱动

背景服务器已安装Windows系统在此基础上安装Ubuntu20 04 xff0c 实现双系统在本地电脑上远程访问Ubuntu20 04系统 xff0c 通过VNC操作Ubuntu20 04下载CUDA驱动在Ubuntu20 04安装A
4. 在Ubuntu20.04安装Anaconda Pytorch Pycharm

文章目录背景安装Anaconda安装Pytorch安装pycharmpytorch中使用conda创建pytorch虚拟环境背景服务器已安装Windows系统在此基础上安装Ubuntu20 04 xff0c 实现双系统在本地电脑上远
5. 本地Pycharm 专业版通过 SSH 连接远程服务器的Pytorch虚拟环境

背景服务器已安装Windows系统在此基础上安装Ubuntu20 04 xff0c 实现双系统在本地电脑上远程访问Ubuntu20 04系统 xff0c 通过VNC操作Ubuntu20 04下载CUDA驱动在Ubuntu20 04安装A
PointAugmenting Cross-Modal Augmentation for 3D Object Detection

文章目录摘要Introductionparagraph1paragraph2 5paragraph6 相关工作PointAugmentingCross Modal FusionPoint wise Feature Fetching 逐点特