TartanVO: A Generalizable Learning-based VO 论文阅读

2023-11-15

论文信息

题目:TartanVO: A Generalizable Learning-based VO
作者:Wenshan Wang, Yaoyu Hu
来源:CoRL
时间:2021
代码地址https://github.com/castacks/tartanvo

Abstract

我们提出了第一个基于学习的视觉里程计(VO)模型,该模型可推广到多个数据集和现实场景,并且在具有挑战性的场景中优于基于几何的方法。

我们通过利用 SLAM 数据集 TartanAir 来实现这一目标,该数据集在具有挑战性的环境中提供了大量多样化的合成数据。此外,为了使我们的 VO 模型能够跨数据集泛化,我们提出了一个大规模损失函数,并将相机内在参数合并到模型中。

实验表明,仅在合成数据上进行训练且无需任何微调的单一模型 TartanVO 可以推广到现实世界的数据集(例如 KITTI 和 EuRoC),在具有挑战性的轨迹上表现出相对于基于几何的方法的显着优势。

Introduction

基于几何的方法 [2,3,4,5] 和基于学习的方法 [6,7,8,9] 都取得了令人印象深刻的进展。然而,为实际应用开发稳健可靠的 VO 方法仍然是一个具有挑战性的问题

一方面,基于几何的方法在许多现实生活中不够稳健[10, 11]。

另一方面,虽然基于学习的方法在许多视觉任务上表现出了强大的性能,包括对象识别、语义分割、深度重建和光流,但我们还没有看到同样的情况发生在 VO 上。

现有的 VO 模型训练的多样性不足,这对于基于学习的方法能够泛化至关重要。
其次,当前大多数基于学习的 VO 模型都忽略了问题的一些基本性质,而这些性质在基于几何的 VO 理论中得到了很好的阐述。

为此,我们提出了一种基于学习的方法,可以解决上述两个问题,并且可以跨数据集泛化。我们的贡献有三个方面。

  1. 我们通过比较不同数量的训练数据的性能来证明数据多样性对 VO 模型泛化能力的关键影响。
  2. 我们设计了一个尺度损失函数来处理单目 VO 的尺度模糊性。
  3. 我们在 VO 模型中创建一个内在层 (IL),以实现跨不同相机的泛化。

Related Work

为了提高性能,端到端 VO 模型往往具有与相机运动相关的辅助输出,例如深度和光流。通过深度预测,模型通过在时间连续图像之间施加深度一致性来获取监督信号 [17, 21]。此过程可以解释为匹配 3D 空间中的时间观察结果。时间匹配的类似效果可以通过产生光流来实现,例如,[16,22,18]联合预测深度、光流和相机运动。

光流也可以被视为明确表达 2D 匹配的中间表示。然后,相机运动估计器可以处理光流数据,而不是直接处理原始图像[20, 23]。如果以这种方式设计,甚至可以根据可用的光流数据单独训练用于估计相机运动的组件[19]。我们遵循这些设计并使用光流作为中间表示

众所周知,单目 VO 系统存在尺度模糊性。然而,大多数监督学习模型没有处理这个问题,而是直接使用模型预测和真实相机运动之间的差异作为监督[20,24,25]。在[19]中,通过将光流划分为子区域并在这些区域之间施加运动预测的一致性来处理尺度。在非学习方法中,如果 3D 地图可用,则可以解决尺度模糊性[26]。 Ummenhofer 等人[20]引入深度预测来校正尺度漂移。 Tateno 等人 [27] 和 Shen 等人 [28] 通过利用 SLAM 系统的关键帧选择技术改善了尺度问题。最近,Zhan 等人[29]使用 PnP 技术来显式求解比例因子。上述方法给 VO 系统带来了额外的复杂性,然而,对于单目设置,尤其是在评估阶段,尺度模糊性并没有完全被抑制。

相反,一些模型选择只产生符合规模的预测。 Wang等人[30]通过在计算损失函数之前对深度预测进行归一化来减少单目深度估计任务中的尺度模糊性。同样,我们将通过定义新的最大尺度损失函数,专注于预测平移方向,而不是从单目图像中恢复全尺寸。

当对来自新环境或新相机的图像进行测试时,基于学习的模型会遇到泛化问题。大多数 VO 模型都是在同一数据集上进行训练和测试的 [16,17,31,18]。一些多任务模型[6,20,32,22]仅测试其在深度预测上的泛化能力,而不是在相机姿态估计上的泛化能力。最近的努力,例如[33],使用模型适应来处理新环境,但是,需要在每个环境或每个摄像机的基础上进行额外的训练。在这项工作中,我们提出了一种通过将相机内在函数直接合并到模型中来实现跨相机/数据集泛化的新颖方法。

Approach

Background

我们关注单目 VO 问题,该问题采用两个连续的未失真图像 { I t , I t + 1 } \{I_t, I_{t+1}\} {It,It+1},并估计相对相机运动 δ t t + 1 = ( T , R ) δ^{t+1}_t = (T, R) δtt+1=(T,R),其中 T ∈ R 3 T ∈ \mathbb{R}^3 TR3 是 3D 平移, R ∈ s o ( 3 ) R ∈ so (3) Rso(3) 表示 3D 旋转。根据对极几何理论[3​​4],基于几何的 VO 有两个方面。

首先,从 I t I_t It I t + 1 I_{t+1} It+1中提取并匹配视觉特征。
然后使用匹配结果,计算导致恢复最大尺度相机运动 δ t t + 1 δ^{t+1}_t δtt+1的基本矩阵。

我们的模型由两个子模块组成。
一个是匹配模块 M θ ( I t , I t + 1 ) M_θ(I_t, I_{t+1}) Mθ(It,It+1),从两个连续的 RGB 图像(即光流)。
另一个是位姿模块 P ϕ ( F t t + 1 ) P\phi(F_t^{t+1}) (Ftt+1),它从匹配结果中恢复相机运动 δ t t + 1 δ_t^{t+1} δtt+1(图 1)。
这种模块化设计也广泛应用于其他基于学习的方法,特别是无监督 VO
在这里插入图片描述

Training on large scale diverse data

泛化能力一直是基于学习的方法最关键的问题之一。之前的大多数监督模型都是在 KITTI 数据集或由微型飞行器(MA V)收集的 EuRoC 数据集 [36]。

大多数无监督方法也只在非常统一的场景中训练模型(例如 KITTI 和 Cityscape [37])。据我们所知,目前还没有基于学习的模型表现出在多种类型场景(汽车/MA V、室内/室外)上运行的能力。为了实现这一目标,我们认为训练数据必须涵盖不同的场景和运动模式。

TartanAir [11] 是一个大规模数据集,具有高度多样化的场景和运动模式,包含超过 400,000 个数据帧。它提供多模态地面真实标签,包括深度、分割、光流和相机姿势。场景包括室内、室外、城市、自然和科幻环境。数据通过模拟针孔相机收集,该相机在 3D 空间中以随机且丰富的 6DoF 运动模式移动。

我们在任务中利用单目图像序列 { I t } \{I_t\} {It}、光流标签 { F t t + 1 } \{F ^{t+1}_t \} {Ftt+1} 和地面实况相机运动 { δ t t + 1 } \{δ^{t+1}_t\} {δtt+1}。我们的目标是共同最小化光流损耗 L f L_f Lf 和相机运动损耗 L p L_p Lp。端到端损耗定义为:
在这里插入图片描述

Up-to-scale loss function

在大多数现有的基于学习的VO研究中,模型通常忽略尺度问题并尝试用尺度来恢复运动。如果模型是使用相同的相机并在相同类型的场景中进行训练和测试的,这是可行的。但一旦相机发生变化就不可行。

按照基于几何的方法,我们仅从单目序列中恢复最大尺度的相机运动。知道尺度模糊度只影响平移 T T T ,我们为 T T T 设计了一个新的损失函数,并保持旋转 R R R 的损失不变。我们为 L P L_P LP 提出了两个大规模损失函数:余弦相似度损失 L p c o s L^{cos}_p Lpcos 和归一化距离损失 L p n o r m L^{norm}_p Lpnorm L p c o s L^{cos}_p Lpcos 由估计的 T ^ \hat{T} T^ 和标签 T T T 之间的余弦角定义:
在这里插入图片描述

Cross generalization by encoding camera intrinsics

在对极几何理论中,从基本矩阵恢复相机位姿时需要相机本征(假设图像未失真)。事实上,基于学习的方法不太可能推广到具有不同相机内在特性的数据。想象一个简单的情况,相机更换了更大焦距的镜头。假设图像的分辨率保持不变,相同量的相机运动将引入更大的光流值,我们称之为内在模糊度。

对于内在模糊性的一个诱人的解决方案是扭曲输入图像以匹配训练数据的相机内在。然而,这不太实用,尤其是当相机差异太大时。如图2-a所示,如果模型在TartanAir上训练,扭曲的KITTI图像仅覆盖TartanAir视野(FoV)的一小部分。训练后,模型学会利用视场中所有可能位置的线索以及这些线索之间的相互关系。扭曲的 KITTI 图像中不再存在一些线索,导致性能急剧下降。
在这里插入图片描述

Instrinsics layer

我们建议训练一个以 RGB 图像和相机内部参数作为输入的模型,以便于该模型可以直接处理来自各种相机设置的图像。
具体来说,我们设计了一个新的姿态网络 P ϕ ( F t t + 1 , K ) P_\phi(F^{t+1}_t , K) Pϕ(Ftt+1,K),而不是仅从特征匹配 F t t + 1 F^{t+1}_t Ftt+1 中恢复相机运动 T t t + 1 T^{t+1}_t Ttt+1 ,该网络也取决于相机内在参数 K = { f x , f y , o x , o y } K = \{f_x ,f_y,o_x,o_y\} K={fx,fy,ox,oy},其中 f x f_x fx f y f_y fy是焦距, o x o_x ox o y o_y oy表示主点的位置。
在这里插入图片描述

Data generation for various camera intrinsics

为了使模型可以跨不同相机推广,我们需要具有各种相机内在特性的训练数据。
TartanAir 只有一组相机内在函数,其中 f x = f y = 320 、 o x = 320 f_x = f_y = 320、o_x = 320 fx=fy=320ox=320 o y = 240 o_y = 240 oy=240。我们通过随机裁剪和调整 (RCR,Randomly cropping and resizing) 输入图像大小来模拟各种内在函数。

如图3所示,我们首先在随机位置以随机大小裁剪图像。接下来,我们将裁剪后的图像调整为原始大小。
在这里插入图片描述
IL 的优点之一是,在 RCR 期间,我们可以使用图像裁剪 IL 并调整其大小,而无需重新计算 IL。为了覆盖 FoV 在 40° 到 90° 之间的典型相机,我们发现在 RCR 期间使用高达 2.5 的随机调整大小因子就足够了。
请注意,地面实况光流还应根据调整大小因子进行缩放。我们在训练中使用非常积极的裁剪和移动,这意味着光学中心可能远离图像中心。尽管所得的内在参数在现代相机中并不常见,但我们发现泛化能力得到了提高

Experimental

Network structure and training detail

PCW-Net作为匹配网络
修改过的ResNet50作为姿态估计网络

How the training data quantity affects the generation ability

如图4,我们设置了三个实验,其中我们使用20000(与KITTI和EuRoC相当)、100000和400000帧数据来训练姿态网络Pφ。实验表明,在看不见的环境中,通过训练损失和测试损失之间的差距来衡量泛化能力,泛化能力随着训练数据的增加而不断提高。
在这里插入图片描述

up-to scale loss function

在没有大规模损失的情况下,我们观察到,即使使用大量数据进行训练,训练和测试损失之间也存在差距(图5-a)。当我们分别绘制平移损耗和旋转损耗时(图5-b),这表明平移误差是造成间隙的主要因素。在我们应用第3.3节中描述的up-to scale loss function后,平移损失差距减小(图5c,d)。在测试过程中,我们使用[16,6]中描述的相同方法,将平移与真值对齐,以恢复规模。
在这里插入图片描述

Camera intrinsics layer

如表1所示,在前两列中,数据没有RCR增强,训练和测试损失较低。但这两个模型会对有RCR增强的数据上输出无意义的值。一个有趣的发现是,在只有一种类型的参数的情况下,添加IL并没有帮助。这表明,与基于几何的方法相比,该网络已经学习了一种非常不同的算法,在基于几何的算法中,相机内参是恢复运动所必需的。最后两列表明,当输入数据被RCR(即各种内部函数)增强时,IL是关键的。另一件有趣的事情是,用RCR和IL训练模型比只训练一种类型的内参(前两列)会导致更低的测试损失(最后一列)。这表明通过生成大量内参的数据,我们生成了一个更为鲁棒的VO模型。
在这里插入图片描述

Generalize to real-world data without finetuning

在这里插入图片描述

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

TartanVO: A Generalizable Learning-based VO 论文阅读 的相关文章

  • Java内部类总结

    Java内部类其实在J2EE编程中使用较少 不过在窗口应用编程中特别常见 主要用来事件的处理 其实 做非GUI编程 内部类完全可以不用 内部类的声明 访问控制等于外部类有所不同 要灵活使用内部类来编写程序 还是有相当难度的 Java发明了这

随机推荐

  • Web后台快速开发框架

    Web后台快速开发框架 Coldairarrow 目录 目录 第1章 目录 1 第2章 简介 3 第3章 基础准备 4 3 1 开发环境要求 4 3 2 基础数据库构建 4 3 3 运行 5 第4章 详细教程 6 4 1 代码架构 6 4
  • PC: 市场寒冬剖析

    市场调研机构Canalys数据显示 今年一季度 中国市场整体PC出货量同比下降24 至890万台 已是连续第五个季度下跌 今年截至618结束 都没有一家主要的PC厂商愿意发战报 PC市场怎样走出寒冬 谈谈你的理解和看法 PC 一 2022年
  • Rxjava学习(一)简单分析Rxjava调用流程

    本篇以Rxjava最简短的调用流程为例来分析 下面是要分析的实例代码 Observable create new ObservableOnSubscribe
  • 1140 石子游戏 II

    题目描述 亚历克斯和李继续他们的石子游戏 许多堆石子 排成一行 每堆都有正整数颗石子 piles i 游戏以谁手中的石子最多来决出胜负 亚历克斯和李轮流进行 亚历克斯先开始 最初 M 1 在每个玩家的回合中 该玩家可以拿走剩下的 前 X 堆
  • C++中传送函数指针

    随时随地阅读更多技术实战干货 获取项目源码 学习资料 请关注源代码社区公众号 ydmsq666 函数指针是一种非常好的类型 因此 可以编写一个函数 它的一个参数是函数指针 然后 在 外部 函数使用其函数指针参数时 就间接地调用在调用函数时对
  • vue路由

    路由 理解 一个路由 route 就是一组映射关系 key value 多个路由需要路由器 router 进行管理 前端路由 key是路径 value是组件 路由标签
  • 基于共享内存 实现Python 和c++ 传输图片

    需求 c 将图片写入共享内存 python读取 将c 写的共享内存的操作封装为一个so库 c 和python共同调用这个库 便于双方的操作 省去信号量的管理操作 一 c 写入端 int main int argc char argv Sha
  • GDB的使用方法

    GDB的使用方法 一 GDB的静态调试启动方法 1 当需要在命令行通过gdb来启动可执行程序的时候 可使用一下命令 gdb lt 可执行程序名 gt 这个时候gdb会加载可执行程序的符号表和堆栈 并为启动程序作好准备 接下来 需要设置可执行
  • Knight Moves_dfs_2018_3_10

    A friend of you is doing research on the Traveling Knight Problem TKP where you are to find the shortest closed tour of
  • Golang 中实现注解功能的思路分析

    文章目录 注解的作用 一些实现注解的开源 Golang 工程 Golang 中实现注解的基本思路 第一步 源码词法分析 第二步 代码生成 第三步 自动执行 番外 Golang 中一种代替注解的方案 注解的作用 提到注解 需要短暂的说明其前世
  • 开源协议(OSS License)详解

    表1 各种协议代表软件 BSD 也称修正BSD FreeBSD NetBSD OpenBSD MPL Firefox Thunderbird GPL Linuxkernel GIMP LGPL GTK OpenOffice org 表2 许
  • Win10上配置Paddle的PARL运行环境

    安装是根据B站百度强化学习视频中的方法 在Windows10环境上配置PARL 由于版本不匹配问题掉过坑 耽误了些时间 在此记录下 避免后续入坑 配置过程中从CSDN上也找到了一些有参考意义的文章 一并记录 方便学习 推荐好文强化学习PAR
  • 【1.9w字】彻底搞懂HTTP知识的面试题,建议精读收藏

    我很早之前写过一篇关于 HTTP 和 HTTPS 的文章 但对于 HTTPS 介绍还不够详细 只讲了比较基础的部分 所以这次我们再来深入一下 HTTPS 用实战抓包的方式 带大家再来窥探一次 HTTPS 如何理解 URI URI 全称为 U
  • 常见的部署类型(停机部署、蓝绿部署、滚动部署、灰度部署、AB测试等)

    目录 一 常见部署类型 二 停机部署 三 蓝绿部署 四 滚动部署 五 灰度部署 金丝雀 六 AB测试 一 常见部署类型 停机部署 Big Bang Recreate 把现有版本的服务停机 然后部署新的版本 蓝绿部署 Blue Green S
  • 误删Server后Tomcat服务器报错The Tomcat server configuration at \Servers\Tomcat v8.5 Server at localhost-conf

    The Tomcat server configuration at Servers Tomcat v8 5 Server at localhost config is missing 不小心误删Server服务器本地项目 发现run se
  • 【Node.js】中间件

    目录 什么是中间件 定义中间件函数 最简单的中间件函数 全局生效的中间件 定义多个全局中间件 局部生效的中间件 中间件的分类 应用级别的中间件 路由级别的中间件
  • 华为MateBook 16 2021款锐龙版R7(CREM-WFD9)(CREM-WFG9)原装出厂Win11系统工厂模式,恢复原厂系统

    HUAWEI华为笔记本电脑 MateBook 16 2021款 锐龙版 R7 CREM WFD9 CREM WFG9 原厂Windows11系统 带F10恢复功能 原装OEM专用系统 恢复出厂状态 系统自带所有驱动 出厂主题壁纸LOGO O
  • Python期末大作业 —— 射靶

    Python期末作业 作业的具体要求总结 Question 1 用turtle画图就不说了 不难 Question 2 最多有五个组 每个组最多有3个人 在添加成员时当超过3个时 需要跳出信息框进行提醒处理 添加成员的姓名不能为空 若没有输
  • 阿里云ecs上的一次神奇操作导致系统盘被占用但是找不到数据在哪里问题

    问题描述 在Linux中使用df hT命令查看硬盘占用情况 系统盘显示占用92 但是使用du h max depth 1 查看 目录实际占用情况 并没有全部占用 重上面两个图可以看出系统盘实际使用才36G 多出来51G被谁偷走了呢 问题出现
  • TartanVO: A Generalizable Learning-based VO 论文阅读

    论文信息 题目 TartanVO A Generalizable Learning based VO 作者 Wenshan Wang Yaoyu Hu 来源 CoRL 时间 2021 代码地址 https github com castac