Burst Imaging for Light-Constrained Structure-From-Motion论文翻译记录

2023-05-16

准备开始2022ICRA的SLAM论文阅读记录

Abstract

在极低光照条件下拍摄的图像受噪声限制,会导致现有的机器人视觉算法失效。在本文中,我们开发了一种图像处理技术,用于从弱光条件下采集的图像中辅助三维重建。我们的技术基于突发摄影(burst photography),在短曝光图像内使用直接法进行图像配准,以提高基于特征的SfM的鲁棒性和准确性。我们在具有挑战性的光照受限场景中展示了改进的SfM性能,包括显示改进的特征性能和相机位姿估计的定量评估。此外,我们还表明我们的方法比最新的方法更频繁地收敛到正确的重建。我们的方法是向允许机器人在低光照条件下操作迈出的重要一步,对在地下矿井和夜间作业等环境中操作的机器人具有潜在的应用价值。

INTRODUCTION

当前和新兴的机器人使用视觉传感器进行广泛的任务,包括同时定位与地图构建( SLAM )、导航、位姿估计、深度估计和三维重建。现有 SfM和基于视觉的重建( e.g. [ 1 ]、)方法在良好的光照条件下表现良好,但在自动驾驶、无人机监控和地下开采等任务中无法实现低光照重建。当使用光照受限的图像时,最先进的方法[ 1 ]会产生错误的三维形状估计,不准确的相机轨迹,甚至在某些场景中无法收敛。这是因为图像中的低信噪比( Signal-to-Noise Ratio,SNR ),即没有检测到真实特征或伪特征,并与其他图像中的特征进行匹配以进行重建。

[1] J. L. Schonberger and J.-M. Frahm, “Structure-from-motion revisited,” in Proc. Comput. Vis. Pattern Recognit. , 2016, pp. 4104–4113.

Burst photography是一种成熟的移动摄影技术,它利用一系列曝光时间较短的连续帧通过合并产生具有更高信噪比的单幅图像[ 3 ] - [ 6 ]。突发成像已被证明可以在不需要额外环境光源的情况下提高图像的信噪比[4]。然而,现有的关于Burst photography的工作和正在进行的发展都转向了移动摄影,其主要目标是为人类的视觉感知提供有说服力的内容,同时考虑由于handshake(手抖?)和场景运动而产生的相机运动。

我们提出通过采用Burst photography来重建光受限场景。我们描述了一个成像pipeline,它捕获图像的多个突发bursts,并使用分层的tile-based(基于瓦片?)对齐来处理每个burst中的运动变化。我们使用投票机制将每个对齐的burst序列暂时合并到单个图像中,然后使用这些合并后的图像在基于特征点的SfM中重建场景(见图1)。我们还考虑在暂时去噪后的图像上分别加入空间滤波来评价混合去噪的效果。

图1. 受光线限制的场景可视化。(上图)机器视觉相机安装在机械臂上;(下图)黄色:使用我们提出的合并方法找到的110个匹配点对;红色:在连续传统噪声图像之间找到的43个匹配点对,无法收敛进行重建。需要注意的是,这个特定场景中36%的输入图像在传统噪声方法中找不到任何匹配,而我们的方法可以对所有输入图像进行注册以进行重建。我们的方法为依赖于运动的应用(如SfM)提供了更稳定的真实特征集和更少的伪特征。

我们的主要贡献是:

我们建立了在低光照下使用burst成像来提高机器人视觉的可行性,并为在SfM等重建任务中采用这种方法提供了一套建议;我们评估了机器人应用中不同的burst成像方法,并表明合并的burst拍摄在计算需求和性能方面都具有显著优势;我们提供了一个理论解释和实验证据来说明为什么会这样;我们提出的方法通过产生更精确的3D点,更多的真实特征,更少的伪特征,更精确的相机轨迹和在更低的光线下操作的能力来改善低光SfM

我们的方法假设图像中存在的噪声水平不会太大,以至于信息无法恢复(例如,基础信号被量化噪声抑制)。此外,我们假设连续的图像burst之间存在足够的重叠区域可用于对齐,对于相对于其环境移动速度适中的移动平台,这是普遍可用的。

为了验证我们的方法,我们在一个光照控制的环境中,将单目机器视觉相机安装在UR5e机器人臂上,并在不同的曝光时间下捕捉真实场景的多次拍摄图像。我们对20个场景进行了拍摄,每个场景捕捉了22次图像burst,其中包含了各种大小、形状和颜色的物体,共计捕捉了880个图像突发事件和6160张图像。我们发布了一个数据集,其中包含了在重复轨迹上捕捉的曝光时间为1毫秒和0.1毫秒的原始Bayer图像。代码和数据集可在https://roboticimaging.org/Projects/BurstSfM/ 上获得

为了评估我们的方法,我们将其与现有的替代方法进行比较,如图2所示:不合并每个图像突发事件中的所有图像的连拍方式和传统的单张图像捕捉。我们展示了我们提出的方法通过在重建中获得更多真实特征并且具有较高的特征定位精度以及较少的伪特征而优于替代方法,如图1所示。我们还展示了我们的方法在最小化收敛失败的情况下,能够准确估计相机的姿态轨迹,相比于现有的替代方法。这项工作为各种低光常常使视觉变得复杂的应用程序开辟了广泛的应用前景,例如自动驾驶和无人机配送。

图2。替代曝光方案(从上到下)- 传统嘈杂:在延长轨迹上捕获和处理单个帧是机器人技术中常用的方法,在低光条件下会产生嘈杂的图像。传统模糊:增加每个帧的曝光时间可以在牺牲信息丢失的情况下收集更多的光线,但会增加运动模糊。带合并的突发:所提出的方法捕获帧的突发,然后将它们对齐并合并为每个突发的一帧,提高信噪比,而不会损失信息,减少总体计算负载。不带合并的突发:跳过合并步骤,直接将所有突发图像输入到SfM流水线中;我们表明这种方法在性能和计算开销方面不如合并。视频:最后,视频捕捉所有可能的帧,计算开销高,低光性能差。Ta是一个N帧突发的持续时间,t是单个帧的持续时间,Tb是突发之间的延迟。

RELATED WORK

当优化低信噪比图像的相机曝光设置时,最终图像质量存在许多权衡利弊。常规相机可以通过扩大光圈缩小景深,或增加曝光时间来提高信噪比,但对于动态场景,增加曝光时间会增加运动模糊。

如图2所示,考虑备选曝光方案,连续拍摄一段时间的图像会产生视频。然而,在低光条件下,以完整的视频速率处理图像是计算密集的,而且每一帧图像的信噪比也很低。

一些现有的计算成像方法成功地打破了上述成像的权衡,并利用了图2所示的替代曝光方案,例如编码光圈[7]、灵活的景深摄影[8]、抖动快门[9]和运动不变摄影[10]。不幸的是,它们需要对成像传感器/相机进行硬件修改,而我们的重点是利用现有的单目相机,在低光下获取质量较高的图像用于机器人视觉。

该论文指出,学习技术在去噪[11]–[13]、去模糊[14]–[16]、去雾[17]–[19]和图像增强[20]–[22]方面展示了有希望的结果。然而,学习技术无法保证其在训练领域之外的泛化性[23]–[25]。与所提出的非学习方法相比,学习技术需要收集相应规模的数据集并进行培训。此外,学习技术还存在解释性和透明性的局限性[26],[27]。

单张图像的方法在本质上受到传统单张图像中信息量的限制。它们也倾向于通过学习的图像先验产生视觉上令人满意的结果,而不一定是准确的信息,这影响了它们在重建和跟踪等应用中的可靠性

Hasinoff等人[29]利用时间片优势,将burst成像作为夜间摄影的解决方案,通过捕获多个曝光不足的图像,并将它们合并以获得单个更高信噪比的图像。实现了在google pixel手机[4]、天体摄影模式[5]、多帧超分辨率[6]和使用学习方法[30]中的夜视功能。它也被适应为单光子传感器的量子爆发摄影[31]以产生高质量的图像。这个和移动摄影的其他之前的工作主要关注如何从捕捉到的一系列图像中制作出视觉上令人愉悦的静态图像,并且相机的运动非常小。在这项工作中,我们将爆发成像技术应用于低光场景下的扩展相机运动的3D重建。

我们的工作还考虑了比现有连拍摄影工作中通常使用的图像更具挑战性的图像。摄影应用必须产生适合人类观看的图像,这意味着需要相对较高的信噪比。另一方面,机器人应用可以容忍较低质量的图像,只要它具有信息量即可。与摄影的另一个关键区别是,机器人通常会在长轨迹上覆盖广泛的区域,这意味着需要多个图像序列。

我们在这项工作中将burst成像技术用于低光三维重建。我们通过结合特征点法SfM和burst成像技术来实现这一点,充分利用两者的优势。通过捕捉快速连续的帧,我们可以利用帧之间的小相机运动,以中等的计算成本获得较强的SNR优势,并采用直接方法进行图像配准[32]。在从合并的burst图像中提取特征后,我们应用基于特征点的SfM[1]来处理burst之间的大相机运动。特征点法可以处理大的相机运动[33],同时也可以从burst合并图像的改善特征质量中获益。

因为我们的方法将每个burst压缩成一个单独的去噪图像,所以相对于使用所有测量帧的方法,在重建期间的总计算量更低。此外,我们图像的更高信噪比可以减少虚假特征的数量,因此在重建期间降低了计算要求,因为需要检测和拒绝的异常值更少。

BURST-BASED SFM

这里我们回顾了burst摄影的重要方面[4],并解释了如何将其集成到SfM流程中。与[4]中一样,我们捕捉多个图像,建立它们之间的密集对应关系,然后使用时间投票方案将对准的图像堆叠起来。在burst内采用这种直接方法利用了帧之间的时间相干性,这在burst内表现为相对较小的照明变化和遮挡/曝光问题。然后我们从每个合并的burst中提取特征来处理与更大的时间尺度和burst之间的平移相关的外观变化。在这项工作中,我们进一步引入和评估了空间Wiener和双边滤波。

下面概述了图像采集、对齐、合并以及集成到重建流程中的内容。第五部分将讨论更多实践考虑。

A. Image Acquisition for Reconstruction

如图2所示,我们在运动轨迹上捕获多个burst,每个burst包含N个帧,每个帧的曝光时间为t,每个burst花费时间Ta,burst之间有延迟Tb。

每个burst中捕获更多的图像可以增加合并图像的信噪比,前提是有足够的图像重叠。然而,更多的图像也会在捕获、缓冲和处理方面增加计算负担,因此在选择burst中的图像数量时需要在质量和计算之间进行权衡。这取决于具体应用:在我们的实验中,我们使用N=7个帧的burst,这是通过实证评估得出的结果。有关详细讨论,请参见第V节。

B. Hierarchical Tile Alignment

为了解决burst中帧之间非均匀的运动问题,我们在单通道图像的多层高斯金字塔上执行粗到细的对齐,类似于[4]的方法。我们将一组像素作为一个tile,利用较粗的金字塔层级的初始估计,在每个金字塔级别上计算基于tile对的配准,通过最小化每个burst中的备选tile与公共tile之间的距离来实现[34]。

[4] S.W.Hasinoff et al. , “Burst photography for high dynamic range and low-light imaging on mobile cameras,” ACM Trans. Graph. , vol. 35, no. 6, pp. 1–12, 2016.

我们根据经验调整对齐过程的参数,以在处理时间和对帧之间的运动容忍度之间达到平衡。调整对齐参数的实际指导可在第V节中找到。

C. Robust Temporal Merge

我们采用 [4] 中提出的成对方法合并对准的图像。为了增加对运动的鲁棒性,这个方法在频域中使用每个图像的贡献来进行时间过滤。

这里的N是burst中的帧数TR(ω)是参考帧Tz(ω)是要添加到估计中的帧TR(ω)杠是更新后的估计。(公式中的过滤器f是在频域中定义的。具体而言,对于给定的频率ω,f(ω)表示在估计中考虑该频率的程度,因此,当两个帧的相位差异较小时,该频率的贡献将很高,否则将很低。合并图像时,采用基于这种时间滤波的加权平均策略,具体来说,将所有帧乘以过滤器的权重并求和,然后再进行归一化以得到最终图像。)

其中,Dz(ω)=TR(ω) - Tz(ω)表示要添加到估计值的帧与参考帧之间的差异σ2是噪声方差c是贡献度可以增加噪声减少程度但会损失是否对齐的容忍度。Burst成像对于快速运动不会降低图像质量,但随着图像之间的重叠度降低,质量收益也会减少。(速度太快就不行了)

为了排除异常值,我们排除掉那些具有较大差异Dz(ω)的参考帧和备选帧,使参考帧的权重更高。此外,我们采用升余弦加窗方法来避免与频域滤波相关的振铃效应,具体细节可以参考[4]。

如图3所示,我们还评估了添加噪声整形维纳滤波器和边缘保持双边滤波器以进一步降噪。

图3。我们通过将每个图像与burst中选择的参考图像进行对齐来改善捕获图像中的噪声。我们在时间方向上使用投票方案将对齐后的图像合并,以避免不良对齐。我们在合并后的图像上使用Wiener和双边滤波进行降噪。我们将这个流程的输出作为三个不同的输入提供给COLMAP进行重建,分别为:带有合并的burst、带有合并和Wiener滤波的burst以及带有合并和双边滤波的burst。

图4展示了align-and-merge方法的典型性能,与传统的capture方式相比,后者会产生噪声图像,而简单的平均法对运动敏感。burst with merge显示出更高的信噪比(SNR),对于N个图像的burst,SNR理想情况下会提高倍 [35]。

D. Reconstruction Pipeline

我们使用COLMAP [1],一种端到端的基于特征的最先进的重建流水线来提取、匹配和几何验证稀疏相机姿态之间的特征。我们通过三角化场景点并通过束调整进行精化来展示稀疏重建。我们按照 [36]、[37]中列出的重建和特征性能指标评估性能。

Reference
[1] J. L. Schonberger and J.-M. Frahm, “Structure-from-motion revisited,” in Proc. Comput. Vis. Pattern Recognit. , 2016, pp. 4104–4113.
[36] J. L. Schonberger, H. Hardmeier, T. Sattler, and M. Pollefeys, “Comparative evaluation of hand-crafted and learned local features,” in Proc. Comput. Vis. Pattern Recognit. , 2017, pp. 1482–1491.
[37] D. G. Dansereau, B. Girod, and G. Wetzstein, “LiFF: Light field features in scale and depth,” in Proc. Comput. Vis. Pattern Recognit. , 2019, pp. 8042–8051.

IV. RESULTS

以下,我们首先使用合成图像序列评估我们的方法在嘈杂图像中提供的特征检测和准确性的改进。通过使用合成场景,我们可以更好地控制噪声和场景内容,类似于先前的定量特征评估[37],[38]。然后,我们在SfM管道中定量评估我们的方法,比较传统图像采集和直接使用burst中的所有图像。我们考虑3D重建性能和相机轨迹准确性。

A. Feature Performance in Noise

我们生成了一组具有已知特征位置的合成图像,以展示不同噪声水平下的特征性能。我们使用合成噪声,其与出现在以下部分中的捕获图像的噪声水平密切对应。

本文中的第5图展示了具有25个不同尺度的圆盘的合成图像,每个图像之间的表面运动小于或等于12个像素。圆盘与背景之间的对比度为0.1。在合成图像中加入了噪声,噪声方差为0.03(顶部)和0.1(底部)。

图5.在合成图像上使用SIFT检测到的特征点,分别呈现了两个噪声水平σ。在较低的噪声水平(顶行)下,我们的方法表现良好,没有虚假的特征点,而传统的噪声方法和不合并的burst会产生更多虚假特征。在较高的噪声水平(底行)下,虽然我们的方法检测到了所有真实的特征点,但传统的噪声方法检测到了更多虚假特征和较少的真实特征,而不合并的burst则注册了大量的虚假特征。

我们在峰值阈值为0.015时提取尺度不变特征变换(SIFT)[39]特征。从图5可以看出,在中等噪声情况(σ = 0.03)下,burst with merge的性能优于burst without merge和传统的嘈杂方法,没有伪特征。虽然我们的方法在强噪声情况下提取了所有真实特征,但传统方法未能提取所有真实特征,burst without merge被大量的伪特征压倒。我们在这些具有不同噪声水平和峰值检测阈值的合成图像上量化地测量真阳性(TP)率和假阳性(FP)计数,如图6所示,对所提出的和传统方法都进行了测试。顶部行显示了在一系列噪声水平下,峰值检测阈值为0.006和0.01的TP率和FP计数。

在较低的噪声水平下,适当的峰值阈值可以提供极小的假阳性数量和更高的真阳性率。随着噪声的增加,我们的方法优于传统方法,可以提取更多的真实特征并减少假阳性数量。图6底部展示了两种不同噪声水平下,峰值检测阈值在0.006到0.03之间的两种方法的表现。我们的方法结果产生更少的假阳性和更多的真实特征。较低的假阳性数量导致较低的总体计算要求,因为需要评估和拒绝较少的疑似匹配。

图6。 噪声表现:(顶行)对于固定的检测阈值,我们的方法(蓝色)在扫描噪声级别σ时显示出比传统成像(红色)更高的真正阳性(TP)率和更低的假阳性(FP)计数。 (底行)在适当设置阈值时,我们的方法在高噪声下提供更高的TP率和更低的FP计数,比传统成像更好。总的来说,在噪声方面,我们的方法与传统方法相当或表现更好。

我们选择了峰值检测阈值为0.015,评估了提取出的真正阳性特征的定位精度与传统方法的比较,如图7所示。随着噪声水平的增加,我们的方法通过产生显著更低的特征定位误差而优于传统方法。

图7 .特征定位精度:在固定检测阈值为0.015的情况下,通过扫描噪声水平σ,我们的方法(蓝色)比传统成像(红色)获得了准确的特征定位。

B. Reconstruction Accuracy

本文中使用了FLIR FL3-U3-120S3C-C机器视觉单目相机,搭配一个f/2.1镜头,将其安装在一个UR5e机器人臂上,如图1所示。我们捕捉了大小为2992 x 2500的16个Bayer图像。我们对单个轨迹进行了22次7张图像的连拍,对20个场景进行了重复拍摄,这些场景包含了具有不同纹理、形状和大小的物体,并处于一个具有受控照明的环境中,如图8所示。

图8 .示例拍摄的图像,呈现出对象、纹理、形状和大小的多样性。整个数据集包含20个场景,每个场景包含7幅图像的22个burst。

我们在1毫秒和0.1毫秒曝光时间下捕获了我们的数据集,并在每种情况下调整增益以最大化对比度同时避免饱和。每个连拍内的明显运动通常约为相机视野的1/8,其中快速运动的示例可高达视野的1/4。

在我们的方法中分别使用burst with merge,burst with merge and Wiener filtering和burst with merge and bilateral filtering来生成20个不同的受光限制的场景的稀疏重建。我们将其与其他方法进行比较:使用burst without merge直接使用burst中的所有图像和传统的单图像捕捉,其中单个图像对应于burst的中心帧,如图2所示。

在对齐过程中,我们采用了具有8个 tile大小的4级粗到细的分层金字塔,并在整个实验中使用相同大小的重叠tile进行成对的时序合并。有关选择适当的tile大小和金字塔级别以实现稳健合并的进一步指南在第V节中讨论。

我们使用COLMAP默认设置,这意味着所有图像都使用常量特征峰值阈值0.0066。为了更公平地比较方法,我们还使用调整后的峰值阈值重复了实验,以适应每种方法产生的不同噪声水平。由于未合并的图像具有更多的噪声,因此需要更具选择性的峰值阈值。我们凭经验选择了0.001和0.005的峰值阈值,分别用于提出的方法和传统方法,因为这些阈值产生了类似的噪声特征检测水平。

最后,我们使用配置更加宽容的COLMAP重复了相同的实验,允许最少15个内点特征匹配的图像被用于SfM中。这对于处理具有挑战性的场景非常有用,并允许更多的图像用于SfM中。

根据[36]中的特征比较方法,我们在表格I中评估重建性能,包括每个图像的关键点数量、每个图像的特征匹配数量、被分类为内点的匹配数量、匹配比率:检测到的特征产生匹配的比例、精确度:匹配产生内点匹配的比例、匹配得分:检测到的特征产生内点匹配的比例、重建模型中的平均3D点数以及捕获图像中每个图像的平均3D点数。

在表格中,加粗表示最佳结果,红色表示来自竞争方法的最佳和次佳结果,绿色表示来自提议方法的最佳和次佳结果。在中等噪声水平下,即对于在1毫秒内捕获的图像,我们的方法(绿色)在所有指标上优于其他方法,通过默认设置为所有场景的所有图像重建。我们的方法比其他方法每张图像重建了数百个更多的匹配,并且每张图像的3D点数量是其他方法的两倍。

在更高的噪声水平下,即对于以0.1毫秒拍摄的图像,不是所有图像都能使用默认设置进行重建,因此我们通过调整峰值阈值进行评估。我们的方法成功地重建了所有场景,并具有每个图像最强的假设匹配、内点匹配、匹配比率、匹配分数和3D点数。

在4.70 GHz的Intel i7-9700上,我们的MATLAB burst成像实现需要6.54秒来对7个图像的单色突发进行对准和合并。我们希望这可以被大大加速。在对齐和合并之后,我们使用COLMAP进行重建,使用NVIDIA GTX770提取特征。完整的重建流程,包括对准和合并的时间,使用所提出的方法最快。对于22个burst中的154个图像数据集,对准、合并和SfM重建共计需要3.25分钟。相比之下,对于没有对齐或合并的22个常规图像需要6.32分钟,而对于所有154个未合并的图像需要49.58分钟。我们的方法产生较少的虚假特征,从而实现更快的处理时间。

C. Camera Trajectory Accuracy

我们通过使用机械臂收集地面真实姿态来评估相机轨迹估计的准确性。由于单目SfM中涉及到任意比例因子,因此我们将相机姿态对准地面真实姿态。我们在报告结果时使用的任意比例由第一对注册图像之间的距离确定。图9展示了我们的方法比竞争方法重建出更准确的相机姿态。

我们计算重建相机姿态和地面真实姿态之间的绝对误差和相对姿态误差,涉及平移和旋转,如表格II所示。颜色方案与表格I中使用的相同。绿色粗体数值显示我们的方法在中等噪声下具有竞争力,并且在强噪声下的平移误差指标中优于替代方法1厘米到4厘米。

图9. 特定场景(场景16)中的相机轨迹,以距离单位表示,即重建中第一对注册图像之间的距离度量。我们的结果使用所有输入图像重建准确的相机轨迹;另一种使用94.2%未合并的嘈杂输入图像重建的替代方法和使用95.5%传统嘈杂方法重建的方法产生不太准确的轨迹估计。

所有重建方法中的平均平移误差和平均旋转误差:我们的方法优于使用相同数量图像的传统嘈杂方法,并且与不需要合并的连拍方法表现竞争力,后者的图像数量是我们的方法的七倍。 粗体:最佳结果,红色:传统方法的最佳/第二佳结果; 绿色:我们的提出方法的最佳/第二佳结果。

V. D ISCUSSION

我们已经证明了,爆发式成像可以提高受光限制的SfM的性能,同时降低计算要求。

虽然我们的方法在合并一组图像时需要增加计算量,但这可以抵消假阳性特征检测率的降低,减轻了多余特征匹配和拒绝的负担。

爆发式成像方法在采集策略、对齐和合并参数、平台运动和场景内容方面存在多个权衡。在接下来的内容中,我们将根据本研究的实验结果和之前工作的已知结果,为特定的机器人应用调整爆发式成像的实际建议:

  • 尽可能增加曝光时间,以获得更高信噪比的图像,同时避免过多的运动模糊[6],从而提高重建性能。

  • 在拍摄低光图像时,固定模式噪声往往成为主要的噪声来源。可以通过减去与拍摄相同增益、传感器温度和曝光时间的多个暗帧的平均值来解决这个问题[40]。

  • 尽可能提高增益,以克服相机量化限制[41],但要避免过度饱和。这样可以放大信号和噪声。

  • 最大化每个突发中的图像数量以最大化合并图像中的SNR。图像计数最终受限于计算的可用性和场景的表观运动速率[ 3 ]。相对于参考框架的运动不应超过总框架的1 / 2。为此,我们还建议采用中心最多姿态作为参考来限制相对于参考框架的视运动。

  • 图像金字塔通过每个金字塔级别的搜索窗口大小来平衡计算工作量和对齐质量。增加金字塔层级计数和减小搜索窗口大小以避免局部极小- -这对于强噪声图像尤为重要[ 34 ]。在我们的实验中,保持图像大小至少为原始图像的1 / 16的3个或3个以上的金字塔层级产生了鲁棒对齐。

  • 对于突发内的快速运动,例如总帧数的1 / 4以上,增加搜索范围以允许更大的运动。在每个金字塔层级减少图像尺寸- -我们发现最好不要低于原始图像尺寸的1 / 16。更多关于突发成像运动鲁棒性的讨论参见文献[ 4 ]、[ 6 ]。

VI. CONCLUSION

我们采用了在移动摄影中常用的burst摄影来进行弱光下的重建。我们能够在突发内部使用直接方法进行图像配准,并使用基于特征的SfM来处理突发之间的稀疏性以进行重建。

与传统方法相比,我们展示了成功的重建,减少了由于不收敛而导致的失败案例。在真实特征、虚假特征、假设匹配、内点匹配、每张图像的3D点和准确的相机姿态估计方面,相对于传统成像的性能有所提高。与传统方法相比,该方法具有更快的重建速度和更低的总体计算要求。期望在更具挑战性的低光条件下,所提出方法可以提高三维重建的性能,并扩大基于特征的重建的应用范围。

该工作是解决弱光下三维重建问题的第一步。在今后的工作中,我们预计将采用自适应采样方案,动态地选择突发捕获和处理参数以适应这种情况。我们还期望互补传感器的融合产生有趣的结果。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Burst Imaging for Light-Constrained Structure-From-Motion论文翻译记录 的相关文章

随机推荐