【论文精读】IGEV-MVS:Iterative Geometry Encoding Volume for Stereo Matching

2023-11-16

今天读的是发表于CVPR2023的文章,作者全部来自于华中科技大学。
文章链接:Iterative Geometry Encoding Volume for Stereo Matching
项目地址:GitHub

Abstract

Recurrent All-Pairs Field Transforms(RAFT)在匹配任务中显示出巨大的潜力。 然而,all-pairs correlations缺乏非局部几何知识,并且难以解决不适定区域中的局部模糊性。 本文提出了迭代几何编码体(IGEV-Stereo),这是一种用于立体匹配的新深度网络架构。 所提出的 IGEV-Stereo 构建了一个组合的几何编码体,该体对几何和上下文信息以及局部匹配细节进行编码,并对其进行迭代索引以更新视差图。 为了加速收敛,利用 GEV 来回归 ConvGRU 迭代的准确起点。IGEV-Stereo 在 KITTI 2015 和 2012 (Reflective) 上所有已发布的方法中排名第一,并且是前 10 名方法中最快的。 此外,IGEV-Stereo具有很强的跨数据集泛化能力以及较高的推理效率。 我们还将 IGEV 扩展到MVS,即 IGEV-MVS,它在 DTU 基准上实现了有竞争力的精度。

1 Introduction

介绍了stereo和mvs相关的内容。

2 Related Work

介绍了以代价体为基础的方法,比如GCNet、ACVNet、GwcNet;介绍了迭代优化的方法,比如RAFT-Stereo。

3 Method

在这里插入图片描述

3.1 Feature Extractor

构造了2个特征提取器,一个是提取多尺度特征用于构建代价体,并指导代价体聚合,一个是上下文网络提取语境特征,用于ConvGRU里hidden state的初始化和更新。

3.2 Combined Geometry Encoding Volume

给定左右特征,创建一个group-wise correlation volume,把特征沿着channel维度分为8组,计算correlation maps。
只是基于feature correlations的代价体 C c o r r C_{corr} Ccorr缺乏捕捉全局几何结构的能力,为了解决这个问题,进一步使用3D正则化网络得到几何编码代价体 C G C_{G} CG。这个正则化网络是基于轻量3D UNet的,包含3个下采样模块和3个上采样模块。进一步,为了增大感受野,把视差pool得到一个两层的 C G C_{G} CG金字塔和all- pairs correlation volume C A C_{A} CA C G C_{G} CG C A C_{A} CA结合起来得到combined geometry encoding volume。

3.3 ConvGRU-based Update Operator

使用soft argmin来regress C G ( d ) C_{G}(d) CG(d)得到最初的视差 d 0 d_{0} d0,其中d是1/4分辨率时一组预定的视差indices。然后从 d 0 d_{0} d0,我们可以使用三层ConvGRU来迭代视差。
这一个部分和RAFT-Stereo类似。

3.4 Spatial Upsampling

通过 1/4 分辨率下预测视差 d k d_{k} dk 的加权组合输出全分辨率视差图。 与 RAFT-Stereo 以 1/4 分辨率从隐藏状态 h k h_{k} hk 预测权重不同,我们利用更高分辨率的上下文特征来获得权重。 我们对隐藏状态进行卷积以生成特征,然后将它们上采样到 1/2 分辨率。 上采样的特征与左图像中的 f l , 2 f_{l,2} fl,2 连接以产生权重 W ∈ R H × W × 9 W ∈ \mathbb{R}^{H×W×9} WRH×W×9。 我们通过粗分辨率邻居的加权组合输出全分辨率视差。

3.4 Loss Function

在这里插入图片描述
在这里插入图片描述
其中 γ = 0.9 \gamma=0.9 γ=0.9

4 Experiment

4.1 Implementation Details

使用Adam W优化器,在3090显卡上训练了200k次,batchsize=8,在KITTI 2012和2015上finetune,并使用了crop和数据增强。

4.2 Ablation Study

做了一些消融实验。
在这里插入图片描述
在这里插入图片描述

4.3 Comparisons

和SOTA方法做对比并且表现最好。

4.4 Zero-shot Generalization

因为大型的真实世界数据集很难获得,所以泛化能力就显得尤为关键了。直接在Middlebury 2014和ETH3D上进行测试,也获得了很好的效果。
在这里插入图片描述

4.5 Extension to MVS

在DTU上重新训练32个epoch,mvs版本相比起stereo版本移除了context network,这意味着ConvGRUs不会接触context stream。在DTU上获得了还行的效果,其实远不是SOTA,文章没有和最新的方法比。
在这里插入图片描述

5 Conclusion and Future Work

总结不说了,重点是未来工作。
使用轻量级 3D CNN 来过滤成本量并获得 GEV。 然而,当处理表现出较大视差范围的高分辨率图像时,使用 3D CNN 处理由此产生的大尺寸成本量仍然会导致较高的计算和内存成本。 未来的工作包括设计一个更轻量级的正则化网络。 此外,我们还将探索级联成本量的利用,使我们的方法适用于高分辨率图像。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文精读】IGEV-MVS:Iterative Geometry Encoding Volume for Stereo Matching 的相关文章

随机推荐

  • live555学习之一整体说明

    live555 是一套采用rtsp协议作为其核心 可以用来传输接收多媒体包括H264 H265 音频等多媒体数据的开源架构代码集 通过扩展一些类的方式 实现rtsp server 和client端的功能 并且提供源码 其源码 可以是从官网
  • python程序封装成exe_手把手教你给Python程序写图形界面,并且打包成exe文件

    环境配置 官网下载Python3 LZ的配置环境是Python3 6 PyCharm 2017 2 1 pip3 install PyQt5 下载PyQt5pip install PyQt5 tools i http pypi douban
  • 【嵌入式Linux】开发环境搭建

    一 概述 在进行某一个芯片平台开发前 一般都需要在电脑上安装一系列软件 然后在这些软件上阅读 编写 编译和调试在该平台上运行的代码 最后将编写好的代码通过某种方式烧录到该芯片的对应地址运行 在电脑上安装的这一系列软件的过程 就是开发环境的搭
  • Python数据类型——字符串、列表、元组

    文章目录 一 字符串 二 列表 三 元组 四 字符串 列表和元组的常用方法 一 字符串 在Python中 可以使用单引号或者双引号来创建字符串 单引号或者双引号没有任何区别 字符串也可以赋值给变量 字符串 str1 字符串 str2 字符串
  • Android Studio使用常见问题(一)

    一 无法成功build 1 出现如下错误 Error Unable to tunnel through proxy Proxy returns HTTP 1 1 400 Bad Request 2 原因分析 本地gradle版本与项目制定的
  • php代码学习(二)绕过空白过滤

    绕过空白过滤
  • 华为OD社招面试(技术二面完)--总结复盘

    2020年4月22日 华为OD社招面试复盘总结 一 华为OD简介 首先来解释一下什么是华为OD面试 OD一般是指的是华为的 外包 公司 比如像德科这种 网上其实有很多人都吐槽过这个招聘模式 因为招进去的人不直接是华为内部的人 挂在德科名下或
  • windows批处理:if else的踩坑点及排版优化

    参考 https www jianshu com p f0bde7d355a4 总结 见参考文章
  • python提取excel一列或多列数据另存为新表(1)

    系列文章目录 文章目录 系列文章目录 前言 一 python提取excel指定一列保存到新表 二 python提取excel指定两列保存到新表 总结 前言 一 python提取excel指定一列保存到新表 原数据举例如下 提取B列另存到新表
  • DFS深度优先搜索

    目录 一 DFS的概念 DFS的定义 DFS的搜索方式 DFS采用的数据结构 DFS的特点 二 DFS的实战应用 1 排列数字 2 n 皇后问题 一 DFS的概念 DFS的定义 DFS Depth First Search 深度优先搜索 是
  • 阈值分割法

    阈值分割法可以说是图像分割中的经典方法 它利用图像中要提取的目标与背景在灰度上的差异 通过设置阈值来把像素级分成若干类 从而实现目标与背景的分离 一般流程 通过判断图像中每一个像素点的特征属性是否满足阈值的要求 来确定图像中的该像素点是属于
  • chatGPT插件是什么,chatGPT插件作用介绍

    简介 openAI团队已经在 ChatGPT 中实现了对插件的初步支持 插件是专门为以安全为核心原则的语言模型设计的工具 可帮助 ChatGPT 访问最新信息 运行计算或使用第三方服务 目前体验与开发需要先加入等候名单 官网介绍链接 htt
  • java中如何导入同一个包下其他类文件中的方法,举个例子

    在 Java 中 可以使用 import 关键字导入同一个包下的其他类文件中的方法 例如 假设在同一个包 com example 下有两个类 ClassA 和 ClassB 那么可以在 ClassB 中导入 ClassA 中的方法 代码如下
  • LeetCode:二叉树的遍历方式(13道经典题目)

    LeetCode 二叉树的遍历方式 13道经典题目 本文带来与二叉树的遍历方法有关的经典题目 主要实现是C 144 二叉树的前序遍历 94 二叉树的中序遍历 145 二叉树的后序遍历 102 二叉树的层序遍历 107 二叉树的层序遍历 II
  • 盒模型BFC渲染机制

    目录 一 BFC基本慨念 二 BFC渲染规则 三 如何创建BFC元素 一 BFC基本慨念 一个块格式化上下文 block formatting context 是Web页面的可视化CSS渲染出的一部分 它是块级盒布局出现的区域 也是浮动层元
  • Python爬虫(JS逆向) 抓取POCO图片/Json数据处理/保存本地详细案例

    文章目录 目录 文章目录 前言 一 分析页面 二 逆向过程 2 1 分析参数 2 2 sign code值 2 3 扣代码 三 请求数据 处理Json数据以及把图片保存到本地 3 1 引入库 3 2 生成时间戳和参数 3 3 发起请求 四
  • SVN使用步骤

    1 基本操作 2 提交之间看一下变更内容 3 显示日志 是查看所有提交的记录 4 撤销和恢复操作 撤销本地修改 或者点击提交的时候 还原 把修改的撤销掉 第二种情况 内容已经提交上去了 点击提交日志 进行操作 只是撤销了本地 接着还需要继续
  • JS姓名和手机号脱敏处理

    export const mixins 身份证脱敏 methods 身份证号脱敏 setCertNo certNo if certNo certNo length gt 10 var certNo certNo trim let cert1
  • 单片机学习,设置一个密码锁

    用矩形键盘和LCD1602设置一个单片机 这是做完后所有所需要的文件 模板 具体模板以及功能参考我之前发的文章 51单片机常用的一些模块 模块化编程 延时函数模块 delay 独立按键模块 key 数码管模块 Nixie LCD1602模块
  • 【论文精读】IGEV-MVS:Iterative Geometry Encoding Volume for Stereo Matching

    今天读的是发表于CVPR2023的文章 作者全部来自于华中科技大学 文章链接 Iterative Geometry Encoding Volume for Stereo Matching 项目地址 GitHub 目录 Abstract 1