ICCV 2023

2023-11-19

ICCV 2023 | MPI-Flow：从单视角构建的多平面图像中学习光流

引言：
主要贡献：
Motivation：
算法细节：
实验结果：

来源：ICCV 2023
作者：Yingping Liang 等
机构：北京理工大学
论文题目：MPI-Flow: Learning Realistic Optical Flow with Multiplane Images

开源代码：https://github.com/Sharpiless/MPI-Flow

引言：

基于学习的光流估计模型的准确性在很大程度上依赖于训练数据集的真实性。目前，生成这类数据集的方法要么使用合成数据，要么以有限的真实性生成图像。然而，这些数据与真实世界场景的领域差距，限制了训练模型的泛化到真实世界的应用。
FlyingThings3D 数据集

主要贡献：

为了解决这个问题，本文研究从真实世界的图像中生成真实的光流数据集：

首先，为了生成高度逼真的新图像，本文从单视图图像中构建了一个分层深度表示法，称为多平面图像（MPI）。这使得我们能够生成高度逼真的新视角图像。为了生成与新图像准确对应的光流图，本文使用相机矩阵和平面深度来计算每个平面的光流。然后，本文将这些分层的光流投影到具有体积渲染的输出光流图中。
其次，为了保证运动的真实性，本文提出了一个独立的物体运动模块，可以在MPI中分离摄像机和动态物体运动。该模块解决了基于mpi的单视图方法的缺陷，其中光流仅由摄像机的运动产生，而不考虑任何物体的运动。
此外，本文还设计了一个深度感知的内部绘制模块来合并新的图像与动态对象，并解决非自然的运动遮挡。

通过在真实数据集上的大量实验，本文展示了提出的方法的优越性能。此外，提出的方法在基于学习的模型的无监督和监督训练中都取得了最先进的性能。

Motivation：

在这里插入图片描述

近年来，随着神经网络的快速发展，与传统的基于模型的算法相比，基于学习的算法取得了重大进展。传统的实践主要依赖于合成数据，其中，合成数据包含精确的光流标签和动画图像。然而，合成数据和真实数据之间的领域差距阻碍了它在现实应用中的进一步改进。

最近的研究旨在是利用手工制作的特殊硬件，从真实数据中提取光流。然而，严格控制和低效的收集程序限制了它们的适用性。为了解决这个问题，Depthstillation [1] 和 RealFlow [12] 被提出，利用随机运动将真实图像中的每个像素投影到新的视图帧上，并通过虚拟摄像机合成光流。尽管如此，这两种方法都受到了缺乏图像真实性的限制，导致了诸如碰撞、孔洞和伪影等问题。这些限制限制了基于学习的光流模型的实际性能。

在这里插入图片描述

为了实现更高的图像真实感，本文将注意力转向使用单视图多平面图像（MPI）。这系列工作展示了显著的单视图图像渲染能力，并有效地减少了以前方法中常见的碰撞、孔和伪影。这些进步有助于提高更高的图像真实感，引发了一个自然的问题：高真实度的MPI方法能否用于生成用于训练目的的高质量光流数据集？

为此，本文提出了MPI-Flow，旨在从真实世界的图像中生成具有真实感的光流数据集。具体来说，本文首先回顾了 MPI 的图像合成管道，并设计了一个伴随图像合成的光流生成管道：MPI-Flow。在这一步中，本文通过将预测的颜色和密度扭曲到每个分层平面上来构建一个 MPI。然后，颜色和密度被映射到一个真实的新图像通过体积渲染。利用分层平面，本文从渲染图像和真实图像中提取具有虚拟摄像机运动的光流。

其次，由于MPI只能应用于静态场景，产生有限的运动真实性，本文提出了一个独立的物体运动模块和一个深度感知绘画模块来解决这个问题。独立对象运动模块将动态对象与静态场景解耦，并应用不同的虚拟摄像机矩阵来计算动态和静态部分的运动。最后引入一种深度感知的图像修复模块，来消除合成新图像中的对象遮挡。

算法细节：

在这里插入图片描述
本文提出的 MPI-Flow 框架采用单视图图像作为输入，并通过估计深度来构建MPI，其中每个平面的RGB和密度由神经网络预测，每个平面的光流由摄像机矩阵计算。新视图和光流图都是通过体渲染来渲染的，并由带有新视图对象掩模的独立对象运动模块来分隔。新图像通过深度感知的图像合并。

Optical Flow Data Generation

为了在目标新视角下渲染真实的图像，我们以可区分的方式从原视角的 MPI 进行像素扭曲。具体来说，我们使用神经网络预测在源视角下使用颜色通道、密度通道和深度（ c n , σ n , d n \mathbf{c}_n, \boldsymbol{\sigma}_n, \mathbf{d}_n cn,σn,dn）：

{ ( c n , σ n , d n ) } n = 1 N = F ( I s , D s ) \left\{\left(\mathbf{c}_n, \boldsymbol{\sigma}_n, \mathbf{d}_n\right)\right\}_{n=1}^N=\mathcal{F}\left(\mathbf{I}_s, \mathbf{D}_s\right) {(cn,σn,dn)}n=1N=F(Is,Ds)

其中 I s \mathbf{I}_s Is 和 D s \mathbf{D}_s Ds 分别是原始视角 s s s 下的图像和深度， N N N 是一个预定义的参数，表示 MPI 中的平面数量。

因此，新视角下图像平面上的每个像素 ( x t , y t ) (x_t, y_t) (xt,yt) 都可以通过同源函数[映射到第 n n n 个源 MPI 平面上的像素 ( x s , y s ) (x_s, y_s) (xs,ys)：

[ x s , y s , 1 ] T ∼ K ( R − t n T d n ) K − 1 [ x t , y t , 1 ] T \left[x_s, y_s, 1\right]^T \sim \mathbf{K}\left(\mathbf{R}-\frac{\mathbf{t n}^T}{\mathbf{d}_n}\right) \mathbf{K}^{-1}\left[x_t, y_t, 1\right]^T [xs,ys,1]T∼K(R−dntnT)K−1[xt,yt,1]T

其中， R \mathbf{R} R 和 t \mathbf{t} t 为从源视角到目标视角的旋转和平移矩阵， K K K 为相机固有内参， n = [ 0 , 0 , 1 ] \mathbf{n} = [0,0,1] n=[0,0,1] 为法向量。因此，每个新平面的颜色和密度可以通过双线性采样得到。然后我们使用新平面和通过场景的任意光线之间的离散交点来估计积分：

I t = ∑ n = 1 N ( c n ′ α n ′ ∏ m = 1 n − 1 ( 1 − α m ′ ) ) \mathbf{I}_t=\sum_{n=1}^N\left(\mathbf{c}_n^{\prime} \boldsymbol{\alpha}_n^{\prime} \prod_{m=1}^{n-1}\left(1-\boldsymbol{\alpha}_m^{\prime}\right)\right) It=∑n=1N(cn′αn′∏m=1n−1(1−αm′))

其中 α n ′ = exp ⁡ ( − δ n σ n ′ ) \boldsymbol{\alpha}_n^{\prime}=\exp \left(-\boldsymbol{\delta}_n \boldsymbol{\sigma}_n^{\prime}\right) αn′=exp(−δnσn′)， δ n \boldsymbol{\delta}_n δn 是平面 n n n 和 n + 1 n + 1 n+1 之间的距离映射。

虽然基于mpi的方法可以合成真实的图像，但也需要可靠的光流图来训练基于学习的光流估计模型。因此，我们建议在每个平面上增加一个额外的光通道。

为此，我们计算了源图像在像素为 ( x s , y s ) (x_s, y_s) (xs,ys) 处的第 n 个平面上的光流为：

f n = [ x t − x s , y t − y s ] \mathbf{f}_n=\left[x_t-x_s, y_t-y_s\right] fn=[xt−xs,yt−ys]

通过用反等价形式的向后 Warp 过程：

[ x t , y t , 1 ] T ∼ K ( R † − t † n T d n ) K − 1 [ x s , y s , 1 ] T \left[x_t, y_t, 1\right]^T \sim \mathbf{K}\left(\mathbf{R}^{\dagger}-\frac{\mathbf{t}^{\dagger} \mathbf{n}^T}{\mathbf{d}_n}\right) \mathbf{K}^{-1}\left[x_s, y_s, 1\right]^T [xt,yt,1]T∼K(R†−dnt†nT)K−1[xs,ys,1]T

为了确保光流图与新的视图图像完美匹配，我们建议同样用体积渲染获取最终的光流标签：

F s → t = ∑ n = 1 N ( f n α n ∏ m = 1 n − 1 ( 1 − α m ) ) \mathbf{F}_{s \rightarrow t}=\sum_{n=1}^N\left(\mathbf{f}_n \boldsymbol{\alpha}_n \prod_{m=1}^{n-1}\left(1-\boldsymbol{\alpha}_m\right)\right) Fs→t=∑n=1N(fnαn∏m=1n−1(1−αm))

Independent Object Motions

为了模拟更真实的运动，我们建议应用从场景中提取的对象和静态背景的虚拟运动。因此，我们利用实例分割网络提取源图像中的主对象掩码。

然后，分别对背景和前景使用不同的相机运动，来模拟运动场场景。
在这里插入图片描述
如图所示，在添加独立运动前，物体和场景有相似的光流，因为他们运动方向保持一致。

添加独立运动后，物体跟场景有了分离的运动方向，更符合真实场景运动。

Depth-Aware Inpainting

虽然合并后的图像具有真实的视觉效果，但由摄像机运动和物体运动引起的深度变化也会导致非自然的遮挡。为了解决这个问题，我们使用体积渲染来获得场景新视图的深度：

D t = ∑ n = 1 N ( d n ′ α n ′ ∏ m = 1 n − 1 ( 1 − α m ′ ) ) \mathbf{D}_t=\sum_{n=1}^N\left(\mathbf{d}_n^{\prime} \boldsymbol{\alpha}_n^{\prime} \prod_{m=1}^{n-1}\left(1-\boldsymbol{\alpha}_m^{\prime}\right)\right) Dt=∑n=1N(dn′αn′∏m=1n−1(1−αm′))

用同样的方法也可以得到物体新视角的深度。然后，我们利用这两个深度来计算新视图之间的占据掩模，并修复物体和场景的前后遮挡关系，如图所示：

在这里插入图片描述

实验结果：

为了评估所提出方法的有效性，MPI-Flow 在广泛使用的真实光流数据集上进行了实验：KITTI 数据集，并测试了不同来源的原始单目图像数据对结果的影响。
在这里插入图片描述

表一给出了交叉数据集的验证结果，以及与其他来自真实图像或视频的数据集生成方法的比较。“Image Source”列表示用于光流训练数据生成的图像数据集。报告了使用不同方法在不同数据集上训练的 RAFT 的评价结果（使用 C+T 进行预训练）。鉴于 RealFlow 无法处理来自 COCO 的单视图图像，该结果标注为“N/A。花括号“{}”表示对未标记的评估集的使用，这个表中表示 KITTI 15 训练集。

在这里插入图片描述
消融实验表明，在原始图像数量相同的情况下，使用更多的随机运动合成更多数据，有助于进一步提高性能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ICCV 2023 的相关文章

深度好文：最全的大模型 RAG 技术概览

本文是对检索增强生成 Retrieval Augmented Generation RAG 技术和算法的全面研究对各种方法进行了系统性的梳理涉及了 RAG 流程中的数据拆分向量化查询重写查询路由等等在做 RAG 的小伙伴一定知道
用通俗易懂的方式讲解：图解 Transformer 架构

文章目录用通俗易懂方式讲解系列 1 导语 2 正文开始现在我们开始编码从宏观视角看自注意力机制从微观视角看自注意力机制通过矩阵运算实现自注意力机制
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
什么是充放电振子理论？

CHAT回复充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型这个模型把ENSO现象比喻成一个热力学振荡系统在这个模型中 ENSO现象由三个组成部分充电 Char
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

SSM 基础面试题

什么是 MyBatis 参考答案 1 MyBatis 是一个半自动 ORM 对象关系映射框架它内部封装了 JDBC 开发时只需要关注 SQL 语句本身不需要花费精力去处理加载驱动创建连接创建 statement 等繁杂的过程程序
VMware 中的 Ubuntu 虚拟机看不到共享文件夹怎么办？

初学Linux 在VMWare 上装了Ubuntu14 04 主机端和虚拟机相互间的访问是必不可少的途径有许多其中vmware tool提供的共享文件夹方式简单又方便然而有时却莫名其妙的在Ubuntu上看不到共享文件夹了网上查了
【vue3+elementplus】动态设置二次封装的el-form组件中的v-model绑定的变量名

众所周知在form表单中 el select el input等需要使用v model绑定变量这个变量就是当前选择输入的内容一般会取ruleForm作为入参
java对象赋值给另一个对象_java注解实现对象的属性赋值，从此少写代码，快乐生活...

各位志同道合的朋友们大家好我是一个一直在一线互联网踩坑十余年的编码爱好者现在将我们的各种经验以及架构实战分享出来如果大家喜欢就关注我一起将技术学深学透我会每一篇分享结束都会预告下一专题我们平时在做一些业务时从前台获取的数据用
自定义模块导入错误

当在python2 7 导入自定义模块发生Importerror No module named xxx时可将模块所在路径拷贝到E xxx python2 7 Lib site packages下再进行导入则可解决问题经过多方的摸索
MobaXterm出现X11-forwarding : ✘ (disabled or not supported by server)及conda: command not found等问题

x11 forwarding disabled解决办法 3L csdn的博客 CSDN博客如何安装X11 xorg https www cnblogs com yun qi p 16201843 html如何解决在Ubuntu中使用x11
机器学习之线性回归——OLS，岭回归，Lasso回归

机器学习之线性回归线性回归最小二乘法 OLS 岭回归 Ridge Regression Lasso回归 OLS 岭回归 Lasso回归之间对比线性回归什么是线性回归呢其实线性回归是统计学中的线性回归 Linear Regress
java 中的指针_Java中的指针

java 中的指针 Java中有指针吗简短的答案是不没有这对于许多开发人员来说似乎是显而易见的但是为什么对其他人却不那么明显呢 http stackoverflow com questions 1750106 how can i
STM32实现HID键盘

上面是我的微信和QQ群欢迎新朋友的加入这个帖子不是技术贴是成品分享贴电路设计实物图软件设计功能说明 1 固件通过虚拟U盘升级 2 自定义按键功能全键盘 3 七彩灯颜色设置 4 多媒体按键功能 5 支持按键双击和单击操作 6
c语言药房管理系统

include
VisualStudio代码片段管理

文章目录前言 1 查看代码片段 2 插入代码片段方式 3 使用扩展创建代码片段 3 1 安装VS2019的扩展 3 2 使用扩展创建代码片段 4 不知为何 VS2022我安装一直有问题扩展安装成功但是新建文件没有 Snippet De
Unity 运行FixedUpdate()无响应

问题最近在学习unity时根据史上最全Unity3D教程哔哩哔哩 bilibili 在Visual Studio中编写如下代码时 Unity的Console面板并没有输出预期的信息即按每个固定帧速率的帧调用FixedUpdate
Matlab导出动态链接库dll

1 新建 m文件内容 function c Add a b c a b end 保存为 Add m 2 命令行输入 gt gt mex setup MEX configured to use Microsoft Visual C 2013
各种注释总结

jsp注释 html注释
C语言—指针

文章目录 1 指针 1 1 指针的定义 1 2 和 1 3 指针与堆内存 1 4 指针运算 1 5 常量指针与指针常量 1 5 1 常量指针 1 5 2 指针常量 1 6 函数指针 2 指针与数组 3 指针与函数 4 指针与链表 4 1 链
cmake中的编译选项

CMake是一个跨平台的构建系统它可以根据简单的配置文件生成各种平台的构建工具例如Makefile Visual Studio项目文件等 CMake使用CMakeLists txt文件来描述项目的构建规则和依赖关系在这个文件中可以设
浅谈opencv3.2中各个模块的简介

3 2版本的模块说明 Opencv3 2模块首先打开opencv modules hpp文件可以看到对于各个功能模块的定义如下 This file defines the list of modules available in cur
分享几个项目中用到的设计模式

前言之前项目中出于扩展性和有雅性的考虑使用了多种设计模式进行项目框架的设计主要的一些设计模式是单例模式工厂模式策略模式责任链模式代理模式这几种现在依次讲讲这几个的主要是实现方式和在我们项目中的应用场景核心设计模式分享单例
WPF TextBlock 实现点击事件

TextBlock 标签里定义MouseLeftButtonDown 事件 xaml cs
ICCV 2023

ICCV 2023 MPI Flow 从单视角构建的多平面图像中学习光流引言主要贡献 Motivation 算法细节 Optical Flow Data Generation Independent Object Motions Dep

ICCV 2023

ICCV 2023 | MPI-Flow：从单视角构建的多平面图像中学习光流

引言：

主要贡献：

Motivation：

算法细节：

Optical Flow Data Generation

Independent Object Motions

Depth-Aware Inpainting

实验结果：

ICCV 2023 的相关文章

随机推荐

热门标签