论文笔记-Towards Scene Understanding-Unsupervised Monocular Depth Estimation

2023-05-16

论文信息
- 标题： Towards Scene Understanding: Unsupervised Monocular Depth Estimation with Semantic-aware Representation
- 作者：Po-Yi Chen, Alexander H. Liu, Yen-Cheng Liu, Yu-Chiang Frank Wang
- 机构：National Taiwan University, Georgia Institute of Technology, MOST Joint Research Center for AI Technology and All Vista Healthcare
- 出处：CVPR 2019
代码链接
- None
论文主要贡献
- 指出目前的基于左右一致性的无监督单目深度估计任务中可能存在误匹配问题
- 提出的 SceneNet 目标在于整合几何结构信息和语义信息，利用任务的一致性、左右语义一致性和语义指导的视差圆滑性等提高深度预测性能
- 端到端的训练方式使得模型能够从独立的跨模态数据集中进行学习训练，利用双目图像数据和语义标签数据同时训练网络
论文要点翻译
- 摘要
  - 单目深度估计从二维图像中获取三维空间的几何属性，是计算机视觉场景理解领域一个极具挑战的任务，由于实际应用中通常缺乏大量的 RGB-深度数据对，通常会利用双目立体图像之类的数据替换原有的监督信号，实现无监督的深度估计
  - 现有的许多方法难以对物体的几何结构进行建模，在训练中通常只是考虑像素级的目标函数
  - 本文提出 SceneNet 用于克服之前的局限，借助语义分割提供的语义信息帮助解决结合结构的建模
  - 提出的模型通过对双目图像对之间的语义一致性进行约束，实现区域级的深度估计
  - 实验结果证明了模型的有效性，和许多的 SOTA 方法一样生成了较好的实验结果
- 引言
  - 在机器人和自动驾驶领域，场景理解是一个很关键但是又极具挑战的任务。本文的场景理解目标在于通过从二维的场景图象分析得到三维的几何结构信息
  - 之前的许多方法通过监督学习的方式建立从图像到深度图的回归模型，但是对于这些方法而言，收集大量标注数据耗时耗力，因此也有的方法通过使用双目立体图像对或者视频序列来进行无监督的深度估计
  - 大多数深度估计方法通过重建场景的几何结构获取深度信息，对于人类而言，除了场景的几何结构，还会利用场景的语义信息去进行深度的判断（例如：一个人会将“天空”对应的像素点判断成深度无穷远的像素），此外，在同一个分割区域中的像素点的深度值应当是相近的、而且是相关的，深度值突变的地方通常是分割区域的边界
  - 基于上述的这些直觉观察，也有一部分工作提出挖掘语义分割任务和单目深度估计任务之间的相互促进作用，利用成对的深度图与分割图进行网络训练
  - 本文第一次指出，当前预测双目视差时经常只依赖于单张的图像，导致了测试过程中经常忽略了来自另一张图像的结构信息，进而影响了视差预测的性能，提出的 SceneNet 通过其中的训练方式避免误匹配的问题
  - 提出的模型通过利用语义理解信息，改进深度估计结果，如图1所示，
  - SceneNet 通过学习语义级的场景理解，进一步提高深度估计性能，模型是一个基于 encoder-decoder 结构的网络，输入场景图像，获取其特征表示，decoder 部分作为一个多任务、共享的分类器，将场景特征表示还原成深度图信息或者语义分割信息
  - 实现上述的双任务主要通过 task identity，即任务的一致性机制，使得共享的 decoder 可以在深度输出和语义分割输出两种输出中选择切换，基于条件的任务一致性信息，SceneNet可以看作一个多模态模型，将深度模态和语义分割模态结合
  - 左右语义一致性用于进一步加强几何信息和语义理解之间的联系，利用左右一致性和基于语义指导的视差圆滑性，两个自监督的损失函数用于优化深度估计和语义标签预测
  - 实验中，结果说明了 SceneNet 不仅可以生成高质量的深度估计结果，还能够实现集成几何、语义信息的通用场景理解，仅仅使用少量的语义标签数据，模型就能达到很好的深度估计性能
- 相关工作
  - 深度估计：传统方法、深度估计方法、半监督深度估计方法，无监督深度估计方法（双目图像、单目视频）
  - 语义分割的利用：【13，20，4，18】将语义分割和深度估计作为多任务进行联合的监督训练、【10】探索深度数据的长尾分布属性
  - 这些工作与本文工作的联系：本文使用一体的模型进行两个任务的联合训练；本文模型不需要成对的训练数据，两个任务之间的数据不成对；深度估计任务在模型中以无监督学习方式进行训练；虽然下游任务是不同的，模型还是以端到端的形式进行训练，不需要预训练或者模型的精调
方法
- SceneNet 的目标在于从单目图像预测致密的深度图；训练阶段，模型利用双目立体图像和RGB-分割图像数据对进行训练，模型不需要双目图像与分割图像成对
- 如图2所示，模型在编码器部分将场景图像 I 转换成特征表示 z，解码器将场景的特征表示 z 和任务一致性( task identity, 下一部分具体描述) 作为输入，得到最终的跨模态输出 Y ~ \tilde Y Y~
- 为了训练 SceneNet，本文将无监督深度估计和有监督语义分割任务中的目标函数结合，通过两个自监督信号训练网络
- Task Identity
  - 现有的工作将语义分割与深度估计当成是独立任务进行训练，用过任务具体的分类或者回归自网络得到视差图和分割图，但是这就需要针对不同任务分支对一些网络层数等超参数进行调整，因而限制了模型在不同数据集场景下的实际可用性
  - 为了解决这个局限，本文将跨模态任务进行融合，利用一个统一的解码器模型，在任务一致性 ( task identity) 的指导下。设置深视差图回国任务作为 t=1，语义分割任务作为 t=0，解码器根据输入的场景表示 z 和任务一致性 t，得到跨模态输出 Y ~ \widetilde Y Y ： Y ~ = D ( δ ( z , t ) ) \widetilde Y=D(\delta(z,t)) Y =D(δ(z,t))， δ \delta δ 是拼接操作，D 是跨模态解码器，最后一个网络层没有激活函数层
  - 具体来说，语义分割任务 s （图2中的红线）通过 s = σ c ( Y ~ s ) s=\sigma_c(\widetilde Y_s) s=σc(Y s) 计算，其中 Y ~ s = D ( δ ( z , t = 1 ) ) \widetilde Y_s=D(\delta(z,t=1)) Y s=D(δ(z,t=1)) ， σ c \sigma_c σc 是一个 softmax 函数
  - 是插入估计任务通过 d = σ b ( f μ ( Y ~ d ) ) d=\sigma_b(f_{\mu}(\widetilde Y_d)) d=σb(fμ(Y d)) 实现，其中 Y ~ d = D ( δ ( z , t = 0 ) ) \widetilde Y_d=D(\delta(z,t=0)) Y d=D(δ(z,t=0))， f μ f_\mu fμ 是像素级的平局池化操作， σ b \sigma_b σb 是 sigmoid 函数
  - 这其中预测的输出 Y ~ \widetilde Y Y 是依赖于设置的任务量 t 的，所以模型可以通过指定 t 的值进行模型最终输出模态的切换
  - 实现的统一化的解码器使得模型能够充分利用跨模态提供的语义信息和几何结构信息，对两个任务都进行了训练促进，实验结果进一步说明了模型的有效性
- 无监督深度估计
  - 利用重建损失的无监督深度估计：基于 RGB 图像和预测的视差图，从一个视角的图像合成得到另一个视角的图像，根据合成的图像和原本真实图像之间的重建损失进行模型的训练
  - L r e = ∥ I l − I ^ r → l ∥ + ∥ I r − I ^ l → r ∥ \mathcal{L}_{re}=\|I^l-\hat I^{r\to l}\|+\|I^r-\hat I^{l\to r}\| Lre=∥Il−I^r→l∥+∥Ir−I^l→r∥
  - 进一步利用左右视差的一致性和预测的视差图的圆滑性改进网络训练，得到最终的损失
  - L d e p t h = L r e + α l r ( ∥ d l − d ^ r → l ∥ + ∥ d r − d ^ l → r ∥ ) + α d s ( ∥ ∂ x d ∥ e − ∥ ∂ x d ∥ + ∥ ∂ y d ∥ e − ∥ ∂ y d ∥ ) \mathcal{L}_{depth}=\mathcal{L}_{re}+\alpha_{lr}(\|d^l-\hat d^{r\to l}\|+\|d^r-\hat d^{l\to r}\|)+\alpha_{ds}(\|\partial_xd\|e^{-\|\partial_xd\|}+\|\partial_yd\|e^{-\|\partial_yd\|}) Ldepth=Lre+αlr(∥dl−d^r→l∥+∥dr−d^l→r∥)+αds(∥∂xd∥e−∥∂xd∥+∥∂yd∥e−∥∂yd∥)
- 误匹配问题
  - Godard 等人的方法从左图同时预测左右的视差图，这可能不能准确的维持右图和右视差图的结构对齐性质，因为没有输入右图的结构和纹理信息，仅从左图估计右视差图本身是很困难的
  - 本文提出不直接从网络一张图片得到的两个视差图，而是只输出一张和输入图像对应的视差图，为了获取右图的视差图，使用水平方向的反转处理输入的右图
- 有监督语义分割
  - 现有的深度估计只注意像素级的深度回归，将所有像素的深度估计看作是一样的，导致视差估计在物体边缘的效果并不好，本文使用语义信息指导视差估计
  - 定义损失函数为真实语义标签与预测语义标签之间的交叉熵损失: L s e g = H ( s g t , s ) \mathcal L_{seg}=\mathcal H(s_{gt},s) Lseg=H(sgt,s)
- SceneNet 的自监督训练
  - 左右语义一致性
    - 使用左右图一致性作为重建损失，很容易受到左右图光照条件不一致的影响，因此替换使用更高级的语义信息作为一致性判断依据，不容易受到光照条件影响，语义一致性表达为： L l r s c = ∥ s l − s r → l ∥ + ∥ s r − s l → r ∥ \mathcal{L}_{lrsc}=\|s^l-s^{r \to l}\|+\|s^r-s^{l \to r}\| Llrsc=∥sl−sr→l∥+∥sr−sl→r∥
  - 语义指导的视差圆滑性
    - 为了约束语义的一致性，加上视差图的圆滑性，约束统一分割区域的像素对应的视差的圆滑性
    - L s m o o t h = ∥ d − f ↦ ( d ) ∥ ⨂ ( 1 − ∥ ψ ( s ) − f ↦ ( ψ ( s ) ) ∥ ) \mathcal L_{smooth}=\|d-f_{\mapsto}(d)\|\bigotimes(1-\|\psi(s)-f_{\mapsto}(\psi(s))\|) Lsmooth=∥d−f↦(d)∥⨂(1−∥ψ(s)−f↦(ψ(s))∥)
    - 其中的 ψ \psi ψ 代表每个通道最大值设置为1，其余值设置为0； ⨂ \bigotimes ⨂ 表示矩阵元素乘； f ↦ f_{\mapsto} f↦ 表示将输入在水平方向平移一个像素
  - 最终的训练目标
    - 最小化损失函数
    - L = L + α s e g L s e g + α l r s c L l r s c + α s m o o t h L s m o o t h \mathcal{L}=\mathcal{L}+\alpha_{seg}\mathcal{L}_{seg}+\alpha_{lrsc}\mathcal{L}_{lrsc}+\alpha_{smooth}\mathcal{L}_{smooth} L=L+αsegLseg+αlrscLlrsc+αsmoothLsmooth

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

towards

Scene

Understanding

Unsupervised

Monocular

论文笔记-Towards Scene Understanding-Unsupervised Monocular Depth Estimation 的相关文章

Understanding ECMAScript 6

原文内容列表简介浏览器与 Node js 兼容性这本书的受众概述帮助与支持Block Bindings var 声明与提升 Hoisting 块级声明循环中的块级绑定全局块级绑定
Unsupervised Data Augmentation For Consistency Training 论文阅读

Unsupervised Data Augmentation For Consistency Training 论文阅读 UDA这篇文章针对的是半监督学习中无标签数据的增强 xff0c 论文提出 xff0c 使用有标签数据的data agu
MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface Reconstruction论文翻译

机翻的这篇属实看不懂 Abstract 近年来 xff0c 神经隐式表面重建方法已成为多视图三维重建的流行方法与传统的多视图立体方法相比 xff0c 由于神经网络的归纳平滑偏差 xff0c 这些方法往往会产生更平滑和更完整的重建最先进
《Towards Efficient SpMV on Sunway Many-core Architectures 》读后笔记

记待解问题为y 61 Ax xff0c 采用了CSR格式存储矩阵核心思路 xff1a 多级数据并行具体分为两方面 xff0c 待计算数据的划分和计算核的划分下面分3部分进行说明 1 xff09 对稀疏矩阵进行三级数据划分 xff0c
论文解读 | Negative Margin Matters: Understanding Margin in Few-shot Classification, ECCV2020 spotlight

Motivation 在度量学习中 xff0c 一些方法额外加一个正的边界整合到 softmax 损失或余弦 softmax 损失 xff0c 以强制在真实标签类的分数比其他类的分数至少大一个 margin xff08 正的 xff09 这
MGNet：自动驾驶的单目几何场景理解 MGNet: Monocular Geometric Scene Understanding for Autonomous Driving

MGNet Monocular Geometric Scene Understanding for Autonomous Driving MGNet xff1a 自动驾驶的单目几何场景理解 ok xff0c 浅浅的点评一下好吧 xff0c
【阅读笔记】Towards Personalized Federated Learning个性化联邦综述

文章目录前言1 背景1 1 机器学习联邦学习1 2 促进个性化联邦学习的动机 2 个性化联邦学习的策略2 1 全局模型个性化2 1 1 基于数据的方法2 1 1 1 数据增强 Data Augmentation2 1 1 2 挑选客户端
UDA/语义分割-ColorMapGAN: Unsupervised Domain Adaptation for Semantic Segmentation Using Color Mapping G

ColorMapGAN Unsupervised Domain Adaptation for Semantic Segmentation Using Color Mapping Generative Adversarial Networks
faster rcnn论文_Scene Graph Generation领域近年论文分析

Scene Graph and Visual Relationship论文总结 2019 4 4 更新 2019 CVPR Learning to Compose Dynamic Tree Structures for Visual Con
TextFuseNet: Scene Text Detection with Richer Fused Features论文阅读

TextFuseNet Scene Text Detection with Richer Fused Features 利用更丰富的特征融合进行场景文本检测代码 xff1a https github com ying09 TextFuse
人体姿态估计综述（Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods）

1 总述 1 1 应用电影和动画虚拟现实人机交互视频监控医疗救助自动驾驶运动动作分析 1 2 挑战人体姿势估计所面临的挑战主要体现在三个方面 xff1a 灵活的身体构造表示复杂的关节间关节和高自由度肢体 xff0c 这可能会导致自我闭塞
Monocular Fisheye Camera Depth Estimation Using Sparse LiDAR Supervision

Paper name Monocular Fisheye Camera Depth Estimation Using Sparse LiDAR Supervision Paper Reading Note URL https arxiv o
Towards Adversarially Robust Object Detection 论文笔记

前言许多工作证明分类器在面对对抗攻击 xff08 adversarial attack xff09 时是非常脆弱的 xff0c 比如有一种对抗样本 xff0c 它只对原图进行很轻微地修改 xff0c 但是在视觉上与原图相比是完全不同的因
Holistic++ Scene Understanding论文翻译解析笔记

Holistic 43 43 Scene Understanding 摘要我们提出了一个新的3D整体场景理解问题 xff0c 它l共同解决了单视角图片的两个问题 xff08 1 xff09 整体场景的语义分析和重建 xff08 2 3D人
Scene窗口—Scene视图导航

Scene 视图导航 Scene 视图具有一组可用于快速有效移动的导航控件场景视图辅助图标场景视图辅助图标 Scene Gizmo 位于 Scene 视图的右上角此控件用于显示 Scene 视图摄像机的当前方向并允许快速修改视角和投
什么是“理解”？如何在人工智能中定义“理解”？(what is understanding ?)

这篇文章主要不是解释哲学上的理解而是在计算或者人工智能或是数学上定义理解对于人而言理解似乎是一件简单的事情在我们上课的时候我们能确切的知道是否理解老师所讲的内容在我们看书的时候我们能确切的知道书中的内容我们是否理解在我们与人
C#、Unity - 在场景之间保留/访问/修改值的最方便快捷的方法？

我寻找答案但仍然不知所措我有一些角色生成器它创建然后保存玩家角色变量它们被保存到一个新的脚本 PlayerCharacterData 中它是对象CharacterData的一个组件该对象具有DontDestroyOnLoad 因
iOS 中场景和视图的区别

我是 iOS 新手无法理解场景和视图之间的区别不幸的是苹果的文档对我没有帮助我读到场景就是你在屏幕上看到的但这不正是视图吗这两个术语可以互换吗如果不是功能和最佳实践有何区别 ViewController 如何在这两者中发挥作用
使用参数变量 Unity 加载场景

在我的游戏中有一个地图视图其中包含 50x50 的图块网格当你点击图块时你会被发送到该图块视图并攻击事物等就代码而言这些图块之间的唯一区别是图块 ID 即网格上的哪个数字该数字将在 init 时传递给服务器来处理其余部分
使矩形透明

我需要使鼠标绘制的矩形透明以便看到桌面下面的代码绘制了我的矩形我应该添加什么才能得到这个感谢帮助 public void start Stage primaryStage Group group new Group Rectangl

随机推荐

njupt 字典序最大的出栈序列

题意 xff1a 给出入栈序列 A xff0c 保证 A 各个元素值各不相等 xff0c 输出字典序最大的出栈序列如入栈序列 A 61 1 2 9 4 6 5 则字典序最大的出栈序列为9 6 5 4 2 1 栈的性质就是先进后出 xff0
SD-WAN设备白盒刷机

1 启动U盘插入盒子USB接口 2 PC与盒子通过串口线连接 xff0c 波特率为115200 3 加电 4 WAN接口接入网络 xff0c 保证可以访问外网 5 cd var 6 scp 64 122 96 93 166 root Fle
Android手机控制ZigBee板上LED

环境 xff1a Windows 编译器 xff1a IAREW8051 8 1 硬件 xff1a CC2530 协议栈 xff1a ZStack CC2530 2 3 0 1 4 0 手机 xff1a Android4 1 2 又重新开始
Windows 10 WSL2 安装Linux Xfce图形界面

一更新ubuntu 18 04 LTS软件源 xff0c 推荐使用国内的软件源 1 备份配置文件 xff1a cp a etc apt sources list etc apt sources list bak 2 修改sources l
Ubuntu终端快捷键打不开解决

ubuntu快捷键打不开终端问题描述 xff1a 快捷键打不开终端 xff0c 加装python3 9后 xff0c 就出现了gnome terminal报错和快捷键无法打开终端的问题解决方法 xff1a cd usr lib pyth
解决Win10 WSL2 IP地址经常变动导致docker容器无法正常访问

前提是Win10已经安装好WSL2 xff0c 且linux发行版已经安装docker 安装wsl2host wsl2host下载地址 xff08 https github com shayne go wsl2 host releases
关于BUG_ON()的一点笔记

关于BUG ON 的一点笔记最近在看isp1362的驱动经常看到这个BUG ON 在网上找了些相关资料 xff0c 现总结如下先看代码吧 lt asm generic bug h gt ifndef HAVE ARCH BUG defi
操作系统的各个版本和版本号对应

内核中使用PsGetVersion 函数可以查询到当前的操作系统信息 BOOLEAN PsGetVersion PULONG MajorVersion OPTIONAL PULONG MinorVersion OPTIONAL PULONG
云计算适合大专生学吗？

云计算适合大专生学吗 xff1f 对于大专毕业生来说 xff0c 云计算的确是一个不错的选择 xff0c 因为云计算技术应用专业 xff0c 主要就是专科院校在办学不管你是计算机相关专业的 xff0c 还是零基础想学习都是可以的 xff1
收藏，最简单易懂的MapReduce使用讲解

对于MapReduce相信大家并不陌生 xff0c 它是大数据Hadoop家族中最重要的成员之一 xff0c 是一个运行在Hadoop平台上的分布式计算框架 xff0c 对于大数据这块 xff0c 大家总是觉得高深莫测 xff0c 浅尝辄止
gcc-7.5.0源码安装

由于想学习gcc 收集资料时发现了一本关于gcc源代码相关的书籍 xff0c 书中基于的版本是gcc 4 4 0 于是想重新编译一个带调试信息的版本刚开始在ubuntu18 04上安装gcc 4 4 0时没有成功 xff0c 感觉是用系统
hdfs shell 操作基本语法

hdfs用户切换并查看文件 xshell登陆到linux服务器 root 用户切换以hdfs用户登陆查看创建的hive数据库是否以文件夹的形式存在hive文件目录下 su hdfs hdfs dfs ls apps hive wareho
js 多级对象数组删除对象

let firstIndex 61 null let secondIndex 61 null const findItemNested 61 arr itemId nestingKey 61 gt arr reduce a item myI
Aarch64安装Anaconda Pytorch Torchvision

1 Anaconda wget https github com Archiconda build tools releases download 0 2 3 Archiconda3 0 2 3 Linux aarch64 sh sudo
扩大VMWARE里面虚拟硬盘大小（*.vmdk）

http blog csdn net bshawk archive 2008 01 28 2070587 aspx 最近编译2 6 22的内核时 xff0c 发现虚拟机器FC6硬盘空间不够了 xff0c 于是乎 xff0c 想扩展下硬盘的大
c#加载xml文件

C 加载xml文件 XmlDocument xmlDoc 61 new XmlDocument xmlDoc Load Application StartupPath 43 34 34 43 34 xml xml 34 加载xml文件 Xm
zram

wiki zram是Linux内核的一个模块 xff0c 之前被称为 compcache zram通过在RAM内的压缩块设备上分页 xff0c 直到必须使用硬盘上的交换空间 xff0c 以避免在磁盘上进行分页 xff0c 从而提高性能由于
英飞凌 AURIX 系列单片机的HSM详解（2）——与HSM相关的UCB和寄存器

本系列的其它几篇文章 xff1a 英飞凌 AURIX 系列单片机的HSM详解 xff08 1 xff09 何为HSM 英飞凌 AURIX 系列单片机的HSM详解 xff08 2 xff09 与HSM相关的UCB和寄存器英飞凌 AURIX
MySQL数据库知识点总结

1 什么是 MySQL MySQL 是种关系型数据库 xff0c 在 Java 企业级开发中常常 xff0c 因为 MySQL 是开源免费的 xff0c 并且便扩展阿巴巴数据库系统也量到了 MySQL xff0c 因此它的稳
论文笔记-Towards Scene Understanding-Unsupervised Monocular Depth Estimation

论文信息标题 xff1a Towards Scene Understanding Unsupervised Monocular Depth Estimation with Semantic aware Representation作者 x

论文笔记-Towards Scene Understanding-Unsupervised Monocular Depth Estimation

论文笔记-Towards Scene Understanding-Unsupervised Monocular Depth Estimation 的相关文章

随机推荐

热门标签