CVPR 2023

2023-11-20

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：Oliiiver（源：知乎）| 编辑：CVer公众号

https://zhuanlan.zhihu.com/p/646574198

Context-aware Pretraining for Efficient Blind Image Decomposition

文章链接：

https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_Context-Aware_Pretraining_for_Efficient_Blind_Image_Decomposition_CVPR_2023_paper.pdf

作者：Chao Wang, Zhedong Zheng, Ruijie Quan, Yifan Sun and Yi Yang

代码：https://github.com/Oliiveralien/CPNet

引言：

传统的天气修复如去雨、去雪、去雾等任务，在各自的领域都取得了良好的性能。然而，这些工作通常聚焦于单种类型天气，如图：

真实世界中的恶劣天气（雨滴，雨流，雾，雪等）往往是组合出现的，这对于干净图像的修复提出了更高的挑战。针对这一问题，J. Han等人提出了 Blind Image Decomposition (BID)[1]，即将不同天气看做组合随机，强度随机，可叠加的图层，通过图像分解[2]的方式恢复所有的叠加元素 (包括干净图像)。实际上，BID可以理解为Deraining，Dehazing，Raindrop and Snow Removal等多种天气恢复的组合任务。

概述：

自BID任务提出 (BIDeN, ECCV22) 以来，仍存在两个主要问题：

现有方法需要大量数据的监督，然而高质量的图像对在恶劣的现实世界场景中通常无法获取。而合成数据集受限于手工设计的天气退化模型，不可避免地会限制最终的修复质量。
图像分解致力于通过完备的监督信号还原出包括噪声天气在内的所有图层，指向各图层的 multi-head decoder 会限制模型的结构设计与优化（如上图(e)），"decomposition" 的模式似乎也与经典的图像映射思维有些矛盾。

为了解决上述问题，我们结合 Masked AutoEncoder (MAE)[3] 提出了一种高效且简单的预训练模式：Context-aware Pretraining (CP)，
包含两个 pretext 任务：混合图像分离和损失图形重建。
假设图像的恢复过程遵循从结构到纹理的模式 (coarse-to-fine)[4]，我们的思路很简单，首先利用两个 pretext 任务在预训练阶段重建出结构信息，随后再 fine-tuning 阶段即可快速地基于结构进行纹理填充。

方法:

为了验证所提出pretext任务的有效性，我们构建了一个基线网络 Context-aware Pretrained Network (CPNet), CPNet包含两个transformer-based 的编码器，一个信息融合模块以及一个预测解码器。

在预训练期间，我们混合两个pretext任务，并从编码器获得上下文感知嵌入，然后应用解码器从嵌入中恢复原始的结构信息 (RTV平滑)[5]。其中，信息融合模块明确地利用了空间通道维度中的关联特征，而多头预测模块促进了纹理引导的外观流 (appearance flow)。
尽管简单，但自监督的预训练编码器在减少对标注需求的同时，显式地促进了基于上下文的特征学习。通过 Fine-tuning 阶段的高斯采样，外观流得以显式地利用原图中未遮挡区域的纹理特征。

损失函数方面，除了传统的重构和对抗损失，针对 appearance flow map，我们提出了一个新的采样损失：

其中分子项确保外观流经过 (Δx, Δy) 的 offset 后的纹理匹配，分母则对预训练的结构修复提出进一步的约束。

此外，BID 任务同样可以被看作是一类图像属性编辑任务 (image translation)[6]，其中初始属性标签为随机 one-hot 编码（天气组合随机，1 表示图像受此天气影响），最终目标为全 0 的 attribute label。因此我们额外引入了一项条件损失：

其中P_i(x)代表的就是图像 x 具有第 i 种天气特征的概率。

实验:

1. 定量实验：

基于我们的模型做了一些finetune，可以在下游任务上得到较好的提升，特别是针对混合天气复杂的场景下，预训练带来的好处越明显。

相对于 multi-head decoder 的训练模式，同样在多天气混合数据集上训练，我们的模型在特定单一天气的测试集上仍保持较好的稳定性。

2. 定性实验

训练后我们观察到网络可以在多种天气混合的场景下实现较好的复原，如下图。

此外我们也尝试了可视化两个 encoder 特征中激活值较大的区域。可见图像分离和重建两个 pretext task 任务的侧重点并不相同，并且通过控制目标 attribute label，可以实现特定涂层的保留与去除。

参考

Blind Image Decomposition https://arxiv.org/abs/2108.11364
Deep adversarial decomposition: A unified framework for separating superimposed images https://github.com/jiupinjia/Deep-adversarial-decomposition
Masked autoencoders are scalable vision learners https://arxiv.org/abs/2111.06377
StructureFlow: Image Inpainting via Structure-aware Appearance Flow https://arxiv.org/abs/1908.03852
Structure extraction from texture via relative total variation https://dl.acm.org/doi/abs/10.1145/2366145.2366158
StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation https://arxiv.org/abs/1711.09020

点击进入—>【计算机视觉和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR 2023 的相关文章

Redis实现定时任务

Redis定时任务的核心在于 Schedule 注解 Redis Zset List数据结构 Redis管道技术就从定时任务的执行流程开始写起 1 前端用户发起定时任务创建定时任务任务像定时任务模块发起定时任务请求并且携带必要参数首先
【Python】逆向爬虫-----常见的加密方法

一 MD5加密 MD5加密是一种被广泛使用的线性散列算法可以产生出一个128位 16字节的散列值 hash value 用于确保信息传输完整的一致性且MD5加密之后产生的是一个固定长度 32位或16位的数据若要破解MD5加密需要
C++程序的基本组成简介

C 程序的基本组成简介 C 程序的基本组成这个C 程序例子由一个程序单位程序文件注组成这是一个简单例子未使用类注其中包括 1 头文件可以认为头文件是你在调用函数时的一个桥梁格式为 include 引用文件名 c 的程序是
set容器

恭喜主教大人完成了自己的目标 set 容器 set容器基本概念简介所有元素都会在插入时所有元素都会在插入时自动被排序自动去重可重复插不报错但是去重了默认从小到大排本质 set multiset属于关联式容器底层结构是用二叉树实
最新ChatGPT GPT-4 文本生成技术详解（附ipynb与python源码及视频讲解）——开源DataWhale发布入门ChatGPT技术新手从0到1必备使用指南手册（三）

目录前言最新ChatGPT GPT 4 文本生成技术详解 1 引言 2 文本摘要任务 2 1 什么是文本摘要 2 2 常见的文本摘要技术 2 3 基于OpenAI接口的文本摘要实验 2 3 1 简单上手版调用预训练模型 2 3 2 进
面向对象的单片机编程

1 在看别人单片机程序时你也许是奔溃的因为全局变量满天飞不知道哪个在哪用了哪个表示什么而且编写极其不规范 2 在自己写单片机程序时也许你也是奔溃的总感觉重新开启一个项目之前的写过相似的代码也无法使用得重新敲代码重用度不高
关系数据库(数据库原理)

目录一关系数据结构二关系的完整性三关系运算四关系的规范化一关系数据结构 1 关系的定义和性质 1 关系的数学定义域一组有相同数据类型的值得集合笛卡尔积设任意的N个域D1 D2 Dn 定义D1 D2 Dn的笛卡尔积
Android热更新之AndFix就是个大坑

最近一两年Android插件化热更新此起彼伏也许Android的开发者也希望有朝一日来颠覆频繁的去更新版本而像web前端一样更改了代码立马生效的效果确实如果已经上线的版本突然有了bug 按照现有模式开发者不得不去解决bug
类中的getInstance()方法的用法和作用

class rmt dbutil public public static rmt dbutil getInstance if instance NULL instance new rmt dbutil return instance bo
quill编辑器使用

官方git https github com quilljs quill 官方文档 https quilljs com 中文文档 https kang bing kui gitbook io quill 编辑器是个正经编辑器就是文档太不正
android studio更新到3.6以上后布局文件不能切换到xml编辑器？那就点进来吧

android studio更新到3 6以上后布局文件不能切换到xml编辑器只能拖拽写UI了怎么可能看下面截图打开布局文件后默认是到预览界面的右上角的三个按钮就是用来切换视图的自己点击试试就知道啦
正则校验手机号

正则表达式可以用来校验手机号码的合法性如果你想使用正则表达式来校验中国大陆的手机号码可以使用如下的正则表达式 1 3 9 d 9 这个正则表达式可以匹配所有 13 到 19 开头的 11 位数字即所有中国大陆的手机号码例如如果你想
全网最全的人类图解析(上)——九大能量中心与64道闸门

以下内容来源皆来自亚洲人类图学院获得自己的人类图传送门文章目录简介一九大能量中心简介 1 头脑中心 Head Center 头脑中心的主题灵感 2 逻辑中心 Ajna Center 逻辑中心的主题概念化 3 喉咙中心 Th
CSDN平台上怎么样才能赚钱?

CSDN平台上有多种方式可以赚钱以下是其中几种常见的 1 写作赚钱 CSDN平台鼓励用户积极创作原创技术博客通过博客的阅读量和转发量来获取广告收益用户还可以发表付费文章或参与付费专栏在文章的阅读量和付费订阅量上获得收入 2 交流赚钱
java使用visio画类图,【什么是类图使用类图的方法】使用visio画类图

类图是显示了模型的静态结构特别是模型中存在的类类的内部结构以及它们与其他类的关系等那么你对类图了解多少呢以下是由小编整理关于什么是类图的内容希望大家喜欢类图的概述类图 Class diagram 由许多静态说明性的模型元素
【数据结构--二叉树】平衡二叉树

题目描述代码实现 Definition for a binary tree node struct TreeNode int val struct TreeNode left struct TreeNode right int TreeH
Could not proxy request /captchaImage from localhost to http://localhost:8080/.

项目场景项目场景配置若依环境前端通过 run npm dev 启动报500 问题描述根据报错分析无法将请求路径从本地主机代理到http 本地主机 8080 原因分析我们可以看到前端配置的端口号80 地址就是本机没有问题排除前
变分模态分解（VMD）运算步骤及源码解读

1 简述 VMD的目标是将实值输入信号 f f f分解为离散数量的子信号模态 u k u k uk 我们先假设每个模态在一个中心频率
Axure谷歌Chrome浏览器插件安装教程

1 引言经常看到这样的问题 1 我用Axure做的原型怎么不能用谷歌浏览器查看 2 到哪里下载Axure谷歌浏览器插件 3 Axure谷歌浏览器插件下载下来怎么安装其实这些问题百度一下都能找到答案不过有些答案对于新手来说比较麻烦就拿
c语言函数中调用的参数太多

c语言函数中调用的参数太多问题问题展示问题分析解决方法问题展示图中是我遇到的情况问题分析大家可以看到在函数中指针变量和后面的整数变量都成了灰色解决方法图中问题只需将中文逗号改为英文逗号即可一定要检查双引号或者逗号是

随机推荐

QT中使用Sqlite

QT中使用Sqlite 首先要在 pro中引用sql 引用方法新添加语句 QT sql 在原来的基础上追加 QT core gui sql 然后再widget h中添加对sql头文件的引用 include
idea connect timed out 解决方法

使用IntelliJ IDEA 创建Spring Boot项目时显示 connect timed out 解决方法 1 很多博客说将 https start spring io 改为 http start spring io 但是我这里不
手动切换 Kinect 的驱动程序（for OpenNI 1.* & Microsoft Kinect SDK 1.7）

微软最近推出了最新版的 Kinect SDK 能够实现实时的 Kinect Fusion 并提供了丰富的手势交互功能对体感交互开发人员的吸引力越来越大而 OpenNI 2 0 以上的版本也转为使用微软官方的 Kinect 驱动也显示了
移动端适配-01-百分比宽度

1 图片可以在parent中使用 1 line heigh和text align使水平和竖直居中 2 在img标签中加vertical align middle 2 3 background size 1 两个参数 background s
Ubuntu18.04安装cuda10.1+cudnn8.0.5+pytorch1.8.1【亲测～】

Ubuntu18 04安装cuda10 1 cudnn8 0 5 pytorch1 8 1 亲测目录第一步 Cuda10 1的安装第二步 Cudnn8 05的安装 1 进入官网 https developer nvidia com r
[思维模式-15]：《复盘》-3- “行”篇 - 操作复盘- 个人复盘

目录前言一将军不是教出来的而是打出来的二复盘是能力提升的有效方式三对什么进行个人复盘 1 新的事 2 重要的事 3 有价值的事 4 按照规范惯例处置不太奏效的事件未达预期的事四个人复盘的两种操作手法 1 自我简易复盘
cisco 小型园区与网络的构建及其应用

一实验目的熟练构建小型区域网络二实验设备 Cisco 2811 路由器 6台 cisco 3650 交换机 6台 cisco 2960 交换机7台 pc机8台服务器6台数据线缆若干三实验拓扑四实验步骤
applicationContext.xml第一行无缘无故报错!!!

eclipse的bug 在projects里clean一下就好了右键project的validate不管用
python实现OCR识别图片验证码

用cv2模块读取和显示模块导包cv2拓展模块 import cv2 先给窗体起名字 cv2 namedWindow ShowImage1 cv2 namedWindow ShowImage2 image1 cv2 imread img01
04757信息系统开发与管理2011版考试大纲思维导图

第一章第二章第三章第四章第五章第六章第七章第八章第九章不考思维导图下载地址 MindMaster绘制链接 https pan baidu com s 1U BRcRyUgZ8QUqlDuOLy w pwd qwzt 提
通过 raft 的 leader lease 来解决集群脑裂时的 stale read 问题

通过 raft 的 leader lease 来解决集群脑裂时的 stale read 问题问题当 raft group 发生脑裂的情况下老的 raft leader 可能在一段时间内并不知道新的 leader 已经被选举出来这时候
C语言冒泡排序和选择排序

一冒泡排序法假设从小到大排序例一数组 int arr 2 1 34 5 arr 0 先跟相邻的arr 1 比较大小如果比它大则交换两个数值位置大的数值放在后面然后比较arr 1 和arr 2 的大小以此类推直至第n 2个和第
MCDF实验——Lab0

MCDF实验一 MCDF功能描述二设计结构三接口描述 1 系统信号接口 2 通道从端接口 3 整形器接口 4 控制寄存器接口四接口时序 1 通道从端接口时序 2 整形器接口时序 3 控制寄存器接口时序五寄存器描述 1 地址
day4-Django的model

目录 1 setting文件配置 2 理解models 3 model定义 4 常用字段类型 5 常用属性 6 数据库迁移 7 Meta类 1 setting文件配置 sqlite数据库 DATABASES default ENGINE d
AIGC潮水中，重新理解低代码

如果将一句话生成应用形容成L4级的无人驾驶伙伴云的 AI搭建则更像L2 级的辅助驾驶作者斗斗出品产业家 2023年 AIGC下的低代码赛道暗流涌动对于 AI搭建的搭建效果尤其是在场景覆盖的广度上连我自己也感觉比较意
Qt Creator创建C++(Day1)

利用Qt Creator创建纯C 项目流程 1 如下图所示按照序号选择即可 2 更改名字和选择保存路径 3 点击下一步 4 直接点击完成注意事项如果在控制台输出中文乱码修改过程如下 1 选中工具选项 2 将 UTF 8 改为
语音活性检测器 webrtcvad

目录概述安装使用脚本 1 测试静音片段 2 清理静音片段概述 WebRTC是一个免费开放的框架项目使web浏览器通过简单的JavaScript api接口实现实时通信功能 WebRTC An open framework fo
动态规划之多重背包模型

前置知识 01背包问题动态规划之01背包模型如何何何的博客 CSDN博客完全背包问题动态规划之完全背包模型如何何何的博客 CSDN博客多重背包问题给定一个有一定容量的背包和 n 个物品每个物品有 si 件每个物品有其对应
taoCMS v3.0.2 任意文件上传漏洞(CVE-2022-23880)

靶标介绍 taoCMS v3 0 2 文件管理处存在任意文件上传漏洞攻击者可执行任意代码漏洞复现 1 使用御剑扫描后台或者直接输入 admin 就会跳转到登录界面弱口令尝试账号admin 密码tao 2 在文件管理处新建文件为1
CVPR 2023

点击下方卡片关注 CVer 公众号 AI CV重磅干货第一时间送达点击进入 gt 计算机视觉和Transformer 交流群作者 Oliiiver 源知乎编辑 CVer公众号 https zhuanlan zhihu com p

CVPR 2023

引言：

概述：

方法:

实验:

参考

CVPR 2023 的相关文章

随机推荐

热门标签