BMVC 2022 (东京大学)仅需90K参数！实时完成低光增强, 曝光矫正的超轻量级Transformer网络IAT，已开源

2023-11-20

本文由 52CV 粉丝投稿，作者：信息门下奶狗，知乎地址：https://zhuanlan.zhihu.com/p/535695807

我们提出Illumination-Adaptive-Transformer (IAT)网络，用来探索实时的暗光增强和曝光矫正，以及一系列不良光照场景下的视觉任务（如暗光场景目标检测/ 语义分割）。

IAT网络是全监督训练范式，网络总体的参数量仅需90k+，属于超轻量级的实时增强网络（相比近期CVPR 2022的Transformer工作Restormer[1]和MAXIM[2]等），在这篇论文中，我们借鉴了目标检测中的DETR[3] 结构，来帮助我们实现轻量设计。值得一提的是，IAT网络的训练/测试代码都已经公布，非常容易follow，并且暗光场景下语义分割和目标检测的代码也全部公布，可以说是良心满满。

图1. 有了IAT，愿少年你的科研道路不再黑暗

论文链接：https://arxiv.org/abs/2205.14871
项目链接：https://github.com/cuiziteng/Illumination-Adaptive-Transformer

demo视频：

，时长00:41

前言

自然场景下存在着各种不良光照场景，如低光照环境和摄影造成的过(欠)曝光环境，相机在不良光照下完成摄影任务时，因为接收到过多/过少的光子数量，和相机内部的处理过程 (如低光照场景需要调高ISO，这会导致噪声也同时放大)。往往得到的图像也会收到影响，无论从视觉感观还是完成一些视觉任务（如检测，分割等）都会受到影响。

区别于传统的HE或者RetiNex做法以及此前的CNN做法，我们提出了Illimination-Adaptive-Transformer (IAT), IAT模型借鉴了目标检测网络DETR思路，通过动态query学习的机制来调整计算摄影中的一些相关参数，建立了一个end-to-end的Transformer，来克服这些不良光照所造成的视觉感观/视觉任务影响。

网络结构

在不良光照场景的环境中 , 场景中的光子数量投到相机camera lens上，再通过相机内部的处理和相机内Image Signal Processor (ISP) 流程 G ，最终得到我们所获得的sRGB图像。图像增强以及曝光纠正的目的是把非正常光照下摄影得到的图像，去学习一个正常光照条件下摄影得到的图像，此前的方法往往通过一个end-to-end的网络，或者通过学习一些高层次的表征（如：图像曲线，光照，3D-LUT等），来完成

到的学习。

这里我们借鉴了此前CVPR 2020上 Afif 和 Brown的工作 [4]，通过一个逆映射函数 F , 将sRGB图像

映射到其对应的raw-RGB空间上，这样做的好处是还原到raw-RGB空间上面后，我们可以通过调整ISP过程 G 中的一些关键参数（如gamma数值, 白平衡和一些相关色彩矩阵）来动态调整图像亮度，让最终的预测图像尽量接近正常光照环境下的摄影图像，公式如下：

为了实现轻量化设计，在这里ISP环节中 G 过程，我们简化为一个3X3的色彩矩阵

和一个gamma参数，详细的推导论证请见我们论文的supp环节，在逆映射过程 F 中，我们学习了一张乘法图 M 和加法图 A ，以一个最小二乘法来完成拟合，总体公式如下：

综上所述，IAT网络总体包含两个独立分支，逆映射调整的local分支F和学习ISP参数的global分支G，local分支由两个独立支路负责预测像素级别乘法图M和加法图A，global分支则是利用attention预测控制图像全局信息的色彩矩阵和gamma数值。输入图像将分别通过local分支和global分支来一起完成暗光增强和曝光纠正任务。网络具体结构如下图，其中每个local分支都由三个PEM (Pixel-wise Enhancement Module) 模块组成，为了保证轻量设计和输入任意分辨率，这里采用了depth-wise convolution组成的Transformer结构。

同时在global分支我们采用attention模块来获得全局信息来产生色彩矩阵以及gamma数值，受到了目标检测DETR网络的启发，我们将随机初始化的query输入到模块中，与图像自身生成的key和value共同作用，最终输出十个参数，分别代表3x3的色彩矩阵和1维的gamma数值，通过这样的动态query学习策略，随着epoch的更新，网络可以自适应的调整操控图像全局信息的色彩矩阵以及gamma值，同时可以更好的利用transformer擅长捕捉全局信息的特性。

我们设计的色彩矩阵与gamma数值都是针对每张图像进行调整，相当于给每张图像都假定一个专属的特定gamma数值与色彩矩阵来完成增强任务，曝光矫正任务以及后续的高层次视觉任务。

图2. IAT网络结构

图3. (a). Local分支中的PEM模块与, (b). local分支的的attention模块

实验结果

(低光照增强/曝光纠正)

在实验部分，我们做了大量的实验，包括低光照增强/ 曝光纠正，以及低光照场景下的目标检测，低光照场景下的语义分割，以及复杂光照场景下的目标检测。

（a）. 低光照增强实验结果（LOL-V1数据集低光照增强, 485 image training, 15 image testing和LOL-V2-real数据集低光照增强, 589 image training, 100 image testing）。

图4. LOL数据集测试结果

网络训练时采用L1损失函数，可以看出IAT在暗光增强上面的性能达到SOTA，并且参数量,FLOPS和速度相比之前算法都非常少，时效性很好，一些视觉效果如下：

图5. LOL-V1数据集结果

（b）. 曝光纠正实验结果 [同时欠曝光/ 过曝光]（Exposure数据集曝光纠正）：

图6. 曝光增强数据集结果

实验结果

(低光照检测/分割)

在低光照检测/分割任务上，我们首先探究了将图像增强直接作用到暗光图像上，然后将增强后的图像输入到检测/分割网络结构中，我们分别采用了低光照检测数据集EXDark和低光照分割数据集ACDC以及多光源场景检测数据集TYOL。

我们以YOLO-V3检测器为范例，在目标检测时采用COCO预训练模型上面训练不同增强算法增强后的EXDark和TYOL，在语义分割时采用City-scape预训练模型训练不同增强算法增强后的ACDC，结果如下：

图7. 在暗光场景(d),(e)和多光源场景(f)数据集下的定量结果

可以看出低光照增强方法对于目标检测任务有些许提升，但是在后续的语义分割任务(e)上，增强算法反而无法提升目标的分割性能，这是由于图像增强算法与高层视觉算法的目的与评价指标不一致所导致的，图像增强是为了更好提升人眼视觉（评价指标PSNR,SSIM），而目标检测和语义分割属于机器视觉(评价指标mIOU, mAP)。

针对于这种情况，我们采用了joint-training范式来训练网络，即将图像增强网络和后续检测分割网络联合，一起更新参数，其中图像增强网络还可以加载不同的预训练模型(如LOL数据集预训练和MIT-5K数据集预训练)，图示如下：

图8. 将图像增强网络和后续的检测分割网络Joint-Training.

通过实验结果发现，Joint-training范式可以有效提升低光照场景下的检测/分割结果，引入了Joint-training和直接增强的方法对比如下，可以看到Joint-training更能有效提升性能：

图9. Joint-Traing与直接增强的对比

关于更多实验细节和对比实验欢迎大家阅读我们的论文和代码，感谢～

参考文献

[1]. Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, and Ming-Hsuan Yang. Restormer: Efficient transformer for high-resolution image restoration. arXiv preprint arXiv:2111.09881, 2021.

[2]. Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar, Alan Bovik, and Yinxiao Li. Maxim: Multi-axis mlp for image processing. CVPR, 2022.

[3]. Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In European conference on computer vision, 2020.

[4]. Mahmoud Afifi and Michael S. Brown. Deep white-balance editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

BMVC 2022 (东京大学)仅需90K参数！实时完成低光增强, 曝光矫正的超轻量级Transformer网络IAT，已开源的相关文章

Centos 7 大硬盘分区(>2TB) - parted & xfs

Centos 7 针对超过2T的大硬盘采用parted分区 1 运行parted命令进入parted界面后运行p打印已有分区信息找到前一个分区终止点如 2 2028kb 51 2GB xfs 其至终点应为51 2GB 运行mkpa
RabbitMQ高级特性（四）：RabbitMQ之TTL（存活时间/过期时间）

RabbitMQ高级特性四 RabbitMQ之TTL 存活时间过期时间 TTL 全称 Time To Live 存活时间过期时间当消息到达存活时间后还没有被消费会被自动清除 RabbitMQ可以对消息设置过期时间也可以对整个队
Symbol的理解和使用

Symbol的诞生也就是Symbol存在的意义之前我们的对象属性的数据类型都是字符串没有其他的所以会导致属性名的重复导致属性值被覆盖的情况比如你使用了一个他人提供的对象但又想为这个对象添加新的方法在添加的操作就很容易覆盖原
java中List集合三种获取集合元素方式

java中List集合三种获取集合元素方式 1 for 2 迭代器 3 增强for循环 List集合常用方法 List作为Collection集合的子接口不但继承了Collection接口中的全部方法而且还增加了一些根据元素索引来操作集
IntelliJ IDEA出现红色字体解决办法

如图所示问题 ApiModel显示红色点击alt enter提示需要添加io swagger包到classpath中因为在pom xml中没有把此包引入如图解决方案在pom xml中添加io swagger包经历1 当我根据I

随机推荐

IDE简介

集成开发环境 IDE Integrated Development Environment 用于提供程序开发环境的应用程序一般包括代码编辑器编译器调试器和图形用户界面等工具集成了代码编写功能分析功能编译功能调试功能等一体化的开
Atlantis 【POJ - 1151】【扫描线模板题+线段树更新】

题目链接是一道扫描线的模板题也是我的第一道扫描线的题了对扫描线也算是有了第一次的理解无非就是更新新的向上的区间长度然后去查询就是了而查询是O 1 的因为可以通过树的最上根节点得到的 include
KMP比较简单的讲法。

转载链接 http blog csdn net yearn520 article details 6729426 我们在一个母字符串中查找一个子字符串有很多方法 KMP是一种最常见的改进算法它可以在匹配过程中失配的情况下有效地多往后面跳
捕鱼游戏源码（数值+完整项目资源）

目前捕鱼游戏的玩法逐渐有这些趋势捕鱼玩法消除类玩法捕鱼玩法模拟经营玩法捕鱼玩法建造养成玩法这些趋势已经有龙头企业逐渐开始做出尝试但是对大部分团队来讲对垂直领域的理解不够深刻对产品理解不够深刻团队没有沉淀和积累通常都
chart.js使用学习——柱状图（2：常用属性设置)

本文介绍柱状图常用属性及效果柱状图中有部分常用属性与折线图用法相同本文仅列出这些属性的简要说明不再详细说明 base 设置图形绘制时的基准值数值型默认值为空设置的值为数值轴上的值 base值未设置则绘制的柱状图沿数值轴方向的起
[解决报错] Invalid attempt to spread non-iterable instance.In order to be iterable, non-array objects mu

主要原因是因为用let of 方法遍历的时候有一个参数为null 没有iterable 所以数据处理错误换成for循环就好
常用搜索引擎使用技巧

1 指定站内搜索使用site指定在某网站内搜索如只在知乎中搜索 liuwons liuwons site zhihu com 2 精确匹配使用双引号来指定精确匹配单词或短语如精确搜索 liuwons liuwons 3 模糊搜索使
通讯编程001——Nodejs快速开发Modbus TCP Master

本文介绍如何利用ModbusJs库快速开发Modbus TCP Master 相关源码请登录网信数智 wangxinzhihui com 下载 ModbusJs是一个基于Nodejs的Modbus TCP的开发库目前支持的功能函数有 re
vue-tabel 中使用 el-autocomplete 出现的问题

必须加 popper append to body false popper class vxetableignoreclear 我自己用的话缺一不可说一下我自己项目中遇到的问题吧我写的是表格中套表格会出现就是当下拉选的时候用 sel
【华为OD统一考试A卷

华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷和OD统一考试 B卷你收到的链接上面会标注A卷还是B卷请注意根据反馈目前大部分收到的都是
正则表达式中的特殊字符

字符含意做为转意即通常在后面的字符不按原来意义解释如 b 匹配字符 b 当b前面加了反斜杆后 b 转意为匹配一个单词的边界或对正则表达式功能字符的还原如匹配它前面元字符0次或多次 a 将匹配a aa aaa 加了后 a
python自学篇十五[Numpy——基础（一）：（jupyter Notebook+Anaconda+conda+jupyter配置及简单操作 ]

文章目录概括 Numpy Scipy pandas matplotlib 一 Numpy 基础 1 jupyter Notebook 1 安装Anaconda 2 Anaconda是什么 1 Anaconda Navigator 2 Ju
DNS欺骗原理及工作工程分析

DNS欺骗 DNS欺骗是这样一种中间人攻击形式它是攻击者冒充域名服务器的一种欺骗行为它主要用于向主机提供错误DNS信息当用户尝试浏览网页例如IP地址为XXX XX XX XX 网址为www bankofamerica com 而实际
工作与身体健康之间的平衡

大厂裁员称35岁以后体能下滑无法继续高效率地完成工作体重上涨因为35岁以后新陈代谢开始变慢甚至坐久了会腰疼睡眠困扰开始加重在众多的归因中仿佛35岁的到来会为一切的焦虑埋下伏笔实际上生理年龄不代表全部体能素质的下降更与
各种汇编器masm masm32 fasm nasm yasm gas的区别

原文地址 http www verydemo com demo c269 i661 html masm MASM是微软公司开发的汇编开发环境拥有可视化的开发界面使开发人员不必再使用DOS环境进行汇编的开发编译速度快支持80x86汇编
Debug of AMBA AXI Outstanding Transactions

Verifying today s complex designs is time consuming as simulations run for long time and millions of transaction are exe
Win7(WinDbg) + VMware(Win7) 双机调试环境搭建之三

更多精彩内容请见 http www 16boke com 环境主机 Win7 虚拟机 VMware 11 1 0 build 2496824 虚拟机内操作系统又称GuestOS Win7 WinDbg 适合调试机的相应位数的版本就可以
springboot使用Mybatis-Plus实现分页查询

1 导入依赖 MyBatis Plus opens new window 简称 MP 是一个 MyBatis opens new window 的增强工具在 MyBatis 的基础上只做增强不做改变为简化开发提高效率而生我个人感觉使
JAVA--GUI（2）--布局

布局为了更好适应不同平台而引入的概念 Java的布局管理器是一个实现了LayoutManager接口的实例用户无法设置setLocation 这些方法如果想自己设置则需要取消布局管理器采用布局管理器边界布局顺序布局网格布局卡
BMVC 2022 (东京大学)仅需90K参数！实时完成低光增强, 曝光矫正的超轻量级Transformer网络IAT，已开源

本文由 52CV 粉丝投稿作者信息门下奶狗知乎地址 https zhuanlan zhihu com p 535695807 我们提出Illumination Adaptive Transformer IAT 网络用来探索实时的暗光

BMVC 2022 (东京大学)仅需90K参数！实时完成低光增强, 曝光矫正的超轻量级Transformer网络IAT，已开源

BMVC 2022 (东京大学)仅需90K参数！实时完成低光增强, 曝光矫正的超轻量级Transformer网络IAT，已开源 的相关文章

随机推荐

热门标签

BMVC 2022 (东京大学)仅需90K参数！实时完成低光增强, 曝光矫正的超轻量级Transformer网络IAT，已开源的相关文章