Image Super-Resolution Using Very Deep Residual Channel Attention Networks

2023-11-15

因为我是语义分割方向，对图像超分辨率不了解，这里简单记录一下读论文的收获。论文地址
超分辨率的输入是低分辨率，最终恢复超分辨率图片。作者发现低分辨率的图片拥有丰富的低频细节，对应图像中大块的平坦区域，然而低分辨率的每个通道在处理时候总是平等的，为了解决这个问题，作者提出了RCAN(Very Deep Residual Channel Attention Networks)，特别的提出了一个RIR(residual in residual)结构，包含长连接，而每一个残差GROUP包含一些残差块，带有短连接。这些连接可以将低频信息传递过来，使网络更专注于高频细节。
思考：在语义分割encoder后，图片的分辨率是非常低的，此时含有大量的通道，对大量的通道我们只需要关注一些有用的，因此和超分辨率的输入是非常类似的。
超分辨率图：
在这里插入图片描述
语义分割图：

图像的超分辨率，我们尝试去恢复图像的高频细节，，低分辨率的图像就可以直接传进最终的高分辨率图。
RCAN框架：

LR图片首先经过一个卷积层，提取浅层特征，然后输入进RIR模块提取深层特征，最后进行尺寸扩大，再经过重建层。
1：卷积层
使用了一个卷积层。
2:RIR层
包含G个残差组(RG)，和长跳跃连接。每一个RG包含B个残差通道注意力模块，和一个短连接，这种设计可以使网络达到很深的层。
在这里插入图片描述
其中长连接可以用来构建更深的网络，同时也可以达到更好的性能。也可以让RIR学习到浅层的残差信息。
2.1：为了让网络关注更多有信息的特征，短连接引入进来，有了长连接和短连接，更多的低频信息就可以传递到网络训练当中。
2.2：通道注意力：就是SENet中的sequeeze and extraction模块。

实验：
在RIR中使用10个RG模块，每个RG模块，使用20个RCAB模块。在通道缩小和扩大时候使用1x1卷积，其余的卷积都使用3x3卷积。
看一下各个模块的作用：

分析一下代码：

from model import common

import torch.nn as nn

def make_model(args, parent=False):
    return RCAN(args)

## Channel Attention (CA) Layer
class CALayer(nn.Module):
    def __init__(self, channel, reduction=16):
        super(CALayer, self).__init__()
        # global average pooling: feature --> point
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        # feature channel downscale and upscale --> channel weight
        self.conv_du = nn.Sequential(
                nn.Conv2d(channel, channel // reduction, 1, padding=0, bias=True),
                nn.ReLU(inplace=True),
                nn.Conv2d(channel // reduction, channel, 1, padding=0, bias=True),
                nn.Sigmoid()
        )

    def forward(self, x):
        y = self.avg_pool(x)
        y = self.conv_du(y)
        return x * y

## Residual Channel Attention Block (RCAB)
class RCAB(nn.Module):
    def __init__(
        self, conv, n_feat, kernel_size, reduction,
        bias=True, bn=False, act=nn.ReLU(True), res_scale=1):

        super(RCAB, self).__init__()
        modules_body = []
        for i in range(2):
            modules_body.append(conv(n_feat, n_feat, kernel_size, bias=bias))
            if bn: modules_body.append(nn.BatchNorm2d(n_feat))
            if i == 0: modules_body.append(act)
        modules_body.append(CALayer(n_feat, reduction))
        self.body = nn.Sequential(*modules_body)
        self.res_scale = res_scale

    def forward(self, x):
        res = self.body(x)
        #res = self.body(x).mul(self.res_scale)
        res += x
        return res

## Residual Group (RG)
class ResidualGroup(nn.Module):
    def __init__(self, conv, n_feat, kernel_size, reduction, act, res_scale, n_resblocks):
        super(ResidualGroup, self).__init__()
        modules_body = []
        modules_body = [
            RCAB(
                conv, n_feat, kernel_size, reduction, bias=True, bn=False, act=nn.ReLU(True), res_scale=1) \
            for _ in range(n_resblocks)]
        modules_body.append(conv(n_feat, n_feat, kernel_size))
        self.body = nn.Sequential(*modules_body)

    def forward(self, x):
        res = self.body(x)
        res += x
        return res

## Residual Channel Attention Network (RCAN)
class RCAN(nn.Module):
    def __init__(self, args, conv=common.default_conv):
        super(RCAN, self).__init__()
        
        n_resgroups = args.n_resgroups #10
        n_resblocks = args.n_resblocks
        n_feats = args.n_feats
        kernel_size = 3
        reduction = args.reduction 
        scale = args.scale[0]
        act = nn.ReLU(True)
        
        # RGB mean for DIV2K
        rgb_mean = (0.4488, 0.4371, 0.4040)
        rgb_std = (1.0, 1.0, 1.0)
        self.sub_mean = common.MeanShift(args.rgb_range, rgb_mean, rgb_std)
        
        # define head module
        modules_head = [conv(args.n_colors, n_feats, kernel_size)]

        # define body module
        modules_body = [
            ResidualGroup(
                conv, n_feats, kernel_size, reduction, act=act, res_scale=args.res_scale, n_resblocks=n_resblocks) \
            for _ in range(n_resgroups)]

        modules_body.append(conv(n_feats, n_feats, kernel_size))

        # define tail module
        modules_tail = [
            common.Upsampler(conv, scale, n_feats, act=False),
            conv(n_feats, args.n_colors, kernel_size)]

        self.add_mean = common.MeanShift(args.rgb_range, rgb_mean, rgb_std, 1)

        self.head = nn.Sequential(*modules_head)
        self.body = nn.Sequential(*modules_body)
        self.tail = nn.Sequential(*modules_tail)
#主函数
    def forward(self, x):
        x = self.sub_mean(x)
        x = self.head(x)

        res = self.body(x)
        res += x

        x = self.tail(res)
        x = self.add_mean(x)

        return x 

    def load_state_dict(self, state_dict, strict=False):
        own_state = self.state_dict()
        for name, param in state_dict.items():
            if name in own_state:
                if isinstance(param, nn.Parameter):
                    param = param.data
                try:
                    own_state[name].copy_(param)
                except Exception:
                    if name.find('tail') >= 0:
                        print('Replace pre-trained upsampler to new one...')
                    else:
                        raise RuntimeError('While copying the parameter named {}, '
                                           'whose dimensions in the model are {} and '
                                           'whose dimensions in the checkpoint are {}.'
                                           .format(name, own_state[name].size(), param.size()))
            elif strict:
                if name.find('tail') == -1:
                    raise KeyError('unexpected key "{}" in state_dict'
                                   .format(name))

        if strict:
            missing = set(own_state.keys()) - set(state_dict.keys())
            if len(missing) > 0:
                raise KeyError('missing keys in state_dict: "{}"'.format(missing))

从主函数进入代码：
在RCAN类中，我们输入X,进过sub_mean函数，对应另一个文件下的函数：这个函数继承自卷积，你也可以把他看成一个卷积。

class MeanShift(nn.Conv2d):
    def __init__(self, rgb_range, rgb_mean, rgb_std, sign=-1):
        super(MeanShift, self).__init__(3, 3, kernel_size=1)
        std = torch.Tensor(rgb_std)
        self.weight.data = torch.eye(3).view(3, 3, 1, 1)
        self.weight.data.div_(std.view(3, 1, 1, 1))
        self.bias.data = sign * rgb_range * torch.Tensor(rgb_mean)
        self.bias.data.div_(std)
        self.requires_grad = False

接着经过head函数，multi_head函数也是一个卷积，这里对应文中的框架就是浅层的特征提取层。接着进入主体函数，即RIR函数，我们会进入到ResidualGroup函数，即RIR中的每一个block，在跳进ResidualGroup中，发现看到了RCAB函数，我们到RCAB函数中，这其实就相当于套娃。

class RCAB(nn.Module):
    def __init__(
        self, conv, n_feat, kernel_size, reduction,
        bias=True, bn=False, act=nn.ReLU(True), res_scale=1):

        super(RCAB, self).__init__()
        modules_body = []
        for i in range(2):
            modules_body.append(conv(n_feat, n_feat, kernel_size, bias=bias))
            if bn: modules_body.append(nn.BatchNorm2d(n_feat))
            if i == 0: modules_body.append(act)
        modules_body.append(CALayer(n_feat, reduction))
        self.body = nn.Sequential(*modules_body)
        self.res_scale = res_scale

    def forward(self, x):
        res = self.body(x)
        #res = self.body(x).mul(self.res_scale)
        res += x
        return res

输入x，首先定义一个空列表，然后往列表中添加两个卷积，如果有bn再添加bn，接着再两个卷积后面添加CAlayer，即通道注意力。

class CALayer(nn.Module):
    def __init__(self, channel, reduction=16):
        super(CALayer, self).__init__()
        # global average pooling: feature --> point
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        # feature channel downscale and upscale --> channel weight
        self.conv_du = nn.Sequential(
                nn.Conv2d(channel, channel // reduction, 1, padding=0, bias=True),
                nn.ReLU(inplace=True),
                nn.Conv2d(channel // reduction, channel, 1, padding=0, bias=True),
                nn.Sigmoid()
        )

    def forward(self, x):
        y = self.avg_pool(x)
        y = self.conv_du(y)
        return x * y

经过两个卷积的特征图，首先经过平均池化，然后经过两个卷积层，进行通道的降维和升维，最后与原始的x相乘。再回到RCAB函数中，与原始的x相加。RCAB函数结束。

class ResidualGroup(nn.Module):
    def __init__(self, conv, n_feat, kernel_size, reduction, act, res_scale, n_resblocks):
        super(ResidualGroup, self).__init__()
        modules_body = []
        modules_body = [
            RCAB(
                conv, n_feat, kernel_size, reduction, bias=True, bn=False, act=nn.ReLU(True), res_scale=1) \
            for _ in range(n_resblocks)]
        modules_body.append(conv(n_feat, n_feat, kernel_size))
        self.body = nn.Sequential(*modules_body)

    def forward(self, x):
        res = self.body(x)
        res += x
        return res

再返回到ResidualGroup函数中，经过n_resblocks个RCAB后，在紧接着一个卷积层，然后与原始的x相加。至此ResidualGroup函数结束。
再回到RCAN函数中，经过n_resgroups个ResidualGroup后，再紧接着一个卷积层。至此body函数就结束了，然后再与原始的x相加，RIR函数就结束了。
接着是tail函数，调用另一个文件下的upsample函数：

class Upsampler(nn.Sequential):
    def __init__(self, conv, scale, n_feat, bn=False, act=False, bias=True):

        m = []
        if (scale & (scale - 1)) == 0:    # Is scale = 2^n?
            for _ in range(int(math.log(scale, 2))):
                m.append(conv(n_feat, 4 * n_feat, 3, bias))
                m.append(nn.PixelShuffle(2))
                if bn: m.append(nn.BatchNorm2d(n_feat))
                if act: m.append(act())
        elif scale == 3:
            m.append(conv(n_feat, 9 * n_feat, 3, bias))
            m.append(nn.PixelShuffle(3))
            if bn: m.append(nn.BatchNorm2d(n_feat))
            if act: m.append(act())
        else:
            raise NotImplementedError

        super(Upsampler, self).__init__(*m)

Upsampler返回的是一个序列，其中scale=4，那么4&3==0为true，执行第一个，接着int(math.log(scale, 2))，执行log以2为底4的对数，结果为2，则循环执行两次，往m列表里面添加两个卷积，pixelshuffle，bn，act，返回m，至此Upsampler结束。回到RCAN中，tail函数后面再加一个卷积。self.tail函数结束。
最后再经过一个self.add_mean = common.MeanShift(args.rgb_range, rgb_mean, rgb_std, 1)函数。则整个RCAN函数结束。后面是加载权重就不看了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Image Super-Resolution Using Very Deep Residual Channel Attention Networks 的相关文章

用通俗易懂的方式讲解：内容讲解+代码案例，轻松掌握大模型应用框架 LangChain

本文介绍了 LangChain 框架它能够将大型语言模型与其他计算或知识来源相结合从而实现功能更加强大的应用接着对LangChain的关键概念进行了详细说明并基于该框架进行了一些案例尝试旨在帮助读者更轻松地理解 LangChai
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
深度学习：人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法毕业设计（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

QNAP 安装nextcloud私有网盘

下载nextcloud服务端并上传到web文件夹下首先安装并开启PHPmyadmin 在app store搜索并下载PHPmyadmin 同时打开自带的mariadb服务默认用户名密码就是qnap自己的用户名和密码也可以更改然后
设计模式：高性能IO之Reactor模式

讲到高性能IO绕不开Reactor模式它是大多数IO相关组件如Netty Redis在使用的IO模式为什么需要这种模式它是如何设计来解决高性能并发的呢最最原始的网络编程思路就是服务器用一个while循环不断监听端口是否有新的套接字
1. TypeScript 基础类型

TypeScript 基础类型 1 布尔数字字符串类型 let myname string 小米 let age number 18 let bool boolean true console log 1 布尔数字字符串类型 myn
Mysql join大表优化案例

一准备知识 Mysql join原理及结论 1 MySQL join分为 inner join left outer join right outer join full join mysql不支持full join 但是可以利用left
hive修改字段及字段类型

hive修改字段类型语句 alter table 表名 change column 原字段名新字段名字段类型 alter table user chain change column u register u registe date
VSCode 远程连接服务器-亲测有效

VSCode 远程连接服务器前言步骤前言网上教程很多但是还挺坑自己试了下整个步骤可以很快解决首先window10需要用ssh功能这个在win10已经默认安装就不在赘述步骤 SSH插件首先在vscode中安装插件ssh插
大数据课程J2——Scala的基础语法和函数

文章作者邮箱 yugongshiye sina cn 地址广东惠州本章节目的掌握Scala的基础语法掌握Scala的函数库一 Scala 基础语法一 1 概述语句说明示例 var 用来声明一个变量变量声明后在程序执行过程
提升页面加载速度的方案

性能优化是一个庞大而相对复杂的知识如今互联网发展迅速市场竞争激烈在这样的环境下一个网站的性能决定着一个项目的好与坏为了降低软件项目的跳出率提高访问速度减少加载时间带给用户流畅的终端体验好的优化是必不可少的如何判断页面的载入
js如\x6C\x69\x6E\x65\x63\x68加密代码解压方法

2019独角兽企业重金招聘Python工程师标准 gt gt gt 解码方法如下简单复制下面的代码保存为 html
VMware16安装win7 x64 虚拟机

文章目录 VMware安装win7操作系统下载iso镜像文件新建虚拟机安装VMware Tools 安装VMware Tools 安装程序无法自动安装VSock驱动程序必须手动安装此驱动程序出现安装程序无法自动安装VSock驱动程
tomcat应用

web服务器 web服务器是安装在服务端主机上实现了http协议的软件也叫http服务器如微软的IIS 当前排名第一开源免费的Apache 个人认为凡是实现了应用层协议的软件都可以叫web服务器如ftp服务器 smtp服务器只不过
C++之异常处理机制

一 C 异常处理机制是由3个部分组成检查 try 抛出 throw 和捕捉 catch 把需要检查的语句放在try中 throw用来当出现异常时发生一个异常信息而catch则用来捕捉异常信息如果捕捉到了异常信息就处理它二 1 首先介
5、Java入门教程【循环+条件语句】

一循环 java有三种主要的循环结构 while 循环 do while 循环 for 循环 1 while 循环语法 while 布尔表达式循环内容示例 public class Test public static void m
break和continue跳出多重循环

关于break和continue 众所周知 break是跳出当前循环 continue是跳出本次循环但是在多重循环中我们可能会模糊概念 break是跳出全部循环还是只是某层循环 gt 跳出的是break所在层的循环即当前循环结论只要
VueUse中文文档Vue官方工具库

VueUse官网地址https vueuse org 这里就列举常用工具详情请去官网查看所有API 浏览器 useFullscreen全屏展示 isFullscreen 当前是否是全屏 toggle 是函数直接调用即可 const isF
Visual Studio 2022 创建C++项目

打开Visual Studio 创建新项目选择平台选择空项目点击下一步设置项目名称以及指定项目文件位置点击创建创建成功后如下图在源文件中添加代码文件写入代码运行代码 F5 运行结果界面如下图所示
c语言模板类,C++类模板（Class Template）

C 除了支持函数模板还支持类模板 Class Template 函数模板中定义的类型参数可以用在函数声明和函数定义中类模板中定义的类型参数可以用在类声明和类实现中类模板的目的同样是将数据的类型参数化声明类模板的语法为 templat
深度学习论文精读[9]：PSPNet

场景解析 scene parsing 是语义分割的一个重要应用方向区别于一般的语义分割任务场景解析需要在复杂的自然图像场景下对更庞大的物体类别的每一个像素进行分类场景解析在自动驾驶和机器人感知等方向应用广泛但由于自然场景的复杂性语
在Windows 10上安装TensorFlow及PyCharm开发环境

有时候在查看官方文档时常常看到很多的分支所以作为开发者我们都喜欢把最佳实践总结出来下面一起来看看如何在Windows 10上安装一个TensorFlow和PyCharm开发环境安装Anaconda 安装Anaconda以后即可获得
Image Super-Resolution Using Very Deep Residual Channel Attention Networks

因为我是语义分割方向对图像超分辨率不了解这里简单记录一下读论文的收获论文地址超分辨率的输入是低分辨率最终恢复超分辨率图片作者发现低分辨率的图片拥有丰富的低频细节对应图像中大块的平坦区域然而低分辨率的每个通道在处理时候总是平等

Image Super-Resolution Using Very Deep Residual Channel Attention Networks

实验： 在RIR中使用10个RG模块，每个RG模块，使用20个RCAB模块。在通道缩小和扩大时候使用1x1卷积，其余的卷积都使用3x3卷积。 看一下各个模块的作用：

Image Super-Resolution Using Very Deep Residual Channel Attention Networks 的相关文章

随机推荐

热门标签

实验：
在RIR中使用10个RG模块，每个RG模块，使用20个RCAB模块。在通道缩小和扩大时候使用1x1卷积，其余的卷积都使用3x3卷积。
看一下各个模块的作用：