CVPR17(backbone) - ResNeXt : 引入网络设计中的新维度cardinality

2023-11-19

文章目录

- 原文地址
- 论文阅读方法
- 初识
- 相知
- 回顾
- 代码

论文全称：Aggregated Residual Transformations for Deep Neural Network

原文地址

论文阅读方法

初识

在之前的工作中，网络设计更多考虑的是如何在深度、宽度等维度上优化，而本文引入了一种新的维度：势(cardinality)。简单的理解，就是在同一个网络块(block)中输入特征经过了不同的转换后聚合，这个过程中，转换的数量就称之为势。并基于ResNet提出一种新型结构ResNeXt，意为the next dimension。

关于cardinality的翻译参照集合中定义：势就是集合中元素的个数

如下图所示，左边是ResNet的bottleneck，右边是引入新维度后的设计，其中对输入有32条不同的转换通路，因此势为32。
在这里插入图片描述
其实这种split-transform-merge的策略早就出现了，在Inception(Googlenet)中，每个网络块会将输入特征送入不同的转换后，再进行融合。但ResNext为了进一步研究势的影响，简化了网络设计，在每条通路上采用相同的网络结构(转换策略)，如上图所示。

并且作者通过实验证明，ResNext在相同的参数和计算量设定下，性能优于ResNet。此外，相比于增加网络的深度和宽度来提升准确的，增加网络的势可能更有效。

相知

只介绍主要技术，以及提及部分实验

网络设计原则
为了减少网络设计过程中的考虑因素范围，作者参照VGG/ResNet，确定了两条设计原则：① 在同一尺寸的特征图转换过程中，网络块采用相同的模块设计(宽度、卷积和大小等)；② 如果特征图进行了2倍下采样，那么宽度增加到2倍。

宽度即为channel数

模块构建策略
在这里插入图片描述
关于如何构建势，首先图(a)中就是最初始的想法，依据ResNet模块进行改进，将输入送入若干个分支中(每个分支中的模块设计一致)，然后对各分支的输出结果进行融合(相加)，最后再引入一个残差连接。

图(b)相对于图(a)提前进行了concat操作，再统一进行1x1卷积。但其实图(a)与图(b)其实是等价的，假设势为2时，图(a)中x1，x2分别与w1，w2进行1x1卷积再concat，类似于x1·w1+x2·w2。而图(b)相当于在先拼接[x1,x2]再与[w1; w2]进行卷积，同样也是x1·w1+x2·w2。

图(c ) 则进一步采用了分组卷积，将输入通道和输出通道分称C组，然后对每组特征图分别执行卷积操作。相比于(a)(b)，这种方式更加有效，也使得实现变得更为简洁，将split-transform-merige用分组卷积实现，组数即为势。

但这种模块设计的等价转换局限于：每条分支都是相同的模块设计（同构的）；模块的深度要大于2（换成basic block就不适用了)

具体设计
文章的目的主要是为了研究势的影响，因此网络设计不额外增加参数量与计算复杂度(FLOPs)。

作者分析，在原始的ResNet中，一个block的参数量为:256*64+3*3*64*64+64*256≈70k。假设ResNext的势为C，每个分支的宽度为d，参数量为：C*(256*d+3*3*d*d+d*256)。由于两个模块处理的特征图尺寸一致，所以计算量也与之成比例。

为了使得接近一致，C和d的可选取值如下：
在这里插入图片描述
实验
① 与ResNet对比：相同的复杂度和计算量，效果优于ResNet。

② 深度、宽度、势的对比：控制复杂度和计算量，对这几个维度进行消融实验，证明通过增大势会更有效。

回顾

ResNext发表于CVPR2017，如果不看文章内容，只看网络结构，你可能觉得不就是再ResNet的架构上引入了一个分组卷积嘛。但只有看了文章才体会其中的设计思想，何大佬的工作总是这么简单有效。

这篇文章相比于Inception在同一模块中采用不同的分支提取不同特征（作者认为这提取到不同感受野下的特征），大胆地采用同构设计，从而转换成采用分组卷积实现。取得了不错的效果，并且理论立意上着实高！

代码

关于代码的实现，其实就是将ResNet中的模块改为分组卷积，可以参照Pytorch的官方实现(就是在rennet中添加了相关参数设置)。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

读点论文基础任务(分类分割检测)

深度学习