经典卷积神经网络(CNN)图像分类算法详解

2023-10-27

本文原创，转载请引用 https://blog.csdn.net/dan_teng/article/details/87192430

CNN图像分类网络

一点废话：CNN网络主要特点是使用卷积层，这其实是模拟了人的视觉神经，单个神经元只能对某种特定的图像特征产生响应，比如横向或者纵向的边缘，本身是非常简单的，但是这些简单的神经元构成一层，在层数足够多后，就可以获取足够丰富的特征。从机制上讲，卷积神经网络与人的视觉神经还真是像。下面进入正题。

LeNet（1998）

网络基本架构为：conv1 (6) -> pool1 -> conv2 (16) -> pool2 -> fc3 (120) -> fc4 (84) -> fc5 (10) -> softmax，括号内数字表示channel数。这是个很小的五层网络（特指卷积或者全连接层），图中subsampling下采样是pooling layer， kernel size 是2x2， stride 2，feature map刚好为上层一半大小。该网络用于对支票（还是邮政？）的手写数字分类。网络受制于当时的硬件条件和训练数据大小，并未带来神经网络的爆发。
LeNet网络结构

AlexNet（2012）

AlexNet是2012年ILSVRC（ImageNet Large Scale Visual Recognition Challenge）冠军，以高出10%的正确率力压第二名，这是CNN网络首次获胜，将卷积神经网络的巨大优势带入人们视野。
ILSVRC 历年top5错误率及神经网络深度（层数）：
ILSVRC top5错误率及网络深度
AlexNet基本架构为：conv1 (96) -> pool1 -> conv2 (256) -> pool2 -> conv3 (384) -> conv4 (384) -> conv5 (256) -> pool5 -> fc6 (4096) -> fc7 (4096) -> fc8 (1000) -> softmax。AlexNet有着和LeNet相似网络结构，但更深、有更多参数。conv1使用11×11的滤波器、步长为4使空间大小迅速减小(227×227 -> 55×55)。

AlexNet的特点：

第一次使用ReLU激活函数，有更好的梯度特性、训练更快。
使用了随机失活(dropout)，p=0.5，可以防止过拟合
大量使用数据扩充技术
使用SGD，Momentum 0.9
learning rate 1e-2 (0.01)， reduced by 10 manually when val accuracy plateaus
L2 weight decay 5e-4
batch size 128
使用Norm layers（不再使用）

由于当时GPU不够强大，网络有两个分支，放在两个GPU上分别训练，当前已经不存在这个问题了，因此也常见到只有一个分支的网络结构图。另外需说明的是，图上表的输入图片大小是224，其实应该是227，否则网络跑不通。

双分支网络结构：
AlexNet原网络单分支网络结构（当下使用这个就行）
AlexNet单分支网络结构
ILSVRC 2013冠军是ZFNet，仅在AlexNet上做了一些改进，没有突破性技术，这里不再赘述。

VGGNet

ILSVRC 2014冠军是GoogLeNet，亚军是VGG。虽然VGG网络是亚军，但是其应用更加广泛。
VGG网络作者尝试了多种结构，较常用的有VGG16和VGG19（VGG16网络更简单，性能也可以，应用最广泛）。
VGG16的基本架构为conv1^2 (64) -> pool1 -> conv2^2 (128) -> pool2 -> conv3^3 (256) -> pool3 -> conv4^3 (512) -> pool4 -> conv5^3 (512) -> pool5 -> fc6 (4096) -> fc7 (4096) -> fc8 (1000) -> softmax。 ^3代表重复3次。
VGG网络结构
VGG16内存主要消耗在前两层卷积，而参数最主要在第一层全连接中最多。这里说的内存消耗，主要是指存储各层feature map所用的空间，对第一层而言，输入是图片，占用大小就是图片长×宽×通道数，卷积后输出占用的内存就是输出尺寸乘积；参数量中参数是网络需要学习的部分，也就是卷积和全连接层的权重矩阵大小，因为网络中权重矩阵以kernel形式存在，因此参数量就是kernel的（长x宽x通道数）x个数。
VGG16内存和参数消耗 tricks：由于主要参数消耗在fc6（各层命名见后图）这一层，可以替换为对上一层7x7x512的feature map 在7x7上做average pooling，得到512个数，也是可行的（Andrej Karpathy在2016 CS231n课上讲的），这点在GoogLeNet中有应用。

VGGNet特点：

结构简单，只有3x3，stride 1，pad 1的卷积和2x2，stride 2的max pooling，每过一次pooling，feature map大小降低一半。
参数量大（参数和内存解析见上图）
合适的网络初始化
使用batch normalization
FC7提取的特征对其他任务有帮助。FC7始于AlexNet，表示某一全连接层，该层提取特征用于分类任务。

VGG16中对各层的命名如下：
VGG16各层命名
需注意的是，VGGNet之所以使用更小的kernel，是因为3个3x3的conv和1个7x7的conv具有的感受野是相同的，但是3层3x3带来更深的网络结构，非线性更强，另外参数量更少：3*（3x3xCxC）vs 7x7xCxC （这里C是channel数，同时认为kernel数也是C，等价于输出的channel是C）

GoogLeNet

GoogLeNet是ILSVRC2014冠军，取名源自作者所处单位Google，其中L大写是为了向LeNet致敬。该网络如之前所提，使用average pooling代替了最耗参数（相应的也最耗时间）的全连接层，同时使用inception模块来代替简单的卷积层（inception的名字来源于盗梦空间中的we need to go deeper的梗）；另外，使用1x1的卷积进行了降维。
inception module

ResNet

ResNet是ILSVRC 2015的冠军。ResNet最大的贡献在于解决了深层网络难以训练的问题（反向传播梯度弥散），它的网络深度达到了152层！ResNet网络结构如下图所示。

ResNet网络之所以能够训练下去主要得益于residual block（残差模块）的使用。残差模块是一种短路连接，如下图所示。通常的“plain”结构如左侧所示，而residual网络如右侧所示，加了一条短路路径，使得前面的输入可以直接连接到输出。原本图中几层要学习的是H(x)，现在由于多加了输入x的影响，网络层需要拟合的变成了F(x) = H(x) - x
residual block ResNet的特点：

使用BN（Batch Normalization）layer在每个conv layer后
每个residual block包含两个3x3 conv layer
周期性的使用stride 2 pooling降低维度，相当于除2
最耗时的FC层使用pool代替
SGD + Momentum 0.9
learning rate 0.1， divided by 10 when validation error plateaus
Mini-batch size 256
Weight decay 1e-5
不使用dropout

截至2017年，典型CNN网络的准确度和复杂度：
网络复杂度

参考资料：
斯坦福CS231n 2016/2017 教学视频和课件
https://zhuanlan.zhihu.com/p/31727402

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)