1.5.1 AlexNet

2023-11-03

五、AlexNet

AlexNet 是 2012 年第 3届 ILSVRC（ImageNet Large Scale Visual Recognition Comprtition）图像分类任务中的冠军模型，伴随着比赛的成功，这篇发表在 NIPS（Neural Information Processing Systems）上的论文¹截止目前已有超过 4.5 万次引用量，是学习深度学习尤其是 CNN 网络架构中必读的论文之一。AlexNet 以 15.3% 的误差率大差距碾压亚冠团队，由此开启了 CNN 在图像分类任务中的霸主地位。下图 1 是前 6 名的误识别率排名，第一名为 SuperVision 团队，即 AlexNet 模型。
【图 1】

5.1 ReLU 激活函数

在这之前，神经网络通常使用 t a n h tanh tanh 激活函数或者 S i g m o i d Sigmoid Sigmoid 激活函数，从本质上讲， t a n h tanh tanh 与 S i g m o i d Sigmoid Sigmoid 都是 “S” 型激活函数，在反向传播计算过程中都难免达到饱和状态，导致严重的梯度消失问题。据此，这里引入可一种称之为修正线性单元的激活函数，即 ReLU（Rectified Linear Units），其表达式为 f ( x ) = max ⁡ ( 0 , x ) f(x)=\max(0, x) f(x)=max(0,x)，三者的函数曲线图及导数曲线图如下图所示：
【图 2】
【图 3】

由于 ReLU 激活函数本身并不是可微分函数，为了计算便利，我们强制性定义在 0 处的微分值为 0。根据图 2，我们可以看到，当激活值趋近于 1， t a n h tanh tanh 和 s i g m o i d sigmoid sigmoid 函数的导数值迅速趋于平缓接近于 0，而 ReLU 的导数却随着激活值的增大而增大，这很大程度上缓解了梯度消失的问题，也加速了网络的训练速度。图 3 展示了一个四层卷积网络在 CIFAR-10 数据集上同样当训练误差达到 25% 时，ReLU 激活函数比 t a n h tanh tanh 激活函数快了 6 倍。（然而，在该数据集上实测发现 t a n h tanh tanh 与 ReLU 效果相差不大，甚至 t a n h tanh tanh 比 ReLU 略好，但总比均比 s i g m o i d sigmoid sigmoid 好很多。）
【图 4】

5.2 局部响应正则化

【图 5】

局部响应正则化（Local Response Normalization， LRN）是一种局部正则化技术，在 AlexNet 中，作者指出应用该技术可以在 top-1 和 top-5 误差率上分别降低 1.4% 和 1.2%。其理念来自于神经生物学中的侧抑制（lateral inhibitio）概念，侧抑制是指在某个神经元受到刺激而产生兴奋时，再刺激相近的神经元，则后者所发生的兴奋对前者产生的抑制作用。也就是说，侧抑制是指相邻的感受器之间能够互相抑制的现象。²而在 LRN 中，这种邻近神经元体现在不同通道的特征图上。具体的计算公式如下：

(1) b x , y i = a x , y i / ( k + α ∑ j = max ⁡ ( 0 , i − n / 2 ) min ⁡ ( N − 1 , i + n / 2 ) ( a x , j j ) 2 ) β b^i_{x,y}=a^i_{x, y}/\left(k+\alpha\sum^{\min (N-1, i+n/2)}_{j=\max(0,i-n/2)}(a^j_{x,j})^2\right)^{\beta} \tag{1} bx,yi=ax,yi/⎝⎛k+αj=max(0,i−n/2)∑min(N−1,i+n/2)(ax,jj)2⎠⎞β(1)

其中 a x , y i a^i_{x,y} ax,yi 是第 i i i 个特征通道 x , y x,y x,y 位置的值， b x , y i b^i_{x,y} bx,yi 是该通道经过 LRN 技术后的新值， N N N 是指通道数，即卷积核的数量， k , α , β , n k, \alpha, \beta, n k,α,β,n 均是超参数， n n n 为深度半径，控制邻近神经元的抑制范围， k k k 是为了防止除数为 0 添加的偏置项， α , β \alpha, \beta α,β 控制彼此抑制程度。该计算的直观理解可参照图 4。

import tensorflow as tf
import numpy as np
import random

x = np.array([random.randint(1, 100) for _ in range(40)]).reshape([2,2,2,5])
y = tf.nn.local_response_normalization(
    x,
    depth_radius=5,
    bias=2,
    alpha=10e-4,
    beta=0.75
)

with tf.Session() as sess:
    print(x)
    print(y.eval())

[[[[ 17  62  52  75  32]
   [ 46  57  11  80  49]]

  [[ 38  47  41  69   6]
   [ 32  27  36  69  61]]]


 [[[ 57  40  48  27 100]
   [ 90  85  45  37  82]]

  [[ 52  44  32  64  30]
   [ 57   2   9  54  93]]]]
[[[[ 2.1776824   7.942136    6.661146    9.607422    4.099167  ]
   [ 5.673838    7.030626    1.3567874   9.867545    6.0438714 ]]

  [[ 5.846031    7.2306175   6.30756    10.615162    0.92305756]
   [ 4.535786    3.8270695   5.1027594   9.780289    8.646342  ]]]


 [[[ 6.0538244   4.2482977   5.0979576   2.867601   10.620745  ]
   [ 7.5061765   7.0891666   3.7530882   3.0858727   6.838961  ]]

  [[ 7.747794    6.5558257   4.7678733   9.535747    4.469881  ]
   [ 6.8387866   0.23995742  1.0798084   6.4788504  11.15802   ]]]]

该技术在网络发展的后期使用较少，逐渐被 Batch Normalization（BN）等其他技术取代。

5.3 数据增强

数据增强是一种很实用的通过增大数据集以缓解过拟合的低成本技术。数据增强主要通过一些诸如图片平移、镜像翻转、倾斜、扭曲以及裁剪、通道变化等手段对原始数据集进行扩张。

另外，作者还提出了中通过调整图片 RGB 各颜色通道的光照强度，近似模拟自然图像的一个重要特性，即光照的颜色和强度发生变化时，目标本身不变。

需要注意的是，数据增强只发生在训练阶段、验证集和测试集不需要数据增强。

import tensorflow as tf
from tensorflow.keras.preprocessing import image
import matplotlib.pyplot as plt
datagen = image.ImageDataGenerator(rotation_range=40,
      width_shift_range=0.2,
      height_shift_range=0.2,
      shear_range=0.2,
      zoom_range=0.2,
      horizontal_flip=True,
      fill_mode='nearest')

img = image.load_img("demo.jpg")

x = image.img_to_array(img)
x = x.reshape((1,) + x.shape)

results = np.zeros((4*441+15, 4*700+15, 3), dtype=np.int32)
for i in range(4):  # iterate over the rows of our results grid
    for j in range(4):  # iterate over the columns of our results grid
        horizontal_start = i * 441 + i * 5
        horizontal_end = horizontal_start + 441
        vertical_start = j * 700 + j * 5
        vertical_end = vertical_start + 700
        results[horizontal_start: horizontal_end, vertical_start: vertical_end, :] = datagen.flow(x, batch_size=1)[0][0]

plt.figure(figsize=(20, 20))
plt.imshow(results)

【图 6】

5.4 Dropout

Dropout 是另一种非常有效的降低过拟合风险的策略。作者 Geoffrey HInton 提到，他是受到了银行中防欺诈的启发而发明的³。

我去银行的时候经常发现柜员一直在换，我询问了这么做的原因，但却没人知道。后来我想明白了，如果想要成功地进行银行欺诈往往需要内部员工的配合，这使我意识到如果对每个样本随机丢弃一部分不同的神经元，这样就能阻止“阴谋”的发生，进而减少过拟合。

【图 7】

Dropout 的核心思想就是在训练阶段，每一批量的训练样本上，网络都会以一定的概率随机丢弃一部分神经元，被丢弃的神经元实际输入与输出值均为 0，如上图所示。这样实际整个训练过程中，学习到了很多不同的网络架构，但是不同网络间的权重是共享的，这有点类似于组合机器学习策略。然而这样的策略并没有严谨的数学证明其理论的精准性，但是却是工程实践上很成功的策略。因此 Dropout 也有其较为直观的理解方式。通过 Dropout 随机丢弃部分神经元，可以打破神经元之间复杂的相互适应性，迫使每个神经元都去学习更加鲁棒的特征。如同在工作中，一项工作的进行不会因为某个人的请假、离职而中断，而是由替代者接替，这样可以迫使每个员工都可以学到更多的内容，也不会形成相互适应性，例如某些员工只负责某些事情，而某些员工即使消极怠工也不会影响正常工作。

假设网络以 p = 0.5 p=0.5 p=0.5 的概率随机丢弃网络中神经元，在测试阶段，我们需要“组合”网络，即在测试阶段不使用 Dropout，然而直观上测试阶段不使用 Dropout 的网络规模是训练阶段使用 Dropout 网络规模的二倍，因此，在测试阶段网络的输出需要除以 2.

由于 Dropout 技术直观上可以打破神经元之间的弱连接关系，强迫神经元学习强连接，因此它不仅可以学到更鲁棒的特征，提高泛化能力，而且也提高了反向传播的计算效率，加快网络收敛速度。

5.5 网络整体架构

【图 7】

网络在训练过程中使用了 2 块 GPU，因此网络架构中中间部分出现了 2 个完全一致的分支，然而作者指出，之所以使用 2 块 GPU，主要是解决显存不足的问题，本质上并没有加速网络的训练速度（尽管快了一点）。

【图 8】

CaffeNet 是单 GPU 版的 AlexNet，具体网络架构如图 8 所示。
AlexNet 网络结构如下表所示：

模块	卷积层	池化、正则
CONV1	[11×11 ~ 4 \| 3→96]	MAXPOOL[3×3 ~ 2]→LRN
CONV2	[5×5 ~ 1 \| 96→256]	MAXPOOL[3×3 ~ 2]→LRN
CONV3	[3×3 ~ 1 \| 256→384]	→LRN
CONV4	[3×3 ~ 1 \| 384→384]	→LRN
CONV5	[3×3 ~ 1 \| 384→256]	MAXPOOL[3×3 ~ 2]→LRN
FC1	[12544→4096]	DROPOUT 50%
FC2	[4096→4096]	DROPOUT 50%
Softmax	[4096→1000]

5.6 小结

AlexNet 的成功从真正意义上点燃了深度学习这把尘封已久的火炬，其技术实现上也取得非常大的突破。例如 ReLU 激活函数的成功运用，数据增强，Dropout 等降低过拟合风险的策略，如今这些技巧已成为深度学习中的标配组件。然而随着技术的进步，也有许多技术逐步被新技术取代或进一步改进，以寻求更强大的性能。

GPU 加速，现在主流机器学习框架如 TensoFlow 等完全支持 GPU 以及 TPU 硬件加速，甚至支持多机多卡分布式训练策略，极大的加快网络训练速度；
LRN 技术目前已基本被 BN 技术取代；
在本文中的池化原指重叠池化（Overlapping Pooling），目前一般采用常规 Max-Pooling。
在数据增强过程中，作者给出的第一种增强思路是从原图的四个角落及中心位置截取图片并通过水平翻转获得 10 张 224 × 224 224 \times 224 224×224 的子图，该图像的预测结果值为这 10 张子图的 softmax 输出层结果的平均值。而目前的数据增强是完全增强，作为独立图片使用。

ImageNet Classification with Deep Convolutional Neural Networks ↩︎
https://baike.baidu.com/item/%E4%BE%A7%E6%8A%91%E5%88%B6 ↩︎
https://jovianlin.io/the-idea-behind-dropout/ ↩︎

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

1.5.1 AlexNet 的相关文章

使用卷积神经网络（CNN）算法进行多变量时间序列预测的实战教程（Python）

使用卷积神经网络 CNN 算法进行多变量时间序列预测的实战教程 Python 深度学习在多变量时间序列预测中展现了广泛的应用前景其中卷积神经网络是最为经典的算法之一本篇文章将通过一个实例介绍如何使用卷积神经网络算法来预测交通流量情况
03：一文全解：使用Tensorflow搭建卷积神经网络CNN识别手写数字图片

标签空格分隔王小草Tensorflow笔记笔记整理者王小草笔记整理时间 2017年2月25日官方文档原文地址 https www tensorflow org get started mnist pros 官方文档最近更新时间
基于ARIMA-CNN-LSTM预测模型研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 1 1 A IMA 模型 1 2 CNN LSTM 模型 2 运行结果 3 参考文献 4 Python代码
【目标检测】25、Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

文章目录一背景二动机三方法 3 1 Backbone 3 2 Learnable proposal box 3 3 Learnable proposal feature 3 4 Dynamic instance interact
ACMix：清华提出融合卷积与自注意力机制的模块

前几天看了一篇由清华大学发表的融合卷积与自注意力机制的文章其中将融合模块称为 ACMix 本文主要就其中的融合细节进行讲述 paper http arxiv org abs 2111 14556 code https github com
基于FPGA的一维卷积神经网络CNN的实现（五）数据量化（附代码）

数据量化环境 Pytorch Pycham Matlab 订阅后有问题或者需要该节的文件直接加微信 Crazzy M 说明上一节已经通过Matlab中基础的乘加运算进行了CNN网络的前向计算过程该节利用Matlab将导出的CNN网络
基于keras的图像分类CNN模型的搭建以及可视化（附详细代码）

基于keras的图像分类CNN模型的搭建以及可视化本文借助keras实现了热图像的分类模型的搭建以及可视化的工作本文主要由以下内容组成 Keras模型介绍 CNN模型搭建模型可视化 Keras模型介绍简介 Keras 是 Goog
TensorFlow在MNIST中的应用识别手写数字（OpenCV+TensorFlow+CNN）

参考 1 TensorFlow技术解析与实战 2 http blog csdn net sparta 117 article details 66965760 3 http blog csdn net HelloZEX article de
【论文翻译】边缘应用中加速卷积神经网络的剪枝算法综述

摘要随着卷积神经网络 CNN 模型大小的增加模型压缩和加速技术对于在边缘设备上部署这些模型变得至关重要在本文中我们对修剪进行了全面的调查这是一种主要的压缩策略可以从CNN模型中删除非关键或冗余的神经元调查涵盖了修剪的总体动机
[深度学习] - 网络模型训练过程的 loss 变化分析 (loss / val_loss / test_loss)

目录一 train set 和 test set 基础知识二分析 loss 和 val loss test loss 变化情况一 train set 和 test set 基础知识 train set 训练集是用来训练网络模型的数据
卷积相关知识

二维图片卷积二维卷积可以处理二维数据 nn Conv2d self in channels out channels kernel size stride 1 padding 0 dilation 1 groups 1 bias True
CNN卷积神经网络实现手写数字识别（基于tensorflow）

1 1卷积神经网络简介文章目录 1 1卷积神经网络简介 1 2 神经网络 1 2 1 神经元模型 1 2 2 神经网络模型 1 3 卷积神经网络 1 3 1卷积的概念 1 3 2 卷积的计算过程 1 3 3 感受野 1 3 4 步长和参数
MATLAB实现CNN-LSTM卷积长短期记忆神经网络数据分类预测

作者简介热爱科研的Matlab仿真开发者修心和技术同步精进 matlab项目合作可私信个人主页 Matlab科研工作室个人信条格物致知内容介绍一种基于长短时记忆网络和卷积神经网络的文本分类方法首先利用词向量将输入文本进行向
TensorFlow.js - 使用 CNN(卷积神经网络) 识别手写数字

目录 index html data js script js 备注参考文献 index html
一文搞定attntion机制在CNN中的应用，手把手教你在Yolov5中插入attention. Attention结构的创新方法

免责声明 1 此方法仅提供参考 2 搬了其他博主的操作方法以贴上路径 3 场景一什么是Attention 场景二 Attention在cnn上的作用场景三常见的Attention机制场景四 Attention机制的创新思路场景五
【MATLAB第19期】基于贝叶斯Bayes算法优化CNN-LSTM长短期记忆网络的单列时间序列模型及多输入单输出回归预测模型

基于贝叶斯Bayes算法优化CNN LSTM长短期记忆网络的单列时间序列模型及多输入单输出回归预测模型前言前面在 MATLAB第8期讲解了基于贝叶斯Bayes算法优化LSTM长短期记忆网络的时间序列预测模型即单输入数据时间序列预测
机器学习课程总结3--基本卷积神经网络+评价指标+目标检测与Yolo网络

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档目录一基本卷积神经网络 1 AlexNet 2 VGG 16 3 残差网络二常用数据集与评价指标 1 数据集 2 评价指标三目标检测 YOLO 1 1 目标检测问
神经网络中FLOPs和MACs的计算（基于thop和fvcore.nn）

以输入为 1 1 200 3 的张量卷积取 nn Conv2d 1 64 kernel size 8 1 stride 2 1 padding 0 0 为例先计算输出的形状公式为 H上为 200 0 8 2 1 97 W上依然是3
人工智能自然语言处理：语言之美，算法之智

导言自然语言处理 Natural Language Processing NLP 是人工智能领域中备受关注的分支致力于让计算机能够理解处理和生成人类语言本文将深入研究人工智能在自然语言处理领域的关键技术应用场景以及未来发展趋势 1
时序预测 | MATLAB实现WOA-CNN-GRU-Attention时间序列预测（SE注意力机制）

作者简介热爱科研的Matlab仿真开发者修心和技术同步精进代码获取论文复现及科研仿真合作可私信个人主页 Matlab科研工作室个人信条格物致知更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信

随机推荐

MQTT遗愿(last will) paho.mqtt实现

一 MQTT遗嘱 MQTT 可以设置遗嘱客户端在连接Broker的时候将遗嘱内容也是topic payload形式遗嘱也有一个主题发送给Broker并保存在Broker中当客户端因为非正常原因断开与Broker的连接时 Broke
进程的相概念（linux系统编程）

什么是程序什么是进程有什么区别程序是静态的概念 gcc xx x o pro 磁盘中生成的pro就是程序进程是程序的一次运行活动通俗的讲就是程序跑起来了系统中就多了一个进程在Linux里面怎么查看系统中有哪些进程使用ps指令
linux的超级管理用户

超级管理用户也称为root用户是Linux系统中最高权限用户 root用户具有完全控制系统的权限可以执行任何操作包括管理文件修改配置安装软件等下面是root用户的用法大全切换到root用户在终端中输入以下命令 su roo
青龙面板使用教程，以及安装

1 青龙面板使用教程以及安装首先青龙面板是在docker里面的我们要安装一个docker 我这里只有debian 11 安装的教程如何在debian11上安装docker 知乎这个文章不错了按命令执行就好了其他操作系统的去网
K8S-11--prometheus--(监控基础/prometheus基础/grafana/promQL/exporter/cadvisor）

一监控基础一监控简介监控模型端监控业务层监控应用层监控中间件监控系统层监控 1 监控概述 web监控打开速度 URL打开状态码 API接口可用性业务监控订单交易量活跃用户量支付量中间件监控数据库 redis
跳出ping++退款的坑

近期在项目的开发过程中需要用到ping 的退款功能由于使用的版本比官方提供的要低2个小版本因此问题并不是很大但是由于官方文档有些内容写的比较含蓄因此遇到了一些问题我们可以通过如下的方式来获取SDK的版本 gt gt gt imp
STM32开发环境配置相关问题记录

1 编译时出现 error 35 error directive Please select first the target STM32F10x device used 解决方案点选options for target 选择C C 在d
K8S deployment挂载

Deployment部署文件 apiVersion apps v1 kind Deployment metadata annotations deployment kubernetes io revision 1 kubectl kuber
Spring Security认证成功后回跳（解决前后端分离下OAuth2认证成功回跳）

前言 Spring Security 后面简称SS 用了很长时间了但之前一直没注意到一个有趣的特性直到最近弄前后端分离在OAuth2提供者 github 认证后需要跳回前端页面前端页面和服务端不在同个域下然后突然一般情况下同域
鸿蒙系统做服务器,鸿蒙升级第一夜服务器崩了，有人等到凌晨3点，称升级后内存变大...

编赵艳秋 6月2日晚间华为宣布推出HarmonyOS 2 华为百款设备将陆续启动HarmonyOS 2升级不少华为用户则经历了艰难的一夜最大规模升级第一夜服务器崩了有如五一小长假期间的在线购票系统12306 6月2日晚因为太
半径为r的均匀带电球体_放于真空中半径为R，带电量为q的均匀带电球体，求球内外各点电势分布...

展开全部当半径r 一个均匀带电的球壳带电量为q 则e68a84e8a2ad62616964757a686964616f31333431353338对壳外部产生的场强为E q 4 r 内部场强为零则以上均匀带电的球内半径为r处电场强度
C语言删除字符串中某一指定字符

include
Python数据挖掘和解析算法

机器学习是计算机科学的一个分支它利用过去的经验来学习并利用其知识来做出未来的决策机器学习是计算机科学工程和统计学的交叉点机器学习的目标是概括一个可检测的模式或从给定的例子中创建一个未知的规则机器学习领域的概述如下监督学习这是教
11.3外汇黄金价格投资策略、期货原油最新价格布局及指导

黄金消息面与技术面解析消息面周二 11月2日国际金价持稳在通胀压力不断增加以及对经济增长放缓的担忧之际市场参与者等待美联储本周政策会议结果美国物价和薪资涨幅正处于数十年来的高位本周可能让美联储官员面临挑战分析师预计在央行收
STM32串口烧写程序

STM32烧写注意 1 必须使用串口1烧写 2 烧写 BOOT0置1 BOOT1置0 运行 BOOT0置0 BOOT1置任意 3 使用FLYMCU烧写软件 4 NRST引脚电路设计成悬空按键按下拉低步骤 1 买一根 TTL串口线分别把
全国各省、市、区（sql语句）

文章目录一省份数据表二市数据表注意因为到县sql语句太多文章限字数上传不全所以一半放到了另外的一篇文章上三上部分区县数据表四中部分区县数据表五下部分区县数据表六在在下部分区县数据表返回项目
股票分析，利用线性回归实时预测股价，只需要提供股票代码即可爬取相应股票数据并建模

这里参考了别人的代码并引用了tushare模块中定义的接口自动获取了依据股票代码来获取数据此篇文章提供了 1 一个简单通过接口爬取csv数据的方法 2 一个处理csv数据的简单方法 3 依据数据进行特征提取建立简单的股价预测模型如下
关于Pygame运行无响应问题的办法（已解决）

目录 pygame程序运行时需要初始化在关闭运行页面的时候无响应 pygame程序运行时需要初始化如下代码运行后无反应 import sys import pygame size width height 600 400 screen
华为机试2016

编程题最高分是多少老师想知道从某某同学当中分数最高的是多少现在请你编程模拟老师的询问当然老师有时候需要更新某位同学的成绩输入描述输入包括多组测试数据每组输入第一行是两个正整数N和M 0 lt N lt 30000 0 lt
1.5.1 AlexNet

目录五 AlexNet 5 1 ReLU 激活函数 5 2 局部响应正则化 5 3 数据增强 5 4 Dropout 5 5 网络整体架构 5 6 小结五 AlexNet AlexNet 是 2012 年第 3届 ILSVRC Imag