飞桨学习笔记之经典图像分类模型

2023-10-28

1 LeNet

LeNet 通过连续使用卷积和池化层的组合提取图像特征。网络结构示意图:
在这里插入图片描述

  1. 第一模块:包含5×5的6通道卷积和2×2的池化。卷积提取图像中包含的特征模式(激活函数使用 sigmoid),图像尺寸从32减小到28(32-5+1=28)。经过池化层可以降低输出特征图对空间位置的敏感性,图像尺寸减到14(28/2=14)。
  2. 第二模块:和第一模块尺寸相同,通道数由6增加为16。卷积操作使图像尺寸减小到10(14-5+1=10),经过池化后变成5(10/2=5)。
  3. 第三模块:包含5×5的120通道卷积。卷积之后的图像尺寸减小到1(5-5+1=1),但是通道数增加为120。将经过第3次卷积提取到的特征图输入到全连接层。第一个全连接层的输出神经元的个数是64,第二个全连接层的输出神经元个数是分类标签的类别数,对于手写数字识别其大小是10。然后使用 SoftMax 激活函数即可计算出每个类别的预测概率。

卷积层的输出特征图如何当作全连接层的输入使用呢?
卷积层的输出数据格式是[N,C,H,W],在输入全连接层的时候,会自动将数据拉平,也就是对每个样本,自动将其转化为长度为K的向量,其中 K=C×H×W,一个 mini-batch 的数据维度变成了 N×K 的二维向量。

在图片尺寸比较大时,LeNet 在图像分类任务上存在局限性。

2 AlexNet

AlexNet 与 LeNet 相比,具有更深的网络结构,包含5层卷积和3层全连接,同时使用了如下三种方法改进模型的训练过程:

  1. 数据增广:可以随机改变训练样本,避免模型过度依赖于某些属性,能从一定程度上抑制过拟合。
  2. 使用 Dropout 抑制过拟合。
  3. 使用 ReLU 激活函数减少梯度消失现象。

网络结构示意图:
在这里插入图片描述

3 VGG

VGG-16 的网络结构示意图:(下半部分顺序为从左到右)
在这里插入图片描述
将最后一层全连接层的输出作为分类的预测。每层卷积将使用 ReLU 作为激活函数,在全连接层之后添加 dropout 来抑制过拟合。使用小的卷积核能够有效地减少参数的个数,使得训练和测试变得更加有效。比如使用两层3×3卷积层,可以得到感受野为5的特征图,而比使用5×5的卷积层需要更少的参数。由于卷积核比较小,可以堆叠更多的卷积层,加深网络的深度,这对于图像分类任务来说是有利的。VGG 模型的成功证明了增加网络的深度,可以更好地学习图像中的特征模式。

4 GoogLeNet

空间分布范围更广的图像信息适合用较大的卷积核来提取其特征;而空间分布范围较小的图像信息则适合用较小的卷积核来提取其特征。为了解决这个问题,GoogLeNet 提出了一种被称为 Inception 模块的方案。Inception 模块结构示意图:
在这里插入图片描述
图(a)是 Inception 模块的设计思想,使用3个不同大小的卷积核对输入图片进行卷积操作,并附加最大池化,将这4个操作的输出沿着通道这一维度进行拼接,构成的输出特征图将会包含经过不同大小的卷积核提取出来的特征。
Inception 模块采用多通路(multi-path)的设计形式,每个支路使用不同大小的卷积核,最终输出特征图的通道数是每个支路输出通道数的总和,这将会导致输出通道数变得很大,尤其是使用多个 Inception 模块串联操作的时候,模型参数量会变得非常大。为了减小参数量,Inception 模块使用了图(b)中的设计方式,在每个3x3和5x5的卷积层之前,增加1x1的卷积层来控制输出通道数;在最大池化层后面增加1x1卷积层减小输出通道数。
池化操作可以指定窗口大小 k_h=k_w=3,pool_stride=1 和 pool_padding=1,此时输出特征图尺寸就可以保持不变,从而和另外3个卷积输出的特征图进行拼接。

GoogLeNet 模型网络结构示意图:
在这里插入图片描述
在主体卷积部分中使用5个模块(block),每个模块之间使用最大池化层来减小输出高宽。第三模块串联2个完整的 Inception 块。第五模块的后面紧跟输出层,使用全局平均池化层来将每个通道的高和宽变成1,最后接上一个输出个数为标签类别数的全连接层。
添加了 softmax1 和 softmax2 两个辅助分类器,训练时将三个分类器的损失函数进行加权求和,以缓解梯度消失现象。

5 ResNet

残差块(Residual block)设计思想:
在这里插入图片描述
图(a):表示增加网络的时候,将 x 映射成 y=F(x) 输出。
图(b):残差块。输出 y=F(x)+x。这时不是直接学习输出特征 y 的表示,而是学习 y−x。如果想学习出原模型的表示,只需将 F(x) 的参数全部设置为0,则 y=x 是恒等映射。F(x)=y−x 也叫做残差项,如果 x→y 的映射接近恒等映射,图中通过学习残差项也比图(a)学习完整映射形式更加容易。输入 x 通过跨层连接,能更快地向前传播数据,或者向后传播梯度。

残差块的具体设计方案如图:
在这里插入图片描述
这种设计方案也称作瓶颈结构(BottleNeck)。

ResNet-50 模型包含49层卷积和1层全连接,网络结构示意图:
在这里插入图片描述
小结:可以进一步调整学习率和训练轮数等超参数,观察是否能够得到更高的精度。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

飞桨学习笔记之经典图像分类模型 的相关文章

  • 深入解析JS工程逆中的反爬机制

    在当今互联网时代 爬虫技术被广泛应用于数据采集 搜索引擎优化等领域 然而 许多网站为了保护其数据和资源 采取了各种反爬机制 JS逆工程是其中一种常见的反爬手段 通过在网页中利用JavaScript代码动态生成内容 使得爬虫难以获取有效数据
  • ansible批量自动安装LNMP

    转载于 https www cnblogs com hai better p 9995258 html
  • 算法[动态规划]---买卖股票最佳时机

    1 题目 给你一个整数数组 prices 其中 prices i 表示某支股票第 i 天的价格 在每一天 你可以决定是否购买和 或出售股票 你在任何时候最多只能持一股股票 你也可以先购买 然后在同一天出售 返回你能获得的最大利润 2 分析特
  • 蓝桥杯2022 python C组

    蓝桥杯2022 python C组 跟之前的就四题不一样 第二题 特殊时间 就是i 从0 9 j从0 9 i是三个一样的 然后看看他们能不能成为 年 月日 时分 成为年只要大于0就好了 称为月日的话月要从1 12 日呢 特殊的日子就二月28

随机推荐

  • Java连接Oracle数据库(详细!快速上手)

    Java连接Oracle数据库及封装JDBC 如果你点开看到了这篇文章 说明你已经或多或少地通过学校学习亦或是自学了解了 oracle 数据库的基本用法 但是实际在开发程序的时候 我们是不可能手动地去操作sql语句的 而是由程序去调用 这个
  • adb shell 出现 insufficient permissions for device

    新安装了一台电脑 要用adb跟开发板通信 1 安装adb user hp 8200 Desktop factory adb shell The program adb can be found in the following packag
  • 使用过的小巧软件一览

    最近遇到一个脑洞的问题 之前使用Winrar 压缩软件 加密的代码包 由于时间久远 密码忘记了 尝试了记得的各种可能的密码 都是不行 但大概记得长度和部分字符 可就是不记得如何组合的了 后来网上搜索了一番 找到一个小软件 暴力破解了一番 好
  • Linux安全基线检查--centos7

    版权声明 本文为CSDN博主 淡定波007 的原创文章 遵循CC 4 0 BY SA版权协议 转载请附上原文出处链接及本声明 原文链接 https blog csdn net qq 28721869 article details 1146
  • 使用storcli/storcli64工具配置RAID

    storcli storcli工具上传到服务器任意目录 并使用命令chmod x storcli64修改文件权限为可执行 系统下查看Raid卡 root localhost lspci grep LSI 0000 81 00 0 RAID
  • C++函数的定义与使用

    函数的定义和使用 main就是一个函数 它是C 程序的主函数 一个C 程序可以由一个主函数和若干子函数组成 主函数是程序执行的开始点 由主函数调用子函数 子函数还可以再调用其它子函数 调用其它函数的函数称为主调函数 被其他函数调用的函数称为
  • flexible.js实现移动端自适应

    首先要引入flaxible js 代码如下 function win lib var doc win document var docEl doc documentElement var metaEl doc querySelector m
  • linux下查看进程的位置

    在linux下使用top命令可以查看进程 但是单从文件名无法定位到进程的位置 有如下两种方法 1 获取进程的pid 然后使用命令ls l proc pid 这个命令可以列出该进程的启动位置 2 usr sbin lsof grep 进程名称
  • redis集群搭建(6节点单实例)

    1 分布式缓存的搭建 地址与服务器规划 Master1 192 168 232 128 slaver1 192 168 232 131 Master2 192 168 232 129 slaver2 192 168 232 132 Mast
  • Python中类的访问限制

    学习要点 在Python中 类的访问限制可以通过使用单下划线 和双下划线 进行控制 但这并不是严格的访问控制 而是一种命名约定 单下划线 约定性私有 一个下划线前缀表示一个属性或方法应该被视为 内部 使用 这只是一种约定 并没有严格的强制规
  • 数据库试题

    1 单选题 下列关于关系型数据库说法错误的是 A 使用键值对存储数据 B 关系型数据库 是指采用了关系模型来组织数据的数据库 C 关系型数据库的最大特点就是事务的一致性 D 关系型数据库的不足 大量数据的操作 字段的不固定 对表的索引以及表
  • 分支与循环语句_C语言入门

    目录 2 分支语句 什么是分支语句 2 1 if 语句 2 1 1 单分支 2 1 2 双分支 2 1 3 多分支 2 2 switch 选择结构 2 2 2 default 子句 3 循环语句 3 1for 循环 3 1 1 for循环的
  • Tomcat 详解(安装Tomcat、启动和配置,发布一个web网站)

    接下来开始 Tomcat DE 详细介绍 文章目录 一 安装Tomcat 二 Tomcat 启动和配置 2 1 目录文件 2 2 启动 Tomcat 测试 2 3 关闭 Tomcat 三 配置 四 发布一个 web 网站 五 常见面试题 一
  • Android系统之Bundle用法

    1 Bundle概述 Bundle在Android开发中非常常见 它的作用主要时用于传递数据 Bundle传递的数据包括 string int boolean byte float long double等基本类型或它们对应的数组 也可以是
  • springboot项目maven老是加载不了jar包如SpringBootApplication找不到

    困扰我好久了所以开贴记录一下 解决办法 我是清理了一些里面的杂乱的项目 就好了 具体的原因不太清楚 不过 应该事其他的项目造成的干扰 导致项目不能加载 以上方法不知道所以 下面方法可以尝试 在Maven命令后加入参数 Dmaven wago
  • 华为OD机试真题-静态代码扫描服务【2023Q1】【JAVA、Python、C++】

    题目描述 静态扫描快速快速识别源代码的缺陷 静态扫描的结果以扫描报告作为输出 1 文件扫描的成本和文件大小相关 如果文件大小为N 则扫描成本为N个金币 2 扫描报告的缓存成本和文件大小无关 每缓存一个报告需要M个金币 3 扫描报告缓存后 后
  • StringUtils详细介绍

    转自 https www oschina net code snippet 239959 8724 commentform public static void TestStr null 和 操作 判断是否Null 或者 System ou
  • 【Shell牛客刷题系列】SHELL16 判断输入的是否为IP地址:来练习正则表达式~

    该系列是基于牛客Shell题库 针对具体题目进行查漏补缺 学习相应的命令 刷题链接 牛客题霸 Shell篇 该系列文章都放到专栏下 专栏链接为 专栏 Linux 欢迎关注专栏 本文知识预告 本文首先结合之前正则表达式的相关知识 给出了IP地
  • 苹果ipcc下载

    http ax phobos apple com edgesuite net WebObjects MZStore woa wa com apple jingle appserver client MZITunesClientCheck v
  • 飞桨学习笔记之经典图像分类模型

    1 LeNet 2 AlexNet 3 VGG 4 GoogLeNet 5 ResNet 1 LeNet LeNet 通过连续使用卷积和池化层的组合提取图像特征 网络结构示意图 第一模块 包含5 5的6通道卷积和2 2的池化 卷积提取图像中