VGG预训练模型网络结构详解——以VGG16为例

2023-11-18

VGG卷积神经网络是牛津大学在2014年提出来的模型。当这个模型被提出时，由于它的简洁性和实用性，马上成为了当时最流行的卷积神经网络模型。它在图像分类和目标检测任务中都表现出非常好的结果。在2014年的ILSVRC比赛中，VGG 在Top-5中取得了92.3%的正确率。有VGG16和VGG19，模型的权重由ImageNet训练而来。

1、VGG结构
在这里插入图片描述
结构图介绍：
（1）：conv3-64 ：是指第三层卷积后维度变成64，同样地，conv3-128指的是第三层卷积后维度变成128；
（2）：input（224x224 RGB image）指的是输入图片大小为224x244的彩色图像，通道为3，即224x224x3；
（3）：maxpool 是指最大池化，在vgg16中，pooling采用的是2x2的最大池化方法；
（4）：FC-4096 指的是全连接层中有4096个节点，同样地，FC-1000为该层全连接层有1000个节点；
（5）：padding指的是对矩阵在外边填充n圈，padding=1即外边缘填充1圈，5x5大小的矩阵，填充一圈后变成7x7大小；在进行卷积操作的过程中，处于中间位置的数值容易被进行多次的提取，但是边界数值的特征提取次数相对较少，为了能更好的把边界数值也利用上，所以给原始数据矩阵的四周都补上一层0，这就是padding操作。
（6）：vgg16每层卷积的滑动步长stride=1，padding=1。

以VGG16为例来说明：
在这里插入图片描述
从上图可以看出VGG16由13个卷积层+3个全连接层=16层构成，过程为：
（1）输入：输入224 * 224 * 3的图片。
（2） Conv1_1+conv1_2+pool1：经过64个卷积核的两次卷积后，采用一次max pooling。经过第一次卷积后，有（3 * 3 * 3） * 64=1728个训练参数；第二次卷积后，有（3 * 3 * 64） * 64=36864个训练参数，大小变为112 * 112 * 64.
（3） Conv2_1+conv2_2+pool2：经过两次128个的卷积核卷积之后，采用一次max pooling，有（3 * 3 * 128） * 128=147456个训练参数，大小变为56 * 56 * 128.
（4） Conv3_1+conv3_2+con3_3+pool3: 经过三次256个的卷积核卷积之后，采用一次max pooling，有（3 * 3 * 256） * 256=589824个训练参数，大小变为28 * 28 * 256.
（5） Conv4_1+conv4_2+con4_3+pool4: 经过三次512个的卷积核卷积之后，采用一次max pooling，有（3 * 3 * 512） * 512=2359296个训练参数，大小变为14 * 14 * 512.
（6） Conv5_1+conv5_2+con5_3+pool5: 再经过三次512个的卷积核卷积之后，采用一次max pooling，有（3 * 3 * 512） * 512=2359296个训练参数，大小变为7 * 7 * 512.
（7） Fc6+Fc7+Fc8:经过三次全连接，最终得到1000维的向量。

VGG16模型所需要的内存容量
在这里插入图片描述
上图，非常清晰地展示了每经过一次卷积或pooling后，所需要占用的内存，以及需要传送的权重值个数。

conv的基本概念
在这里插入图片描述
image为需要进行卷积的图片，而convolved feature为卷积后得到的特征图；图中黄色矩阵即为卷积核filter，image为5x5大小的一维图像，filter为3x3大小的一维矩阵；卷积过程是：filter与image对应位置相乘再相加之和，得到此时中心位置的值，填入第一行第一列，然后在移动一个格子（stride=1），继续与下一个位置卷积…，最后得到是3x3x1的矩阵。
卷积神经网络的卷积核大小、个数，卷积层数如何确定呢？卷积核的大小一般选择3x3和5x5。一般取(3,3)的小矩阵，训练效果会更好。卷积核里面每个值就是我们需要寻找（训练）的神经元参数(权重)，开始会随机有个初始值，当训练网络时，网络会通过后向传播不断更新这些参数值，直到寻找到最佳的参数值。对于如何知道是“最佳”？则是通过loss损失函数去评估。
卷积核的步长是指卷积核每次移动几个格子，有横行和纵向两个方向。
卷积操作相当于特征提取，卷积核相当于一个过滤器，提取我们需要的特征。如上图，左边小红色框是卷积核，从左上角扫到右下角，最终得到右边的特征图谱。

池化Pooling
池化操作相当于降维操作，有最大池化和平均池化，其中最大池化(max pooling)最为常用。经过卷积操作后我们提取到的特征信息，相邻区域会有相似特征信息，这是可以相互替代的，如果全部保留这些特征信息会存在信息冗余，增加计算难度。
最大池化就是取filter对应区域内最大像素值替代该像素点值，其作用是降维。在这里，池化使用的滤波器都是2*2大小，因此池化后得到的图像大小为原来的1/2。下图为最大池化过程：
通过池化层会不断地减小数据的空间大小，参数的数量和计算量会有相应的下降，这在一定程度上能够控制过拟合。在这里插入图片描述
全连接FC层
在全连接层中的每一个节点都与上一层每个节点连接，把前一层的输出特征都综合起来。在VGG16中，第一个全连接层FC1有4096个节点，同样第二个全连接层FC2也有4096个节点，最后一个FC3有1000个节点。

softmax层
softmax层一般连接的是全连接层和loss层，现在的CNN都是end-to-end的，最后通过全连接层送入softmax来进行分类。

Flatten 是指将多维的矩阵拉开，变成一维向量来表示。
Dropout是指在网络的训练过程中，按照一定的概率将网络中的神经元丢弃，这样有效防止过拟合。
VGG采用的激活函数是ReLu. ReLu是非常接近线性函数的非线性函数。

——————————————————————————
部分内容参考：https://baijiahao.baidu.com/s?id=1667221544796169037

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

VGG预训练模型网络结构详解——以VGG16为例的相关文章

机房软件管理服务器及系统软件,高校机房软件自动化部署管理系统的设计及实现...

摘要随着我国高等学校计算机教育的飞速发展计算机作为一种重要的信息化工具受到越来越大的重视计算机在各个学科中也发挥着越来越重要的作用现在计算机在高校中是公共必修课而且开设了更多的计算机应用专业课高等院校计算机机房的规模也越来越大
使用WireShark协议分析仪来分析ICMP与FTP协议

这是网络第2次试验 wireshark分析仪网站 http www wireshark org 了解ICMP协议 ICMP Internet Control Message Protocol 网际报文控制协议是Internet协议族的核心
python中 r什么意思_python中w、r指的是什么意思

python中w r指的是什么意思发布时间 2020 11 20 10 54 44 来源亿速云阅读 100 作者小新这篇文章将为大家详细讲解有关python中w r指的是什么意思小编觉得挺实用的因此分享给大家做个参考希望大家
Ubuntu安装GMP库、PBC library

历时一周终于安装完成期间犯了太多错误都是一点一点查的 Pbc library 库的安装依赖于如下四个文件 GMP Library M4 flex bison 其中在Linux系统中 M4 flex bison 均可以通过 apt get
为什么Precision高Recall就低——F1 score

梳理一下公式 sensitivity recall Precision和Recall虽然从计算公式来看并没有什么必然的相关性关系但是在大规模数据集合中这2个指标往往是相互制约的理想情况下做到两个指标都高当然最好但一般情况下 Pre

随机推荐

什么是护网（HVV)?需要什么技能？

HVV介绍 1 什么是护网护网的定义是以国家组织组织事业单位国企单位名企单位等开展攻防两方的网络安全演习进攻方一个月内采取不限方式对防守方展开进攻不管任何手段只要攻破防守方的网络并且留下标记即成功直接冲到防守方的办公大楼然后物
git软件代码提交详解

git提交代码流程 git提交代码时不能把代码直接提交到master分支需要切换到一个子分支然后把要提交的代码上传到子分支然后将子分支合并到master分支上提交步骤 1 创建并切换到子分支 git checkout b 子分支名
Linux软硬链接的区别

1 概念软链接软链接又叫符号链接这个文件包含了另一个文件的路径名可以是任意文件或目录可以链接不同文件系统的文件硬链接就是一个文件的一个或多个文件名硬链接就是让多个不在或者同在一个目录下的文件名同时能够修改同一个文件其中一
16.odoo入门——初探后台启动过程(三)

第16天终于周五迎来难得的双休上次说到运行如下代码 rc odoo service server start preload preload stop stop 又调用了odoo service server py下的start函数
ssh命令,key认证

1 sshd简介当主机中开启openssh服务那么就对外开放了远程连接的接口 openssh服务的服务端开元的远程连接 sshd secure shell 服务端软件对外开放一个接口让别人通过其他途径连接可以通过网络在主机中开机s
Jean-Pierre Merlet 教授的并联机器人研究

Jean Pierre Merlet是法国国家信息与自动化研究所 INRIA 的高级科研人员严格来说不是教授其著作 Parallel Robots 是并联机器人领域的经典教材自1986年在巴黎第六大学获得博士学位后他长期从事并联机器
SHA-3算法学习笔记——day1_算法简介。

由于种种原因对kyber算法的学习需要终止一阶段呜呜呜现阶段学习SHA 3杂凑算法 SHA 3算法的优化等问题后续不知道还要不要学习先学该算法的基本结构吧 SHA 3算法是一种杂凑算法其涉及到的数学专业知识不多结构也相对简单轮运
WIN10局域网共享方法

1 控制面板网络和 Internet 网络和共享中心高级共享设置打开启动网络发现启动文件共享和打印机共享 2 win r运行gpedit msc 打开本地组策略编辑器找到计算机配置管理模板网络 Lanman工作站启动不安全
Mybatis学习笔记（一）

MyBatis学习笔记 1 Mybatis 开源免费框架以前叫ibatis 2010年在google code 2013年迁移到git tub 2 作用数据访问层框架 2 1底层是对jdbc的封装 3 mybatis优点使用mybat
什么是Odoo ERP：部署方式、业务集成、成本投入、发展与未来

ERP部署的类型如何部署ERP 系统通过多年的发展 ERP系统的部署方式更加多样化包括公有云或私有云部署本地部署或整合不同环境的混合部署场景企业可根据自身条件与应用场景加以选择下面介绍了每种部署模式的主要优势旨在帮助你选择最合
这份4577页的Java面试PDF，让我成功斩获阿里、字节等大厂offer

我为大家准备了一份超级全面的Java 学习面试笔记这份电子版笔记涵盖了诸多后端技术栈的面试题和答案相信可以帮助大家在最短的时间内复习Java后端的大多数技术点和面试题从而拿到自己心仪的offer 共4577页整体还是比较清爽的大家
使用python中的随机森林进行数据分类预测

以下是使用Python中的随机森林进行数据分类预测的示例代码引入需要的库 from sklearn ensemble import RandomForestClassifier from sklearn model selection i
利用百度AI 合成语音2

文字合成语音 coding UTF 8 from aip import AipSpeech from playsound import playsound 你的 APPID AK SK APP ID 20232679 API KEY bZc
HEVC原理-图像的二维变换与离散余弦变换（DCT）

最近在做RDOQ算法优化和硬件系统结构设计建立其时序模型估算算法的硬件复杂度在做这部分工作的同时博主学习了图像的二维变换与离散余弦变换 DCT 总结如下 1 图像的二维离散变换与一维的有限长离散非周期信号存在傅里叶变换 DFT 一
properties文件快速转为yml文件

只是做了简单的测试没有考虑过文件里有注释的情况思想就是先把数据读到map中然后再保存到新的文件中 public class Test public static void main String args throws Excepti
C++ 0x 之移动语义和传导模板实现原理

文李博光宇广贞 C 0x 之左值与右值文中提到 std forward 和 std move 本文开头对之补充一句在操作函数返回值或函数参数时匿名左值仍然为左值左值可以具名匿名右值仍然为右值右值一旦具名成功立即转变为左值
Fping命令解析

Fping程序类似于ping ping是通过ICMP 网络控制信息协议InternetControl Message Protocol 协议回复请求以检测主机是否存在 Fping与ping不同的地方在于 fping可以在命令行中指定要pin
QT_内存

深度解析QMap与QHash 转载于 http www cnblogs com 5iedu p 5835715 html
Redis——持久化数据

Redis被称为是内存数据库那是因为它会将其所有数据存储在内存里因此Redis具有强劲的速度性能但是也正因为数据存储在内存中当Redis重启后所有存储在内存的数据就会丢失为了使得数据持久化 Redis提供了两种方式 RDB方式
VGG预训练模型网络结构详解——以VGG16为例

VGG卷积神经网络是牛津大学在2014年提出来的模型当这个模型被提出时由于它的简洁性和实用性马上成为了当时最流行的卷积神经网络模型它在图像分类和目标检测任务中都表现出非常好的结果在2014年的ILSVRC比赛中 VGG 在Top

VGG预训练模型网络结构详解——以VGG16为例

VGG预训练模型网络结构详解——以VGG16为例 的相关文章

随机推荐

热门标签

VGG预训练模型网络结构详解——以VGG16为例的相关文章