CV 计算机视觉 常见网络 总结 应付面试版

2023-10-27

AlexNet

1、GPU加速、ReLu、LRN(局部响应归一化)、FC前两层Dropout
2、conv1 + max pooling1 +conv2 + max pooling2+ conv3 + conv 4 + conv5 + max pooling3 + FC1 + FC2 +FC3

VGG

1、多个3*3卷积核代替大尺度卷积核
2、网络D包含16个隐藏层的叫VGG-16;网络D包含19个隐藏层的叫VGG-19
3、感受野:feature map 上的一个单元对应输入层区域的大小GoogLeNet

GoogLeNet

在这里插入图片描述

1、Inception结构,用于融合不同尺寸的特征信息;
inception 结构

2、1×1的卷积核进行降维以及映射处理;
3、两个辅助分类器帮助训练
在这里插入图片描述
在这里插入图片描述

4、丢弃FC,使用average pooling,大大减少模型参数;
5、并行化

ResNet

在这里插入图片描述

1、网络结构可以突破1000层
2、提出risidual模块,通过add操作将特征合并
残差模块
Concat与add的区别:
Concat:张量拼接,会扩充两个张量的维度,例如2626256和2626512两个张量拼接,结果是2626768。
add:张量相加,张量直接相加,不会扩充维度。例如104104128和104104128相加,结果还是104104128。add和cfg文件中的shortcut功能一样。
3、丢弃dropout,使用BN加速训练
4、解决梯度消失、梯度爆炸、退化问题
5、BN目的是使得同一通道的feature map满足均值为0,方差为1的分布规律。通常放在卷积层激活层之间

ResNeXt

在这里插入图片描述

1、ResNeXt中堆叠的模块本质就是就是采用分组卷积的residual模块
2、ResNet与Inception的结合体
3、residual模块的通道数要比ResNet多
在这里插入图片描述
ResNeXt论文中首先提出的是上图中(a)的形式,通过一系列等价变换,最终可以得到如图(c )所示分组卷积的形式

MobileNet

MobileNet V1

1、采用Depthwise Separable Convolution,减少运算量参数量
Depthwise Separable Convolution由两部分组成,分别是Depthwise Convolution和Pointwise Convolution
在这里插入图片描述
在这里插入图片描述

2、增加了控制卷积核卷积个数的超参数 α \alpha α和输入图像大小的 β \beta β,用户可以根据项目需求使用合适的超参数;
在这里插入图片描述
在实验过程中发现Depthwise Convolution参数大部分为零---->这部分卷积核是无效的,在MobileNet V2网络中对这个问题有所优化

MobileNet V2

1、Inverted Residual Block
在这里插入图片描述
1×1卷积升维 + 3×3 Depthwise Separable Convolution + 1×1卷积降维
使用的Relu6激活函数: y = R e L U 6 ( x ) = m i n ( m a x ( x , 0 ) , 6 ) y = ReLU6(x) = min(max(x,0),6) y=ReLU6(x)=min(max(x,0),6)
在Inverted Residual Block模块中的最后一个卷积层使用的是线性激活函数,也就是Linear Bottleneck,论文中通过实验发现Relu激活函数对低维度特征信息造成大量损失,而Inverted Residual Block中使是"中间大两头小"的结构,因此输出是相对低维度的特征,因此需要使用线性激活函数来替代Relu函数来避免对低维度特征信息造成损失。具体结构如下:
在这里插入图片描述

当stride=1且输入特征矩阵与输出特征矩阵shape相同时才有shortcut连接,而并不是stride=1的Inverted Residual Block都会有shortcurt连接。

在这里插入图片描述

MobileNet V3

1、采用了bneck结构,进一步优化了Inverted Residual Block
在这里插入图片描述
添加了通道注意力机制:在进行Depthwise Convolution之后对特征矩阵按照通道进行池化,获得一个一维的向量,再在向量的基础上连接两个全连接层(第一层非线性激活函数为ReLU,第二层非线性激活函数为Hard-Sigmoid),输出获得向量相当于获得了特征矩阵各个Channel之间的权重关系,最终将该向量逐通道乘到原始的特征矩阵上。

更新了激活函数 H a r d − S i g m o i d = ReLU ⁡ 6 ( x + 3 ) 6 Hard-Sigmoid = \frac{\operatorname{ReLU} 6(x+3)}{6} HardSigmoid=6ReLU6(x+3)Hard-Sigmoid函数和Sigmoid函数是非常接近的,但是在计算求导过程中会变得更加简单:
在这里插入图片描述

2、使用了Neural Architecture Search搜索参数
3、重新设计了耗时层结构 ;
在这里插入图片描述

ShuffleNet

ShuffleNet V1

在这里插入图片描述

1、提出了Channel Shuffle的思想;
在这里插入图片描述
将经过第一次Group Convolution之后的结果,将不同Group间的Channel混乱后再进行第二次Group Convolution,这样就可以实现不同Group特征的融合。
2、ShuffleNet V1中采用的全是Group Convolution和Depthwise Separable Convolution
在这里插入图片描述

ShuffleNet V2

在这里插入图片描述

在这里插入图片描述

1、Equal Channel width minimizes memory access cost(MAC);在卷积和FLOPs不变的前提下,当卷积层的输入特征矩阵与输出特征矩阵Channel相等就能获得最小的Memory Access Cost
2、Excessive group convolution increases MAC;当FLOPs保持不变,GConv的groups增大时,Memory Access Cost也会增大
3、Network fragmentation reduces degree of parallelism;网络设计的碎片化程度越高,速度越慢,虽然这种设计通常可以增加模型的精度
4、Element-wise operations are non-negligible;Element-wise操作带来影响是不可忽视的,Element-wise操作包括ReLU、AddTensor、AddBias等操作,不加入ReLU和short-cut操作速度最快

EfficientNet

EfficientNet V1

在这里插入图片描述

文章同时探讨了输入分辨率,网路深度和宽度的影响:
a、增加网络的深度,能够得到更加丰富、复杂的特征并且能够很好的应用到其他任务中,但网络的深度过深会面临梯度消失,训练困难的问题。
b、增加网络的宽度,能够过得更高细粒度的特征并且也更容易训练,但对于width很大而深度较浅的网络往往很难学习到更加深层次的特征。
c、增加输入网络的图像分辨率能够获得更高细粒度的特征模板,但对于非常高的输入分辨,准确率增加的收益会减小,并且大分辨率图像会增加计算量。

EfficientNet V2

在这里插入图片描述

a、训练图像尺寸很大时,训练速度非常慢,针对这个问题解决方案就是降低训练图像的尺寸,使用更大的batch_size;
b、在网络浅层中使用Depthwise convolution速度会非常慢,无法充分利用现有的一些加速器,因此EfficientNet V2中引入了Fused-MBConv结构;
c、同等放大每个Stage是次优的,在EfficientNet V1中,每个Stage的深度和宽度都是同等放大的,但是每个Stage对网络的训练速度以及参数数量并不相同,所以直接使用同等缩放策略并不合理,因此在V2中采用了非均匀的缩放策略来缩放模型;
与Efficient V1的不同点主要在于:
a、处理使用MBConv模块,还使用了Fused-MBConv模块;
在这里插入图片描述

b、会使用较小的Expansion Ratio;
c、偏向使用更小的Kernel Size(3×3);
d、移除了Efficient V1中最后一个步距为1的Stage;

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CV 计算机视觉 常见网络 总结 应付面试版 的相关文章

  • Mass-Bruter:一款功能强大的网络常用服务爆破枚举工具

    关于Mass Bruter Mass Bruter是一款功能强大的网络常用服务爆破枚举工具 该工具本质上是一个简单的PoC项目 可以帮助广大研究人员快速在大规模网络系统中执行常见服务爆破枚举 该工具专为红队研究人员设计 支持检测FTP SS
  • 光纤知识总结

    1光纤概念 光导纤维 英语 Optical fiber 简称 光纤 是一种由玻璃或塑料制成的纤维 利用光在这些纤维中以全内 反射 原理传输的光传导工具 微细的光纤封装在塑料护套中 使得它能够弯曲而不至于断裂 通常光纤的一端的发射设备使用发光
  • 分辨公网IP和内网IP的方法

    公网IP一般就是对外的访问地址 内网IP就是对内的访问地址 两者的使用范围是不一样的 那如果区分客户网络的IP地址是公网IP地址还是内网IP地址呢 公网IP的地址范围是很广泛的 我们可以先了解下内网IP 因为内网IP的地址段相对是局限的 一
  • 网络基础面试题(二)

    11 什么是网桥 防火墙的端口防护是指什么 网桥是一种网络设备 用于连接两个或多个局域网 LAN 并转发数据包 它能够根据MAC地址来识别和转发数据 提高网络的传输效率和安全性 防火墙的端口防护是指对防火墙上的各个端口进行保护和限制 只允许
  • 如何使用内网穿透实现iStoreOS软路由公网远程访问局域网电脑桌面

    文章目录 简介 一 配置远程桌面公网地址 二 家中使用永久固定地址 访问公司电脑 具体操作方法是 简介 软路由 是PC的硬件加上路由系统来实现路由器
  • 网络空间安全女生就业,怎么学?

    我实验室的学长们基本都是以红队和复现为主 如果学校好点可能还有更多的选择 如果想在这个方向深入下去 推荐流程是先打两年CTF 把大概的技术方向摸一摸 大一的话 如果学校还不错 那就优先建议打好基础 包括C语言 Python一类 建议把CTF
  • 基于机器学习的投资组合推荐系统+源代码+文档说明+演示视频

    文章目录 源码下载地址 项目介绍 界面预览 项目备注 毕设定制 咨询 源码下载地址 源码下载地址 点击这里下载源码 项目介绍 界面预览
  • 十分钟部署清华 ChatGLM-6B,实测效果超预期(Linux版)

    前段时间 清华公布了中英双语对话模型 ChatGLM 6B 具有60亿的参数 初具问答和对话功能 最 最 最重要的是它能够支持私有化部署 大部分实验室的服务器基本上都能跑起来 因为条件特殊 实验室网络不通 那么如何进行离线部署呢 经过一上午
  • 基于成本和服务质量考虑的不确定性下,电动汽车充电网络基础设施需求预测和迭代优化的分层框架研究(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Python代码 数据
  • 文档扫描与矫正-仿射变换

    图像变换是计算机视觉和图像处理中的关键技术之一 它允许我们对图像进行各种形式的变形 调整和校正 其中 仿射变换是一种常见的变换方式 在文档扫描过程中 由于拍摄角度和畸变等原因 文档图像可能存在一定程度的形变 仿射变换可以用于校正文档图像 使
  • 深度好文:最全的大模型 RAG 技术概览

    本文是对检索增强生成 Retrieval Augmented Generation RAG 技术和算法的全面研究 对各种方法进行了系统性的梳理 涉及了 RAG 流程中的数据拆分 向量化 查询重写 查询路由等等 在做 RAG 的小伙伴一定知道
  • 用通俗易懂的方式讲解:图解 Transformer 架构

    文章目录 用通俗易懂方式讲解系列 1 导语 2 正文开始 现在我们开始 编码 从宏观视角看自注意力机制 从微观视角看自注意力机制 通过矩阵运算实现自注意力机制
  • 通俗易懂,十分钟读懂DES,详解DES加密算法原理,DES攻击手段以及3DES原理

    文章目录 1 什么是DES 2 DES的基本概念 3 DES的加密流程 4 DES算法步骤详解 4 1 初始置换 Initial Permutation IP置换 4 2 加密轮次 4 3 F轮函数 4 3 1 拓展R到48位 4 3 2
  • 用CHAT分析高校体育智慧教学体系构建与探索研究现状

    CHAT回复 现阶段 高校体育智慧教学体系的构建与探索研究还处于初级阶段 但全球数字化转型大潮的推动下 一些较为前沿的研究和实践已经开始出现 1 教学平台的建设 很多高校已经开始尝试使用在线教育平台进行体育教学 把传统的面对面授课模式转变为
  • 基于opencv的大米计数统计(详细处理流程+代码)

    在我每周的标准作业清单中 有一项是编写计算机视觉算法来计算该图像中米粒的数量 因此 当我的一个好朋友M给我发了一张纸上的扁豆照片 显然是受到上述转发的启发 请我帮他数一下谷物的数量时 它勾起了我怀旧的回忆 因此 我在我的旧硬盘上寻找很久以前
  • 2024 人工智能与大数据专业毕业设计(论文)选题指导

    目录 前言 毕设选题 选题迷茫 选题的重要性 更多选题指导 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕业设计耗费大量精力 近几年各个学校要求的毕设项目越来越难 有不少课题是研究生
  • 用通俗易懂的方式讲解:使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

    检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术 它有效地解决了大语言模型 LLM 的一些问题 比如幻觉 知识限制等 随着 RAG
  • tcpdump抓包

    tcpdump抓包 基本概念 1 类型的关键字 host 指明一台主机 如 host 10 1 110 110 net 指明一个网络地址 如 net 10 1 0 0 port 指明端口号 如 port 8090 2 确定方向的关键字 sr
  • 3D点云检测神技 | UFO来了!让PointPillars、PV-RCNN统统涨点!

    作者 AI驾驶员 编辑 智驾实验室 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 3D目标检测 技术交流群 本文只做学术分享 如有侵权 联系删文 在这篇论文中提出了一个关于在3D点云中检测未
  • ESP10B 锁定连接器

    ESP10B 锁定连接器 ESP10B 电机新增内容包括双极型号标准 NEMA 尺寸 17 23 和 34 的步进电机现在包括输出扭矩范围从 61 盎司英寸到 1291 盎司英寸的双极型号 该电机配有带锁定连接器的尾缆 可轻松连接 每转可步

随机推荐

  • 「考生说」计算机专业内卷严重,我真的会编程吗?

    现在每次听到大家都在说 原来你会编程呀 都会有一点小小的庆幸 但是其实对于程序员而言而言 能编程 会编程 和 学编程 是不同的概念 从根本上说 编程就是和计算机沟通 学习编程可以让自己变得理性 严谨起来 从电脑的角度去思考问题 去解决问题
  • 前端常用的组件库

    Vue2 组件库们 Element https element eleme cn zh CN component select 主用于后台项目 Vant https youzan github io vant zh CN 主用于移动端项目
  • java 遍历目录下所有文件_java实现遍历某个目录(包括子目录)下的所有文件

    在java中遍历一个文件夹里边的所有文件 可以有两种方式 一 递归遍历 通常也是开发者第一时间能想到的方法 递归遍历的优点是 实现起来相对简单 代码量相对较少 执行效率较高 缺点是 比较吃内存 对硬件要求较高 在线视频教程分享 java在线
  • 【运维面试】Docker技术面试题总结

    运维面试 Docker技术面试题总结 一 Docker的基础概念 1 1 什么是Docker 它可以为我们提供哪些便利 1 2 Docker的优点是什么 1 3 Docker的镜像是什么 1 4 Docker的数据卷是什么 1 5 Dock
  • Ubuntu中安装tftp/tftp-hpa服务的方法

    检查tftp是否已经安装 netstat a grep tftp 若出现 udp 0 0 tftp 则说明已经安装 否则没有 1 安装相关软件包 apt get install tftpd 服务端 apt get install tftp
  • 【计算机毕业设计】java SpringBoot众筹平台 众筹服务网站

    毕设帮助 源码交流 技术解答 见文末 一 前言 众筹 也就是所谓的大众筹资 主要的途径就是通过互联网平台向网友募集项目资金 它是互联网的产物 众筹平台 简单来说就是开办众筹业务 为社会投资者与资金需求者提供中介服务的特殊的服务平台 它主要是
  • $nextTick 和 $set、$delete

    nextTick 一 操作DOM元素 二 应用场景 set delete 一 引入背景 直接给对象复制操作 虽然可以新增属性 但是不会触发视图更新 官方文档定义 如果实力创建之后添加新的属性到实例上 它不会触发视图更新 二 使用 问题 定义
  • Permission denied: user=root, access=EXECUTE, inode=“/tmp“:atguigu:supergroup:drwx------

    出错细节 Caused by org apache hadoop ipc RemoteException org apache hadoop security AccessControlException Permission denied
  • 【ML】少样本学习解释和分步如何使用

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • 基于c3c2440 Linux SPI驱动程序移植与测试

    基于c3c2440 Linux SPI驱动程序移植与测试 环境 ubuntu14 04 TQ2440开发板 linux3 0内核 linux3 0内核移植笔记点此 1 配置内核 Device Drivers gt SPI support g
  • 由于找不到msvcp120.dll,无法继续执行代码的三个修复教程

    打开运行photoshop 3dmx pr等软件的时候 计算机提示 由于找不到msvcp120 dll 无法继续执行代码 这个一般都不会由于软件引起的问题 而是计算机Windows系统中的动态链接库损坏了 msvcp120 dll是一个动态
  • Adobe illustrator安装路径选择的问题

    Adobe illustrator安装路径选择的问题 累 Adobe illustrator这个软件是挺大的 单从下载就要等好久 为了避免安装到C盘博主真的是累 不知道下载了几个版本反反复复安装 卸载 安装 卸载 就是不给博主选择路径的余地
  • PAT 1054 求平均值 python

    1054 求平均值 20 分 本题的基本要求非常简单 给定 N 个实数 计算它们的平均值 但复杂的是有些输入数据可能是非法的 一个 合法 的输入是 1000 1000 区间内的实数 并且最多精确到小数点后 2 位 当你计算平均值的时候 不能
  • spring websocket中 STOMP

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 26 4 基于WebSocket消息架构STOMP WebSocket协议定义了两种消息类型 文本或字节 但是没定义它们的内容 它有意让客户端和服务端通过通用的子协议 例如
  • 什么是原油期货(什么是原油期货交易)

    什么是原油期货 期货买卖是指在期货买卖场合内 按确定规定轨制举行的期货公约的交易 寰球火油商场带来宏大报复 火油价钱激烈振动 径直引导了火油期货的爆发 原油期货前提 满意原油期货前提如次 1 从硬性前提来说 要开明原油期货的账户 这就诉求开
  • 自然语言处理课程作业 中文文本情感分类

    摘要 20世纪初以来 文本的情感分析在自然语言处理领域成为了研究的热点 吸引了众多学者越来越多的关注 对于中文文本的情感倾向性研究在这样一大环境下也得到了显著的发展 本文主要是基于机器学习方法的中文文本情感分类 主要包括 使用开源的Mark
  • python输出1到100内的奇数_用Python输出0-100之间的奇数之和

    展开全部 具体算式如下 gt gt gt t 0 gt gt gt for i in range 100 if i 2 1 t i gt gt gt print t 2500 gt gt gt 这句if i 2 1 是i对626169647
  • echarts点击图表事件和鼠标悬浮事件

    在使用echarts开发过程中 经常会遇到一些需求就是点击图表或者鼠标悬浮在图表上有接下来的相关动态操作 只需将获取的echarts实例添加监听事件即可实现 鼠标点击echarts图表 const myChart echarts init
  • 在linux虚拟机安装Elasticsearch遇到的问题及解决方法

    在linux虚拟机安装Elasticsearch遇到的问题及解决方法 0 unable to load JNA native support library native methods will be disabled 1 max fil
  • CV 计算机视觉 常见网络 总结 应付面试版

    文章目录 AlexNet VGG GoogLeNet ResNet ResNeXt MobileNet MobileNet V1 MobileNet V2 MobileNet V3 ShuffleNet ShuffleNet V1 Shuf