轻量级卷积神经网络的设计技巧

2023-11-13

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

这篇文章将从一个证件检测网络(Retinanet)的轻量化谈起，简洁地介绍，我在实操中使用到的设计原则和idea，并贴出相关的参考资料和成果供读者参考。因此本文是一篇注重工程性、总结个人观点的文章，存在不恰当的地方，请读者在评论区指出，方便交流。

目前已有的轻量网络有：MobileNet V2和ShuffleNet v2为代表。在实际业务中，Retinanet仅需要检测证件，不涉及过多的类别物体的定位和分类，因此，我认为仅仅更换上述两个骨架网络来优化模型的性能是不够的，需要针对证件检测任务，专门设计一个更加轻量的卷积神经网络来提取、糅合特征。

设计原则：

1. 更多的数据

轻量的浅层网络特征提取能力不如深度网络，训练也更需要技巧。假设保证有足够多的训练的数据，轻量网络训练会更加容易。

Facebook研究院的一篇论文^[1]提出了“数据蒸馏”的方法。实际上，标注数据相对未知数据较少，我使用已经训练好、效果达标的base resnet50的retinanet来进行自动标注，得到一批10万张机器标注的数据。这为后来的轻量网络设计奠定了数据基础。我认为这是构建一个轻量网络必要的条件之一，网络结构的有效性验证离不开大量的实验结果来评估。

接下来，这一部分我将简洁地介绍轻量CNN地设计的四个原则

2. 卷积层的输入、输出channels数目相同时，计算需要的MAC(memory access cost)最少

3. 过多的分组卷积会增加MAC

对于1x1的分组卷积（例如：MobileNetv2的深度可分离卷积采用了分组卷积），其MAC和FLOPS的关系为：

g代表分组卷积数量，很明显g越大，MAC越大。详细参考^[2]

4. 网络结构的碎片化会减少可并行计算

这些碎片化更多是指网络中的多路径连接，类似于short-cut，bottle neck等不同层特征融合，还有如FPN。拖慢并行的一个很主要因素是，运算快的模块总是要等待运算慢的模块执行完毕。

5. Element-wise操作会消耗较多的时间（也就是逐元素操作）

从表中第一行数据看出，当移除了ReLU和short-cut，大约提升了20%的速度。

以上是从此篇论文^[2]中转译过来的设计原则，在实操中，这四条原则需要灵活使用。

根据以上几个原则进行网络的设计，可以将模型的参数量、访存量降低很大一部分。

接下来介绍一些自己总结的经验。

6. 网络的层数不宜过多

通常18层的网络属于深层网络，在设计时，应选择一个参考网络基线，我选择的是resnet18。由于Retinanet使用了FPN特征金字塔网络来融合各个不同尺度范围的特征，因此Retinanet仍然很“重”，需要尽可能压缩骨架网络的冗余，减少深度。

7. 首层卷积层用空洞卷积和深度可分离卷积替换

一个3x3，d=2的空洞卷积在感受野上，可以看作等效于5x5的卷积，提供比普通3x3的卷积更大的感受野，这在网络的浅层设计使用它有益。计算出网络各个层占有的MAC和参数量，将参数量和计算量“重”的卷积层替换成深度可分离卷积层，可以降低模型的参数量。

这里提供一个计算pytorch 模型的MAC和FLOPs的python packages^[3]。

if __name__ == "__main__":
    from ptflops import get_model_complexity_info

    net = SNet(num_classes=1)
    x = torch.Tensor(1, 3, 224, 224)

    net.eval()

    if torch.cuda.is_available():
        net = net.cuda()
        x = x.cuda()

    with torch.cuda.device(0):
        flops, params = get_model_complexity_info(net, (224, 224), print_per_layer_stat=True, as_strings=True, is_cuda=True)
        print("FLOPS:", flops)
        print("PARAMS:", params)

output:

(regressionModel): RegressionModel(
    0.045 GMac, 27.305% MACs,
    (conv1): Conv2d(0.009 GMac, 5.257% MACs, 128, 256, kernel_size=(1, 1), stride=(1, 1))
    (act1): ReLU(0.0 GMac, 0.041% MACs, )
    (conv2): Conv2d(0.017 GMac, 10.472% MACs, 256, 256, kernel_size=(1, 1), stride=(1, 1))
    (act2): ReLU(0.0 GMac, 0.041% MACs, )
    (conv3): Conv2d(0.017 GMac, 10.472% MACs, 256, 256, kernel_size=(1, 1), stride=(1, 1))
    (act3): ReLU(0.0 GMac, 0.041% MACs, )
    (output): Conv2d(0.002 GMac, 0.982% MACs, 256, 24, kernel_size=(1, 1), stride=(1, 1))
  )
  (classificationModel): ClassificationModel(
    0.044 GMac, 26.569% MACs,
    (conv1): Conv2d(0.009 GMac, 5.257% MACs, 128, 256, kernel_size=(1, 1), stride=(1, 1))
    (act1): ReLU(0.0 GMac, 0.041% MACs, )
    (conv2): Conv2d(0.017 GMac, 10.472% MACs, 256, 256, kernel_size=(1, 1), stride=(1, 1))
    (act2): ReLU(0.0 GMac, 0.041% MACs, )
    (conv3): Conv2d(0.017 GMac, 10.472% MACs, 256, 256, kernel_size=(1, 1), stride=(1, 1))
    (act3): ReLU(0.0 GMac, 0.041% MACs, )
    (output): Conv2d(0.0 GMac, 0.245% MACs, 256, 6, kernel_size=(1, 1), stride=(1, 1))
    (output_act): Sigmoid(0.0 GMac, 0.000% MACs, )
  )

8. Group Normalization 替换 Batch Normalization

BN在诸多论文中已经被证明了一些缺陷，而训练目标检测网络耗费显存，开销巨大，通常冻结BN来训练，原因是小批次会让BN失效，影响训练的稳定性。建议一个BN的替代--GN，pytorch 0.4.1内置了GN的支持。

9. 减少不必要的shortcut连接和RELU层

网络不够深，没有必要使用shortcut连接，不必要的shortcut会增加计算量。RELU与shortcut一样都会增加计算量。同样RELU没有必要每一个卷积后连接（需要实际训练考虑删减RELU）。

10. 善用1x1卷积

1x1卷积可以改变通道数，而不改变特征图的空间分辨率，参数量低，计算效率也高。如使用kernel size=3，stride=1，padding=1，可以保证特征图的空间分辨率不变，1x1的卷积设置stride=1,padding=0达到相同的目的，而且1x1卷积运算的效率目前有很多底层算法支持，效率更高。[5x1] x [1x5] 两个卷积可以替换5x5卷积，同样可以减少模型参数。

11. 降低通道数

降低通道数可以减少特征图的输出大小，显存占用量下降明显。参考原则2

12. 设计一个新的骨架网络找对参考网络

一个好的骨架网络需要大量的实验来支撑它的验证，因此在工程上，参考一些实时网络结构设计自己的骨架网络，事半功倍。我在实践中，参考了这篇^[4]paper的骨架来设计自己的轻量网络。

总结

我根据以上的原则和经验对Retinanet进行瘦身，不仅局限于骨架的新设计，FPN支路瘦身，两个子网络（回归网络和分类网络）均进行了修改，期望性能指标FPS提升到63，增幅180%。

FPS

mAP

Model size

好消息！

小白学视觉知识星球

开始面向外开放啦

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

轻量级卷积神经网络的设计技巧的相关文章

WEB前端常见受攻击方式及解决办法总结

一个网址建立后如果不注意安全问题就很容易被人攻击下面讨论一下集中漏洞情况和放置攻击的方法一 SQL注入所谓的SQL注入就是通过把SQL命令插入到web表单提交或输入域名或页面请求的查询字符串最终达到欺骗服务器执行恶意的SQL命
2024年金三银四网络安全考试试题

2023年金三银四网络安全考试试题 1 关于数据使用说法错误的是 A 在知识分享案例中如涉及客户网络数据应取敏感化不得直接使用 B 在公开场合公共媒体等谈论传播或发布客户网络中的数据需获得客户书面授权或取敏感化公开渠道获得的除
Python爬虫实战：IP代理池助你突破限制，高效采集数据

当今互联网环境中为了应对反爬虫匿名访问或绕过某些地域限制等需求 IP代理池成为了一种常用的解决方案 IP代理池是一个包含多个可用代理IP地址的集合可以通过该代理池随机选择可用IP地址来进行网络请求 IP代理池是一组可用的代理IP地址
「网络安全渗透」如果你还不懂CSRF？这一篇让你彻底掌握

1 什么是 CSRF 面试的时候的著名问题谈一谈你对 CSRF 与 SSRF 区别的看法这个问题如果我们用非常通俗的语言讲的话 CSRF 更像是钓鱼的举动是用户攻击用户的而对于 SSRF 来说是由服务器发出请求用户日服务器
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【具有延迟反馈的滤波器，其具有负群延迟】对于混沌系统，在可预测性高的阶段，该滤波器具有预测能力(Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
基于卡尔曼的混合预编码技术用于多用户毫米波大规模MIMO系统研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
机器学习算法实战案例：LSTM实现多变量多步负荷预测

文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
华为OD机试2024年最新题库（Java）

我是一名软件开发培训机构老师我的学生已经有上百人通过了华为OD机试学生们每次考完试会把题目拿出来一起交流分享重要 2024年1月 5月考的都是OD统一考试 C卷题库已经整理好了命中率95 以上这个专栏使用 Java 解法问
「优选算法刷题」：移动零

嗨这个假期罗根开始接触了算法在为今年的蓝桥杯做准备所以开个新专栏记录记录自己做算法题时的心得一题目给定一个数组 nums 编写一个函数将所有 0 移动到数组的末尾同时保持非零元素的相对顺序请注意必须在不复制数组的情况下
「优选算法刷题」：快乐数

一题目编写一个算法来判断一个数 n 是不是快乐数快乐数定义为对于一个正整数每一次将该数替换为它每个位置上的数字的平方和然后重复这个过程直到这个数变为 1 也可能是无限循环但始终变不到 1 如果这个过程结果为 1 那么这个
短信系统搭建主要因素|网页短信平台开发源码

短信系统搭建主要因素网页短信平台开发源码随着移动互联网的快速发展短信系统已成为企业和个人进行信息传递的重要工具建立一个高效可靠的短信系统对于企业来说非常重要下面我们将介绍一些影响短信系统搭建的主要因素 1 平台选择在搭建短信系统
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
用栈实现队列（OJ中报错的处理）

用栈实现队列 ERROR AddressSanitizer myQueueFree函数中栈的释放处现了问题没有调用StackDestory而是直接free了这个是栈初始化时 capacity与malloc申请的空间大小没有匹配请你仅使
网络安全（黑客）自学启蒙

一什么是网络安全网络安全是一种综合性的概念涵盖了保护计算机系统网络基础设施和数据免受未经授权的访问攻击损害或盗窃的一系列措施和技术经常听到的红队渗透测试等就是研究攻击技术而蓝队安全运营安全运维则研究防御技术作
【一种新的Burton-Miller型奇异边界方法（BM-SBM）】用于声学设计灵敏度分析，2D和3D声学设计灵敏度分析的奇异边界方法研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 2D 2 2 3D
为什么我强烈推荐大学生打CTF！

前言写这个文章是因为我很多粉丝都是学生经常有人问感觉大一第一个学期忙忙碌碌的过去了啥都会一点但是自己很难系统的学习到整个知识体系很迷茫想知道要如何高效学习这篇文章我主要就围绕两点减少那些罗里吧嗦的废话直接上干货 CTF如
ESP10B 锁定连接器

ESP10B 锁定连接器 ESP10B 电机新增内容包括双极型号标准 NEMA 尺寸 17 23 和 34 的步进电机现在包括输出扭矩范围从 61 盎司英寸到 1291 盎司英寸的双极型号该电机配有带锁定连接器的尾缆可轻松连接每转可步

随机推荐

web前端面试题（全）

近来看到网上格式各样的web前端求职的面试题接下来我用我的经验总结了一套在面试过程中高频率问到的面试题希望能帮助各位求职者在求职的过程中顺利通过废话不多说直接说题一 HTML5部分 1 说一下对css盒模型的理解答 css盒子模
【总结一】现代密码学

目录 1 密码学概述 1 1 密码学的基本概念 1 1 1 为什么要学密码学 1 1 2 什么是密码学 1 1 2 密码算法的基本模型 1 1 3 密码算法的分类 1 2 密码分析学 1 3 古典密码算法 1 3 1 置换密码 1 3 2
对表的复杂查询

1 连接查询数据库中的各个表中存放着不同的数据用户往往需要用多个表中的数据来组合提炼出所需要的信息如果一个查询需要对多个表进行操作就称为连接查询例对student sno clno sname ssex sage course
Windows上安装Hadoop 3.x

目录 0 安装Java 1 安装Hadoop 1 1 下载Hadoop 1 2 下载winutils 2 配置Hadoop 1 hadoop env cmd 2 创建数据目录 3 core site xml 4 hdfs site xml
解决textarea文字不顶头显示/点击textarea 不是第一行

问题描述表单提交后发现内容前多了很多空格而且每次更新表单提交都会有空格增加后来发现每次文字从数据库读到textarea后文字都不居左在排出样式转义字符等问题后 baidu google了一会始终没找到答案后来发现原来问题处在H
网络--正向代理和反向代理

正向代理的概念正向代理也就是传说中的代理他的工作原理就像一个跳板简单的说我是一个用户我访问不了某网站但是我能访问一个代理服务器这个代理服务器呢他能访问那个我不能访问的网站于是我先连上代理服务器告诉他我需要那个无法访问网
如何将VS Code扩展插件迁移出系统盘

背景 Windows的C盘系统盘容量经常不够用经过排查发现VSCode的扩展插件所在目录占用了很大空间为了节省系统盘的空间需要将VSCode扩展插件迁移到D盘环境 Windows VS Code 全称是Visual Studio
MySQL的JSON数据类型介绍以及JSON的解析查询

文章目录概述 JSON 数据类型的意义 JSON相关函数测试创建测试表插入数据查询数据条件查询优化JSON查询解决方案总结概述 MySQL从5 7后引入了json数据类型以及json函数可以有效的访问json格式的数据
iOS音视频—FFmepg:iOS平台下集成和应用

1 在iOS平台下集成和应用FFmpeg Mac配置FFmpeg环境 1 安装homebrew ruby e curl fsSL https raw githubusercontent com Homebrew install master
通讯录管理系统（C++）

1 菜单功能功能描述用户选择功能的界面步骤封装函数showMenu 显示该界面在main函数中调用封装好的函数菜单界面 void showMenu cout lt lt 1 添加联系人 lt lt endl cout lt lt
\t转义字符占几个字节？

这个问题在你学习编程过程中可能会考虑到有时为了字节对齐而使用转义符中 t 但是到底 t占用几个空格呢下面我们首先通过程序来体验下然后在总结 include
ElasticSearch（7）---倒排索引

上一篇 ElasticSearch 6 Kibana插件 1 正向索引和反向索引涉及到索引的概念的时候首先需要知道索引可以分为正向索引和反向索引也可以理解为倒排索引正向索引正向索引可以简单理解为从文档到单词例如现在有4个文档
C库函数之memcpy的实现

C库函数之memcpy的实现 memcpy的实现方式是当满足四字节对齐时进行四字节的拷贝不满足时进行单字节的拷贝例如拷贝10个字节循环两次拷贝四字节在循环两次拷贝一字节 void mem memcpy void dst const
h5页面加空格常用的几种方法

1 html table align center border 1px width 200px tr td 姓名 td td 姓名 td tr tr td 姓 nbsp 名 td td 姓 160 名 td tr tr td 姓 ensp
原深感摄像头与face id实现人脸3D扫描和建模（转）

原文地址 https tech china com article 20170914 2017091459353 html 就在本月13号苹果在乔布斯剧院高调地召开了2017秋季新品发布会本场发布会的最大亮点也是此前外界最期待的无疑
正确认识H.264与MPEG-4技术产品

MPEG4的技术规范如下表所示 H 264视频编解码标准被纳入MPEG 4 Part 10标准中也就是说它只是附属于MPEG 4的第十部分换句话说 H 264没有超出MPEG 4标准范畴因此网上有关H 264标准和视频传输质量高于M
errors and 0 warnings potentially fixable with the `--fix` option.

vue 项目运行过程中出现 3 errors and 0 warnings potentially fixable with the fix option 的错误报错问题原因一在创建vue项目中会选择linter Formatter
记一次MQ并发消费导致任务状态异常问题

背景项目中有一个短信群发任务例如1次要发送1W条短信系统会获取任务中每一条短信的MQ并发发送短信任务默认状态是未发送状态码 0 需要在这一批任务发送第一条短信的时候将任务状态修改为发送中状态码 1 在任务发送结束将状态修改为发
轻量级卷积神经网络的设计技巧

点击上方小白学视觉选择加星标或置顶重磅干货第一时间送达这篇文章将从一个证件检测网络 Retinanet 的轻量化谈起简洁地介绍我在实操中使用到的设计原则和idea 并贴出相关的参考资料和成果供读者参考因此本文是一篇注重

轻量级卷积神经网络的设计技巧

轻量级卷积神经网络的设计技巧 的相关文章

随机推荐

热门标签

轻量级卷积神经网络的设计技巧的相关文章