【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏

2023-11-09

【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏

【论文原文】:Structured Attention Knowledge Distillation for Lightweight Networks

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9601745
CSDN下载:https://download.csdn.net/download/qq_50757624/87389656

博主关键词:知识蒸馏,轻量级网络,注意力

推荐相关论文:

- 无

摘要:

知识蒸馏是通过设计的损失函数将教师网络学到的有效知识转移到学生网络中,帮助学生网络以更低的计算成本获得更好的性能。但是,当学生网络和教师网络在结构和计算量上存在很大差异时,以前的知识蒸馏方法很难有效提高学生网络性能。为了改善这种情况,本文提出了轻量级网络的结构化注意力蒸馏。结构化注意力蒸馏对模型中的特征进行通道分组,通过细化空间注意力图,帮助学生网络学习教师网络的特征提取能力。我们提出的方法是在CIFAR100和大规模人脸识别验证集(LFW,CFP-FP,Age-DB)上进行评估的。与其他蒸馏方法相比,我们提出的方法在CIFAR100和人脸识别验证集上获得了更好的精度。

简介:

近年来,深度学习已广泛应用于计算机视觉的各个方面,性能显著。AlexNet的出现因其ImageNet竞赛中的出色表现而引起了研究人员的注意。随后,研究人员发现卷积神经网络的层越深,参数越多,网络的性能就越好。但是,当卷积网络中有更多的层时,由于梯度消失,网络将难以收敛。为了解决这个问题,提出了ResNet和BN,以使卷积网络能够容纳更多的参数和层。尽管大型深度卷积神经网络在各种视觉任务中取得了惊人的效果,但由于参数庞大,计算成本巨大,很难将其部署在嵌入式终端或移动设备上。知识蒸馏是模型压缩的一种突出方法。知识蒸馏通过设计的损失函数将教师网络学习的有效知识转移到学生网络中,这有助于学生模型以更低的计算成本获得更好的性能。为了提高小型网络的性能,一些知识蒸馏方法陆续被提出。Geoffrey Hinton等人引入了知识蒸馏的概念,并提出使用教师网络的输出作为软标签来指导学生网络。FitNet提出了一种特征蒸馏的方法,使学生网络模仿教师网络的隐藏特征,从而提高学生网络的性能。谢尔盖·扎戈鲁伊科(Sergey Zagoruyko) 提出了注意力转移蒸馏,它通过提取教师网络生成的空间注意力图来指导学生网络。在注意力转移蒸馏的帮助下,学生模型可以学习教师模型提取特征的能力。通道蒸馏计算中间层特征的通道注意力,以帮助学生学习教师模型识别通道表示的能力。ShrinkTeaNet提出了一种新的角蒸馏损失,用于从教师模型的超球体到学生的特质方向和样本分布。但是,考虑到轻量级网络与教师模型的巨大差异,参数数量和计算成本并不在同一数量级,提取特征的维度和信息也存在较大差异。因此,学生很难直接学习和模仿教师模型的输出或特征来达到理想的效果。以MobileNetV2为学生,ResNet50 为教师模型,在CIFAR100上进行了对比实验。为了验证学生网络和教师网络存在巨大结构差异时不同知识蒸馏方法的效果,我们调整了 MobileNetV2 的结构,将输出通道数改为[16]、[24]、[32]、[64],ResNet50 对应的输出通道数为[256]、[512]、[1024], [2048]. 在表1中,很容易发现 KD 和 CD 降低了学生模型的准确性,而 AT 和 SH 稍微提高了精度。很明显,模型之间的结构差异确实会影响知识蒸馏的有效性。此外,在 CD 和 SH 中,为了匹配教师网络的输出大小,学生需要添加图层和参数,这对轻量级网络相当不友好。

针对上述问题,我们提出了一种新的知识蒸馏方法,以提高学生提取特征的能力。我们通过结构化注意力蒸馏(SA)的方法将知识传授给学生,这是一种特殊的注意力蒸馏,我们将在第2.1节中详细解释。实验结果表明,所提方法在图像分类和人脸识别方面优于其他对比方法。

Fig. 1. Structured attention maps for various networks from pre-softmax activation.

 Fig. 1.来自pre-softmax激活的各种网络的结构化注意图。

Table 1 Accuracy of the student network MobileNetV2 under different distillation methods on CIFAR100

Table 1CIFAR100上d不同蒸馏方法下学生网络MobileNetV2的准确性

Fig. 2. Structured attention mapping over feature dimension.

Fig. 2.在特征维度上的结构化注意映射。

 【社区访问】

【论文速递 | 精选】

阅读原文访问社区

https://bbs.csdn.net/forums/paper

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏 的相关文章

随机推荐

  • 数据分析(二) - Excel按一个单元格内的分隔符进行分行

    文章目录 场景 一 python 二 excel word 场景 办公室老师给了我一张Excel表 记录了每位同学的获奖情况 学号 姓名 奖项 加分 101 小明 ICPC世界冠军 国奖 优秀班干部 15 0 102 小亮 一作论文 数学建
  • vm manager failed to contact configuration server

    当用virt manager命令启动VM 管理工具是报错 vm manager failed to contact configuration server 如下办法解决了我的问题 读取dbus uuid dbus uuidgen get
  • 花费7元训练自己的GPT 2模型

    在上一篇博客中 我介绍了用Tensorflow来重现GPT 1的模型和训练的过程 这次我打算用Pytorch来重现GPT 2的模型并从头进行训练 GPT 2的模型相比GPT 1的改进并不多 主要在以下方面 1 GPT 2把layer nor
  • Gensim 中 word2vec 模型的恢复训练:载入存储模型并继续训练

    Gensim 中 word2vec 模型的恢复训练 本文为系列文章之一 前面的几篇请点击链接 NLP 利器 gensim 库基本特性介绍和安装方式 NLP 利器 Gensim 库的使用之 Word2Vec 模型案例演示 NLP 利器 Gen
  • 数据挖掘概述

    目录 1 数据挖掘概述 2 数据挖掘常用库 3 模型介绍 3 1 分类 3 2 聚类 3 3 回归 3 4 关联 3 5 模型集成 4 模型评估 ROC 曲线 5 模型应用 1 数据挖掘概述 数据挖掘 寻找数据中隐含的知识并用于产生商业价值
  • 无基础学c语言的打卡日记总论

    背景知识 笨人浙江考生 选课是政史地 目前在读大一 知道自己的专业学c并且还学数学分析和高等代数 一开始不以为意 学校用的教材是谭浩强老师的c语言程序设计 推荐的 小白友好 上课之前有很认真的自习课本 第一章好像是一个总论 里面有一些思想以
  • 在NPU上的切片操作x=x[:,::-1,:,:]不生效的分析解决

    1 系统环境 硬件环境 Ascend GPU CPU Ascend GPU MindSpore版本 1 9 0 执行模式 PyNative Graph 不限 Python版本 3 7 5 操作系统平台 Linux 2 报错信息 2 1 问题
  • winform下mapxtreme2008 v7.0 生成release版提示找不到dll问题

    在winform下基于mapxtreme2008 v7 0 生成了一个地图软件 用debug方式运行无误 但改为release版时提示缺少一大堆dll 如 无法从C Program Files x86 Common Files MapInf
  • 本地网站域名与联网冲突吐槽篇

    提示 前面是吐槽360使用bug 以及网站开发者使用弊端 解决冲突主要方法在后面 前言是解决电脑无法保存修改的hosts文件真相以及解决棒法 处理不行的话 只能一棒打死安全软件 前言 电脑里安装了360之类的安全软件 安全类软件为了安全 往
  • 时序预测

    时序预测 MATLAB实现时间序列回归之评估模型残差及统计分布 目录 时序预测 MATLAB实现时间序列回归之评估模型残差及统计分布 基本介绍 程序设计 异方差性 统计分布 学习总结 参考资料 致谢 基本介绍 残差分析的基本目的是检查 CL
  • 偷懒的一天-------Day83

    今天实在是学不进去 从公司里工作着也是浑浑噩噩的 虽然不是我媳妇生孩子 但这也是我们这个大家庭里的第一个孩子 我的亲大侄子啊 当然还可能是侄女 还在想名字 都想了好多了 还是有些激动有些紧张啊 偷懒一天 来码上几个字 草草写上至少我也知道我
  • Opencv的基础操作

    一 图像填充 首先定义图像显示函数 def cv show name img cv2 imshow name img cv2 waitKey 0 cv2 destroyAllWindows 图像读取 img cat cv2 imread c
  • 一定能让你理解的素数筛法——埃氏筛法和欧式筛法

    先上代码 埃氏筛法 include
  • 卸载Docker方法

    卸载步骤 在安装Autoware库的时候安装了Docker 发现电脑硬盘容量被占用不少 现在想卸载一下docker 查找了很多资料 最终使用以下方法完整卸载 1 在配置autoware的时候其实安装的docker ce 所以需要执行 sud
  • Nginx基本使用

    一 Nginx作用 1 HTTP服务器 2 反向代理 3 负载均衡 4 正向代理 5 虚拟主机 等 二 Nginx安装 1 下载nginx最新稳定版 windows nginx 1 14 0 2 解压 备注 如上图 配置关键配置文件后 双击
  • 基于tensorflow实现手写数字识别

    实验目的 了解机器学习的相关知识 实现基于tensorflow的手写数字识别 实验环境 ubuntu16 04 或 windows python 3 默认安装版本 tensorflow 2 0 版本以上 或其他深度学习框架 实验内容 实现基
  • 内网穿透-Natapp实现免费远程桌面

    很多人都在使用Teamviewer访问远程桌面 但收费很贵 而且经常有一些安全漏洞 下面教大家一个免费安全的远程桌面方法 打开Natapp主页 https natapp cn 点击 立即下载 按钮 下载操作系统匹配的客户端 下载之后 解压至
  • 可能是史上最全的Kubernetes证书解析

    为了避免广告法 题目还是加个可能吧 想要安全就必须复杂起来 证书是少不了的 在Kubernetes中提供了非常丰富的证书类型 满足各种不同场景的需求 今天我们就来看一看Kubernetes中的证书 k8s证书分类 在说证书之前 先想想作为集
  • Shiro简单配置Springboot版(1)

    1 权限的管理 1 1 什么是权限管理 基本上涉及到用户参与的系统都要进行权限管理 权限管理属于系统安全的范畴 权限管理实现对用户访问系统的控制 按照安全规则或者安全策略控制用户可以访问而且只能访问自己被授权的资源 权限管理包括用户身份认证
  • 【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏

    论文速递 CCDC2021 轻量级网络的结构化注意知识蒸馏 论文原文 Structured Attention Knowledge Distillation for Lightweight Networks 获取地址 https ieeex