Relational Knowledge Distillation解读

2023-11-16

Relational Knowledge Distillation

Conference: CVPR2019
Created: Oct 3, 2020 4:21 PM
Last Edit Time: Oct 5, 2020 11:21 AM
Property: Knowledge Distillation

Title

W. Park, D. Kim, Y. Lu, and M. Cho, ‘Relational Knowledge Distillation’, arXiv:1904.05068 [cs], May 2019, Accessed: Sep. 12, 2020. [Online]. Available: http://arxiv.org/abs/1904.05068.

Summary

知识蒸馏任务中,作者提出迁移样本间的关系(结构信息)会优于迁移单个样本的特征,例如:两个样本间的距离,三个样本间的角度。

Research Objective

知识蒸馏:将大模型的知识迁移小模型中。

Problem Statement

如何将知识从大模型迁移到小模型,过去的方法考虑单个样本在大模型和小模型间的迁移,本文作者提出,迁移样本间的关系(结构信息)会优于迁移单个样本特征。基于这一思想,我们还需要思考衍生问题:样本间的关系(结构信息)该如何表示。

在这里插入图片描述

传统KD和Relational KD的对比

过去的方法怎么考虑知识蒸馏?或者说,如何进行单样本间的知识蒸馏呢?
在这里插入图片描述

l l l作为惩罚Teacher和Student间差异的损失函数,对于 l l l来说,有以下几种做法:

(1) Hinton et al中使用softmax前的结果 f T f_T fT f S f_S fS作为输入,根据公式(2)计算KL散度来度量两个输出的差异。

在这里插入图片描述

(2) Romero et al使用隐藏层激活函数的结果 f T f_T fT f S f_S fS进行知识迁移, l l l选择了平方欧式距离,见公式(3)(由于Student隐层输出的维度一般小于Teacher,所以需要一个映射 β \beta β
在这里插入图片描述
以上这些方法都被称为Individual KD(IKD),表示样本间的知识蒸馏。

Method(s)

针对多样本间的关系,提出Relational Knowledge Distillation(RKD).

思想:关系这样的高阶属性较之低阶属性,更具有不变性,有更好的效果。

具体:distance-wise and angle-wise distillation loss
在这里插入图片描述
X^N 表示N个不同样本。

Distance-wise loss

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Angle-wise distillation loss

在这里插入图片描述

在这里插入图片描述

Overall objective
在这里插入图片描述

Evaluation

作者如何评估自己的方法,有没有问题或者可以借鉴的地方

在三个任务上进行评估, metric learning, classification and few-shot learning.

metric learning(recall@K)

Image classification(Acc)

Few-shot learning(Acc) better than teacher.

Conclusion

Strong conclusion: 在Knowledge Distillation中,Relational Knowledge Distillation能够有效地改进Student模型的性能。

Weak conclusion:

Notes

暂无

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Relational Knowledge Distillation解读 的相关文章

随机推荐

  • SpringCloud-消息驱动

    消息驱动 Spring Cloud Stream 概述 常见MQ 消息中间件 ActiveMQ RabbitMQ RocketMQ Kafka 有没有一种新的技术诞生 让我们不再关注具体MQ的细节 我们只需要用一种适配绑定的方式 自动的给我
  • 高并发模拟~多个线程同时发起请求

    高并发模拟 多个线程同时发起请求 两种方案 CyclicBarrier 栅栏 所有的线程必须同时到达栅栏位置 才能继续执行 CountDownLatch 计数器 一个线程或多个线程一直等待 直到其他线程执行的操作完成 1 CyclicBar
  • 【Mo&AI TIME 人工智能技术博客】矛与盾的对决——神经网络后门攻防

    本篇文章内容转载于 AI TIME论道 公众号 秉持着合作共享的信念 希望给热爱人工智能的你们 提供更全面 前沿的人工智能和学科发展资讯 2022年7月9日 AI TIME组织了Ph D Debate第十一期 题为 矛与盾的对决 神经网络后
  • Spring framework testing文档读书笔记

    该文章是我读Spring testing英文官方文档的读书笔记 方便以后快速的回忆文档里讲述的内容 而不用再去读一遍官方文档 文章内容精简掉了官方文档的一些比较浅显易懂的用法以及一些很细节的地方 一半是翻译 然后加入部分自己的理解 可以使读
  • 树莓派Linux内核替换

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 一 准备工作 二 修改配置文件 配置config 编译 打包 数据拷贝 将SD卡转插到树莓派 一 准备工作 安装好对应交叉编译工具 将需要替换的Linux拷进Ubu
  • python docx处理word文档中表格合并问题

    问题描述 python中用docx库读取word文件 若word文件中包含合并的表格表格 则通过docx读取显示 file docx Document path for table in file tables for row in tab
  • KVM上如何绑定虚拟机vcpu与物理CPU?

    Taskset命令设置某虚拟机在某个固定cpu上运行 1 设置某个进程pid在某个cpu上运行 root test taskset p000000000000000000000000000000000000100 95090 pid 950
  • 多节点高可用Eureka集群与服务注册

    0 多节点 找多借点配置的直接从最下面这里开始看 修改消费者和提供者的application yml文件 defaultZone http peer1 8761 eureka http peer2 8762 eureka 1 简介 Eure
  • list 去重方式

    List
  • 大专学历走社招,两个部门,六轮面试,终与字节无缘

    这个面试机会来的挺意外的 先在 Boss 投递的简历 后再某客网看到了内推人的微信 加了微信问了下进度 挂了 内推人给我打电话根据简历简单询问了一下情况 内推人很谦逊 毕业于一所 211 大学 和我说他的学历也很一般 然后和 hr 沟通捞了
  • IntelliJ IDEA运行JAVA

    1 安装软件 这边需要你先安装IntelliJ IDEA和java sdk 检查是否安装java sdk IntelliJ IDEA安装软件链接 https www jetbrains com idea download section w
  • Mac OSX创建动态链接库

    Windows DLL Linux so Mac OS X dylib dylib是Mach O格式 也就是Mac OS X下的二进制文件格式 Mac OS X提供了一系列 工具 用于创建和访问动态链接库 编译器 usr bin cc 也就
  • 服务器内存信息,查看linux服务器内存信息

    查看服务器内存信息 dmidecode grep P A5 Memory s Device grep Size email protected home dmidecode grep P A5 Memory s Device grep Si
  • shell 脚本中数字判断

    数字的判断 int1 eq int2 两数相等为真 int1 ne int2 两数不等为真 int1 gt int2 int1大于int2为真 int1 ge int2 int1大于等于int2为真 int1 lt int2 int1小于i
  • 代码随想录 - Day35 - 回溯:重新安排行程,棋盘问题

    代码随想录 Day35 回溯 重新安排行程 棋盘问题 332 重新安排行程 输入 tickets JFK SFO JFK ATL SFO ATL ATL JFK ATL SFO 输出 JFK ATL JFK SFO ATL SFO 解释 另
  • 什么是「穷人思维」?

    https www zhihu com question 26980862
  • forEach

    function sum args let s 0 args forEach item gt s item
  • 四种解决”Argument list too long”参数列表过长的办法

    四种解决 Argument list too long 参数列表过长的办法 转自 http hi baidu com cpuramdisk item 5aa49ce00c0757aecf2d4f24 在linux中删除大量文件时 直接用rm
  • 调试web项目时Chrome浏览器发送两次请求

    最近调试web项目时 项目有时候会因为接收到空值而报错 之后我发现是因为Chrome浏览器会连续发送2次请求导致 在使用Edge浏览器则没有出现这个问题 遂搜索了一些解决方案如下 https blog csdn net weixin 390
  • Relational Knowledge Distillation解读

    Relational Knowledge Distillation解读 Relational Knowledge Distillation Title Summary Research Objective Problem Statement