深度学习概念(术语):Fine-tuning、Knowledge Distillation, etc

2023-10-26

这里的相关概念都是基于已有预训练模型,就是模型本身已经训练好,有一定泛化能力。需要“再加工”满足别的任务需求。

进入后GPT时代,对模型的Fine-tuning也将成为趋势,借此机会,我来科普下相关概念。

1.Fine-tuning (微调)

有些人认为微调和训练没有区别,都是训练模型,但是微调是在原模型训练好的的基础上,做针对性的再训练。微调一般用额外的数据集,降低学习率让模型适应特定任务。

2.Transfer Learning (迁移学习)

迁移学习大意是让模型适应新的任务,这涉及模型的改进和再训练。可以把微调看作是迁移学习的一种。

相比微调,迁移学习很多时候并不需要训练原有模型,可以只训练一部分,或者给模型加1-2层后,用元模型的输出作为迁移学习的输入,训练额外添加部分即可。

3.Knowledge Distillation (知识蒸馏)

KD目标是用一个小模型去学习大模型的能力,在保证基线性能的前提下,降低模型的参数和复杂度。

4.Meta Learning (元学习)

Learning to Learning,就是学会学习,这个概念并不需要预训练模型。元学习是指模型学习各类任务数据,然后学会各类任务的共性,从而适应新的任务。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习概念(术语):Fine-tuning、Knowledge Distillation, etc 的相关文章

随机推荐

  • Tcp协议中的3次握手与4次挥手过程分析

    转载https blog csdn net u012824097 article details 52490091 客户端与服务端的通信中步骤 1建立Tcp连接 3次握手 2再进行数据传输 3数据传输完成后 断开连接 4次挥手 建立Tcp连
  • vscode的终端无法识别pnpm命令

    vscode的终端无法识别pnpm命令 windows pnpm已安装 且打开cmd可以运行pnpm 但使用vscode中的终端则无法识别 执行以下命令即可在vscode中运行 原因未知 iwr https get pnpm io inst
  • 减肥怎么减?最全减肥食谱(超厉害的)

    夏天已经到了 对于许多人来说这也是减肥的季节 如果你正在进行减肥 你可能会想知道如何合理地饮食来达到瘦身的目的 你是否曾在某音或某书上搜索 减肥食谱 并发现大量重复的菜式 而且各种相关视频分散在不同的网页上 让你寻找很是麻烦 现在我就介绍一
  • 性能优化方法

    1 纯函数的可缓存性 纯函数相同的输入总能得到相同的输出 如果函数内部的计算非常复杂 当我们发现输入与上一次相同时 可以直接返回结果不经过内部的计算 例子 根据日期 得到当日相关的数据 传入日期 获取当天的数据 function proce
  • unity shader errors unexcepted token ‘f’

    编写或导入shader时候 Inspector视图中可能会出现这个错误 Syntax error unexcepted token f at line xxx 解决办法 在报错行附近查找 有没有float数据 改为浮点值 真相如下 lt
  • yarn 安装依赖中出现的错误

    yarn 清除缓存问题 1 出现报错信息 error https registry yarnpkg com Integrity check failed for computed integrity doesn t match our re
  • 抢先一步,新华三携手HPE正在重塑AI存储新格局

    当前智能IT的创新 正呈现出蓬勃发展之势 全球存储观察 热点关注 当前 数字经济在中国获得了长足进步 并驱动着算力快速进化 为此 智能IT的创新也呈现出了前所未有的蓬勃之势 从智能存储中枢发布到现在 新华三集团持续强化存储融合AI的创新 将
  • 国仁网络资讯:抖音快手哪个变现赚钱效果好;两者有什么区别?

    随着5G时代的到来 越来越多的人说到短视频风口 而短视频中首当其冲的肯定是抖音和快手 对于所有想要把握流量风口的企业来说 在营销渠道上到底是侧重抖音还是快手是营销团队需要思考的问题 快手 记录世界 记录你 抖音 记录美好生活 人们经常会拿抖
  • main,restricted,universe,multiverse有什么区别

    main restricted universe multiverse有什么区别 转载 main 完全的自由软件 restricted 不完全的自由软件 universe ubuntu官方不提供支持与补丁 全靠社区支持 muitiverse
  • mysql 8.0以上版本,安装及解决忘记密码问题

    1 官网下载解压版MySQL数据库 下载链接 https dev mysql com downloads mysql 2 将下载的mysql放在自己喜欢的盘符 不一定是C盘 例如我的就是解压在D盘 D mysql mysql 8 0 18
  • 三角形设计测试用例

    三角形设计测试用例的问题在面试的时候经常遇到 假设输入三个整数a b c分别作为三边的边长构成三角形 通过程序判定所构成的三角形的类型 当此三角形为一般三角形 等腰三角形及等边三角形时 要求画出程序的流程图和时序图 并且用自己熟悉的一种语言
  • 解决Windows缺少api-ms-win-core-com-l1-1-0.dll文件问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或者损坏了 这时你只需下载这个api ms win core com l1 1
  • 程切换问题

    处理器总处于以下状态中的一种 内核态 运行于进程上下文 内核代表进程运行于内核空间 内核态 运行于中断上下文 内核代表硬件运行于内核空间 用户态 运行于用户空间 一个进程的上下文可以分为三个部分 用户级上下文 寄存器上下文以及系统级上下文
  • SQL文本数据格式化的方法(sql-formatter)

    首先安装sql formatter npm install sql formatter save 或者 yarn add sql formatter 引入sql formatter import sqlFormatter from sql
  • JAVA语言功能的概述,JAVA语言概述总结

    J2ME 主要用于控制移动设备和信息家电等有限存储的设备 J2SE 整个Java技术的核心和基础 是J2ME和J2EE编程的基础 J2EE Java技术中应用最广泛的部分 J2EE提供了企业应用开发的完整解决方案 流行语言比较 1 c Mi
  • (二) 基本操作 - 图片的拉伸与缩放

    图片缩放用到的主要函数是 cv2 resize 它最简单的形式如下 cv2 resize img new width new height 其中 img为源图片 new width new height 为缩放后的宽度和高度 函数返回缩放后
  • 高速电路设计基本概念之——近端串扰和远端串扰

    以下内容摘自英文版的信号完整性分析一书 SIGNAL INTEGRITY By Eric Bogatin The noise between two adjacent transmission lines can be measured i
  • word的Ctrl+V与Mathtype冲突解决办法

    首先将所有的office软件关闭 一 打开mathtype的安装目录 找到其中的两个文件 MathPage wll E software MathType MathPage 64 MathType Commands 2016 dotm E
  • java jsch 密钥登陆_java – 使用JSch时“无效的私钥”

    我正在使用以下代码在 Java应用程序中使用 Git 我有一个有效的密钥 一直使用它 这个特定的代码以前使用相同的密钥和git存储库 但现在我得到以下异常 invalid privatekey B 59c40796 在这一行 jSch ad
  • 深度学习概念(术语):Fine-tuning、Knowledge Distillation, etc

    文章目录 1 Fine tuning 微调 2 Transfer Learning 迁移学习 3 Knowledge Distillation 知识蒸馏 4 Meta Learning 元学习 这里的相关概念都是基于已有预训练模型 就是模型