迁移学习花式Finetune方法大汇总

2023-10-28

如果觉得我的算法分享对你有帮助，欢迎关注我的微信公众号“圆圆的算法笔记”，更多算法笔记和世间万物的学习记录～

迁移学习广泛地应用于NLP、CV等各种领域，通过在源域数据上学习知识，再迁移到下游其他目标任务上，提升目标任务上的效果。其中，Pretrain-Finetune（预训练+精调）模式是最为常见的一种迁移学习方法。例如NLP中的预训练Bert模型，通过在下游任务上Finetune即可取得比直接使用下游数据任务从零训练的效果要好得多。

虽然在预训练模型上Finetune能取得非常好的效果，我们经常使用Finetune方法，但是你是否有想过这种Finetune方法有没有什么优化方法？如何Finetune对最终效果好坏有非常大的影响。例如，在Finetune时我们会考虑要迁移预训练网络的哪些层，哪些层需要冻结，哪些层需要随着模型一起Finetune。实际应用时，我们往往需要尝试不同的迁移方法和Finetune策略来达到最优效果。目前学术界也有很多创新性较强的花式Finetune方法研究。本文介绍了来自2018年以来ICML、CVPR等顶会的7篇论文，总结了Finetune的四种类型招式，通过更科学的Finetune方式，提升迁移学习效果。

1. 招式1：使用Pretrain模型做约束

在Finetune阶段，如果我们可用于Finetune的目标任务数据量较少时，很有可能出现过拟合现象，严重影响模型效果；或者在Finetune过程中出现知识遗忘问题（catastrophic memory），把Pretrain阶段学到的有用知识遗忘，丢了西瓜捡了芝麻。为了解决这种问题，学术界提出利用Pretrain模型作为约束，指导Finetune的过程，让Finetune得到的模型更加鲁棒。具体包括：直接使用Pretrain模型的参数作为约束、使用Pretrain模型的中间层表示作为约束、使用Pretrain模型对不同特征注意力强度作为约束。

为了防止模型在Finetune阶段过拟合目标任务数据，或忘记了Pretrain阶段学到的有意义知识，Explicit inductive bias for transfer learning with convolutional networks（ICML 2018）这篇文章介绍了一种使用Pretrain模型参数约束Finetune过程的方法：通过添加Pretrain模型参数和Finetune模型参数之间的某种正则化损失，让Finetune后的模型参数和最开始的Pretrain模型参数更加相似。文章中尝试了多种正则化方法，通过最终的实验发现，一个简单的L2正则效果最好，即对于Pretrain模型和Finetune模型的对应层的参数计算L2距离，作为Finetune过程中损失函数的一部分，公式如下（w为Finetune参数，w0位Pretrain参数）：

通过L2正则化的方法拉近Pretra

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

迁移学习花式Finetune方法大汇总的相关文章

【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
毕业设计：基于卷积神经网络的验证码识别系统机器视觉人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 字符分割算法 2 2 深度学习三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
5_机械臂运动学基础_矩阵

上次说的向量空间是为矩阵服务的 1 学科回顾从科技实践中来的数学问题无非分为两类一类是线性问题一类是非线性问题线性问题是研究最久理论最完善的而非线性问题则可以在一定基础上转化为线性问题求解线性变换数域 F 上线性空间V中的变
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建

随机推荐

leecode-寻找重复数字

题目题目分析哇哦原来vector可以这样初始化学到了不初始化会直接报错嘞代码 class Solution public int findDuplicate vector
企业微信使用高德地图获取定位报错：INVALID_USER_SCODE（无效用户代码）

解决方案 1 在html头部放你创建的高德安全密钥 2 完整代码如下
JAVA高级知识点整理

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言 String字符串类 String 可变字符串 StringBuilder 可变字符串与String之间的转换 RunTime类概述特点使用 Data类
apache beam入门之程序入口——PipelineOption

前置章节apache beam入门宝典之初次使用从第一章里我们看到最开始需要生成1个PipelineOption 然后才能生成1个Pipeline 而这个所谓的option用处是将可以将程序输入的args数组转成1个PipelineOpt
【基于python实现UI自动化】3.0 selenium - webdriver常见8大元素定位

python UI自动化之selenium元素定位 1 0 selenium工具介绍 2 0 selenium环境搭建 3 0 selenium元素定位 selenium常见8大元素定位通过ID定位通过class name定位通过na
[开发过程]＜c#上位机＞关于.net6

水下机器人 c 上位机根据官方文档进行学习开发 1 了解 net6 简而言之就是稳定强悍跨设备简单上手资源丰富强 Announcing NET 6 The Fastest NET Yet NET Blog NET 6 is no
java类的参考文献，太完整了！

一面先是问了问项目然后就开始问一些问题 1 每个请求耗时100ms 机器的配置是4核8G 问要达到10000TPS需要多少台机器没答上来问了问是IO密集型还是CPU密集型然后面试官说我想得太复杂了 2 怎么实现网页的自动跳转答3
将json文件解析存储到MySQL数据库

PostMapping test public Object test RequestParam file MultipartFile file 将JSON解析为Java对象也称为从JSON反序列化Java对象 ObjectMapper o
Spring Cloud 2.x之整合工作流Activiti

工作流在项目中非常常用这里先来看两张图第一张第二张对以上两张图进行说明假设这两张图就是华谊兄弟的请假流程图图的组成部分人物范冰冰冯小刚王中军事件动作请假批准不批准工作流 Workflow 就是业务过程的部分
LLVM 环境搭建

LLVM相关环境搭建 PC VMware Workstation 下载 https www vmware com go getworkstation win KEY ZC3WK AFXEK 488JP A7MQX XL8YF 可自行网上查
Vue中使用qrcode实现渲染生成二维码中间添加自定义logo-demo

效果安装 npm i qrcode 使用 import QRCode from qrcode 具体生成过程
Mac OS X下Maven的安装与配置

Mac OS X 安装Maven 下载 Maven 并解压到某个目录例如 Users robbie apache maven 3 3 3 打开Terminal 输入以下命令设置Maven classpath vi bash profil
小程序打开速度慢是服务器原因吗,网页打开速度慢的原因以及解决方法

现在大多数企业都会选择做自己的官方网站网站的作用更像一张互联网上的企业名片客户能否选择你在于网站的质量网站质量的好与坏主要取决于网站的流量而影响网站流量最核心的因素就是网站打开速度那么今天就来给大家分享一下网页打开速度慢的原
CTFHUB-布尔盲注

布尔盲注页面回显的结果只有两种 true 和 false true false 常用函数 count x 返回统计的数量 length str 返回str字符串的长度 ascii str 返回字符串str的最左面字符的ASCII代码值 s
vue3-实战-06-管理后台-品牌管理模块开发

目录 1 品牌列表 1 1 需求图 1 2 定义接口和数据类型 1 3 请求接口和渲染数据 2 新增和修改品牌 2 1 需求原型分析 2 2 dialog开发 2 3 请求接口封装 2 4 图片上传组件开发 2 5 新增修改品牌信息 3
pb中计算两个时间的分钟_利用Power BI中的两个函数，灵活计算各种占比！

计算个体占总体的比例是一个很常见的分析方式它很简单就是两个数字相除但是当需要计算的维度总体的范围发生动态变化时如何灵活且快速的计算出各种占比还是需要动一点心思的本文就通过 DAX 中的 ALL 和 ALLSELECTED 函数
Qt中的信号和信号槽（一）

目录 1 信号和槽概述信号和槽的关系 2 标准信号槽使用标准信号槽示例 3 自定义信号槽使用自定义信号自定义槽示例 1 信号和槽概述信号和槽是一种事件驱动的通信机制广泛应用于Qt框架的事件处理 GUI编程网络通信等方面
pytorch计算模型参数量报错：size mismatch for module.conv1.weight: copying a param with shape torch.Size([16, 3

错误 RuntimeError Error s in loading state dict for DataParallel size mismatch for module conv1 weight copying a param wit
FIO使用说明(最详细最全的参数说明)

这个文档是对fio 2 0 9 HOWTO文档的翻译 fio的参数太多了翻译这个文档时并没有测试每一个参数的功能和使用方法只有少量参数做了试验大部分的参数采用的是根据字面翻译或是个人理解的翻译必然有些出入先发出来以后有使用的时候
迁移学习花式Finetune方法大汇总

如果觉得我的算法分享对你有帮助欢迎关注我的微信公众号圆圆的算法笔记更多算法笔记和世间万物的学习记录迁移学习广泛地应用于NLP CV等各种领域通过在源域数据上学习知识再迁移到下游其他目标任务上提升目标任务上的效果其中 Pret

迁移学习花式Finetune方法大汇总

1. 招式1：使用Pretrain模型做约束

迁移学习花式Finetune方法大汇总 的相关文章

随机推荐

热门标签

迁移学习花式Finetune方法大汇总的相关文章