迁移学习-李沐

2023-11-09

迁移学习

1、迁移学习
1.1、迁移学习目的

能在一个任务上学习一个模型，然后用其来解决相关的别的任务，这样我们在一个地方花的时间，学习的一些知识，研究的一些看法可以在另外一个地方被使用到；
迁移学习是在深度学习出圈的，因为在深度学习中需要训练很多的深层神经网络，需要很多的数据，代价也很高；
1.2、迁移学习的途径
a.做好一个模型将其做成一个特征提取的模块（Word2Vec【在文本上做训练一个单层神经网络，在训练好之后，每一个词对应一个特征，然后用这个特征去别的事情】，ResNet【对图片做特征，然后用这个特征来对作为另一个模型的输入，这样假设效果非常好，那么就可以代替人工去抽取特征】，I3D【用来对视频做特征】）；
b.在一个相关的任务上训练一个模型，然后在另一个任务上直接用它；
c.训练好一个模型，然后在一个新的任务上对其做微调，使模型能更好的适应新的任务；
1.3、相关的领域
半监督学习：利用没有标号的数据，让有标号的数据变得好
在极端的条件下，可以做zero-shot（一个任务有很多的类别但不会告诉你样本）或few-shot（一个任务就给你一些样本） learning。
Multi-task learning（多任务学习）：每一个任务都有它自己的数据，但是数据不是很够，可是任务之间相关，那么可以将所有的数据放在一起，然后同时训练多个任务出来，这样我们希望能从别的任务之中获益

2、计算机视觉的应用
2.1、转移知识

在CV中存在了很多大规模标好的数据集（特别是分类问题，因为标号容易）
在CV的迁移学习，我们是希望存在很多数据的一些应用上比较好的模型，能将它的知识拓展到我们自己的任务上去；
通常你自己任务的数据集会比大的数据集（ImageNet）要小很多（一开始不会花太多钱去标注很多的数据，正常是，标好了一些看看模型效果怎么样，然后好的话再继续投入进去，这样是一个迭代的过程），然后我们想要快速的迭代，看看能不能用比较大的数据集来将一些学到的东西迁移到我们自己的任务上面去；
2.2、预训练模型（转移知识的办法之一）
可以将神经网络分成两块，一块编码器（特征提取器，将原始图片的原始像素转化在一个语义空间中可以线性可分的一些特征（浅表示或语义特征表示）），一块解码器（简单的线性分类器，将编码器的表示映射成想要的标号，或者做一些决策）；
预训练模型（Pre-train）：在一个比较大的数据上训练好的一个模型，会具有一定的泛化能力（放到新模型上或新的数据集上，这个模型还是有效果的）【虽然是用于图片分类但是也可以试试目标检测】

3、微调（fine-tunning ）

将预训练好的模型用在新任务上叫fine-tuning（微调）【通常在深度学习里面，微调能带来最好的效果，但是也有一定的开销】
微调是怎么做的：在新的任务上构建一个新的模型，新的模型的架构要更预训练的模型的架构是一样的；
在找到合适的预训练模型之后要初始化我们的模型（将预训练模型的除了最后一层之外（特征提取器）的权重都复制给我们的模型，最后一层的解码器用的还是随机的权重【因为我们的标号和预训练模型的标号是不一样的】）；
有一点点小做法是，限制fine-tune后的学习率。因为我们初始的结果已经比较好了，已经在想要解的附近了，限制学习率可以使得我们可以不会走太远【一般是用1e-3】；另外是说不要训练太长的时间；这些做法都是为了缩小搜索空间；

4、限制搜索空间的其他方法-固定最底层

神经网络通常有一个层次化的，最底层一般是学习了底层的特征，上层的更与语义相关，所以一般来说底层与上面层没有太多的关系，在换了数据集之后泛化性都很好；
最后一层还是随机初始化学习，然后只对某一些层进行改动，最下面那些层在微调时就不去动了（可以说是学习率为0）；
固定住多少层是要根据应用来看的，假设应用与预训练模型差别比较大的话，可以多训练一些层；

5、怎么去找微调模型

TIMM（把pytorch上能找到的各种代码实现弄过来）：
https://github.com/rwightman/pytorch-image-models；（ross
自己维护的一个包【文档不错，模型性能暂时一般般】）

6、fine-tuning的一些应用

在大的数据集上训练好模型再微调到自己的应用上在CV领域上广泛的应用；
新的任务包含目标检测、语义分割等（图片类似但是目标不一样）；
在医疗领域等（同样的任务但是图片大相径庭）
现在的观点是微调加速了收敛（微调让初始的点不再试一个随机的点而是一个离最终的目标比较近的点，使得损失比较平滑），但是不一定可以提升精度（一般不会让精度变低，因为它只是改变初始值而已，跟随机初始化没区别，只要走的足够远也能摆脱初始值的影响）；

7、总结

通常我们会在大数据上训练预训练好的模型，这种任务通常是图片分类；
然后在关心的任务上把模型的权重初始化成预训练好的模型的权重，当然最后一层也就是解码器是要随机初始化的；
微调一般用一个小一点的学习率进行细微的调整，这样通常会加速收敛，有时可以提升精度但通常不会变差；

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

李沐机器学习

神经网络

迁移学习-李沐的相关文章

概率论方差公式_考研冲刺篇

众所周知概率论的知识点又多又杂需要我们系统的归类并掌握这样才能获得得分为此小业整理了 2020考研数学概率论各章节知识点梳理的相关内容希望对大家有所帮助第一部分随机事件和概率 1 样本空间与随机事件 2 概率的定义与性质
keil5打开MDK4的程序提示不兼容

1 如下图我的程序是用keil4写的可是用keil5打开会提示不兼容的问题 keil提供了两个解决方案 Migrate to Device Pack 迁移到设备包和 Install Legacy Support 安装遗留支持用第二种

随机推荐

[数值计算-18]：最小二乘的求解法3 - 链式求导与梯度下降法求解loss函数的最优化参数（Python, 超详细、可视化）

作者主页文火冰糖的硅基工坊 https blog csdn net HiWangWenBing 本文网址 https blog csdn net HiWangWenBing article details 119978818 目录前置文
4.4创建型模式————抽象工厂模式

前面介绍的工厂方法模式中考虑的是一类产品的生产如畜牧场只养动物电视机厂只生产电视机计算机软件学院只培养计算机软件专业的学生等同种类称为同等级也就是说工厂方法模式只考虑生产同等级的产品但是在现实生活中许多工厂是综合型的工厂能生
MoviePy版本过低，不建议在Python中使用

MoviePy版本过低不建议在Python中使用近年来 Python成为了一个非常流行的编程语言很多人利用Python进行视频处理等工作而MoviePy是一个非常好用的模块但是当前版本的MoviePy v0 2 3 5 dev1
个人总结：推荐算法篇（附协同过滤等）综述

现代推荐系统对于在线部分来说一般要经历几个阶段首先通过召回环节将给用户推荐的物品降到千以下规模因为在具备一定规模的公司里是百万到千万级别甚至上亿所以对于每一个用户如果对于千万级别物品都使用先进的模型挨个进行排序打分明显速
【Numpy】不再迷茫！np.mean() axis参数通俗解释。

np mean 注释截取 axis None or int or tuple of ints optional Axis or axes along which the means are computed The default is t
burp爆破mysql_[技巧]使用Burpsuite辅助Sqlmap进行POST注入测试

我们在使用Sqlmap进行post型注入时经常会出现请求遗漏导致注入失败的情况这里分享一个小技巧即结合burpsuite来使用sqlmap 用这种方法进行post注入测试会更准确操作起来也非常容易 1 浏览器打开目标地址 http
雷电模拟器一直android正在启动,雷电安卓模拟器启动后没反应、无法启动、闪退的3种解决办法-针对2020年4月4号出现的...

今天 2020年4月5号小编打开雷电多开器点击启动按钮启动模拟器发现模拟器的窗口没有弹出来感觉没有什么反应雷电多开管理器的启动按钮变成关闭按钮后等几秒就又变成启动按钮了多次尝试后最终确定我的雷电模拟器无法启
怎样把文档保存在云服务器,怎样把文件存在云服务器上

怎样把文件存在云服务器上内容精选换一换安装传输工具在本地主机和Windows云服务器上分别安装数据传输工具将文件上传到云服务器例如QQ exe 在本地主机和Windows云服务器上分别安装数据传输工具将文件上传到云服务器例如Q
Android实现简单的登录界面

该登录界面一共实现三个功能 1 实现登录 2 实现注册 3 实现记住密码 AndroidManifest xml 文件
一款超牛逼的 P2P 内网穿透神器（附安装、使用教程）

点击上方 Java基基选择设为星标做积极的人而不是积极废人每天 14 00 更新文章每天掉亿点点头发源码精品专栏原创 Java 2021 超神之路很肝中文详细注释的开源项目 RPC 框架 Dubbo 源码解析网络应用框
kdj超卖_一种超买超卖型技术指标——KDJ，被称为股价波动幅度的放大镜

点击蓝字关注我们何为KDJ 随机指标KDJ是以最高价最低价及收盘价为基本数据进行计算得出的K值 D值和J值分别在指标的坐标上形成的一个点连接无数个这样的点位就形成一个完整的能反映价格波动趋势的KDJ指标 KDJ操作要点 1 K
五年携手共话，FISCO BCOS为数实相生注入新动能

2月24日作为深圳国际金融科技节系列活动之一由深圳市地方金融监督管理局指导微众银行金链盟主办的 2022产业区块链年度峰会暨FISCO BCOS五周年生态大会下称大会在深圳顺利召开本次大会以数实相生链筑可持续未来为主题
swing实现窗体拖拽和拉伸

当用setUndecorated true 后 JFrame去掉标题栏后就得自己写拖拽和拉伸功能了下面是效果图我的截图软件不能够截取除系统默认光标外的光标所以各个方向光标变化在图中没有体现代码如下 import javax swin
20道高频react面试题（附答案）

在构造函数调用 super 并将 props 作为参数传入的作用在调用 super 方法之前子类构造函数无法使用this引用 ES6 子类也是如此将 props 参数传递给 super 调用的主要原因是在子构造函数中能够通过this
【LeetCode-Java】54. Spiral Matrix+59. Spiral Matrix II

54 Spiral Matrix 1 原题链接 https leetcode com problems spiral matrix Given a matrix of m x n elements m rows n columns ret
30系列NVIDIA显卡安装tensorflow 极简

写在前面此方法适合过渡使用不适合永久使用因为无法发挥出30系列显卡的全部性能现在有cuda11 1了只是conda还没有集成进去 1 tensorflow安装由于tensorflow2 3才开始支持cuda11 目前conda未
python serial tools （pyseiral）模块的导入方法

serial tools list ports has to be imported specifically as the tools module is not automatically imported by the serial
GPU 优化

转 GPU的瓶颈其实仔细分析我们就可以发现影响的GPU性能的无非就是2大方面一方面是顶点数量过多像素计算过于复杂另一方面就是GPU的显存带宽那么针锋相对的两方面举措也就十分明显了减少顶点数量简化计算复杂度压缩图片以适应显
“EntityTypeBuilder”未包含“ToTable”的定义，并且找不到可接受第一个“EntityTypeBuilder”类型参数的可访问扩展方法“ToTabl

今天学习ASP NET Core 3 1 碰到上述错误是因为没有引用Microsoft EntityFrameworkCore Relational这个Nuget包在Nuget中加入这个引用就可以解决
迁移学习-李沐

迁移学习 1 迁移学习 1 1 迁移学习目的能在一个任务上学习一个模型然后用其来解决相关的别的任务这样我们在一个地方花的时间学习的一些知识研究的一些看法可以在另外一个地方被使用到迁移学习是在深度学习出圈的因为在深度学习中需要训

迁移学习-李沐

迁移学习-李沐 的相关文章

随机推荐

热门标签

迁移学习-李沐的相关文章