预训练模型 & Fine-tuning

2023-11-02

https://blog.csdn.net/weixin_42137700/article/details/82107208

https://zhuanlan.zhihu.com/p/46833276

在实践中，由于数据集不够大，很少有人从头开始训练网络。常见的做法是使用预训练的网络（例如在ImageNet上训练的分类1000类的网络）来重新fine-tuning（也叫微调），或者当做特征提取器。

语言模型来辅助NLP任务已经得到了学术界较为广泛的探讨，通常有两种方式：

feature-based（ELMo）

利用语言模型的中间结果也就是LM embedding, 将其作为额外的特征，引入到原任务的模型中。
通常feature-based方法包括两步：a. 在大的语料A上无监督地训练语言模型，训练完毕得到语言模型，然后构造task-specific model例如序列标注模型，采用有标记的语料B来有监督地训练task-sepcific model，将语言模型的参数固定，语料B的训练数据经过语言模型得到LM embedding，作为task-specific model的额外特征。

fine-tuning

Fine-tuning方式是指在已经训练好的语言模型的基础上，加入少量的task-specific parameters。例如对于分类问题在语言模型基础上加一层softmax网络，然后在新的语料上重新训练来进行fine-tune。
- 构造语言模型，采用大的语料A来训练语言模型在语言模型基础上增加少量神经网络层来完成specific task。例如序列标注、分类等，然后采用有标记的语料B来有监督地训练模型，这个过程中语言模型的参数并不固定，依然是trainable variables。

常见的两类迁移学习场景

卷积网络当做特征提取器。使用在ImageNet上预训练的网络，去掉最后的全连接层，剩余部分当做特征提取器（例如AlexNet在最后分类器前，是4096维的特征向量）。这样提取的特征叫做CNN codes。得到这样的特征后，可以使用线性分类器（Liner SVM、Softmax等）来分类图像。
Fine-tuning卷积网络。替换掉网络的输入层（数据），使用新的数据继续训练。Fine-tune时可以选择fine-tune全部层或部分层。通常，前面的层提取的是图像的***通用特征（generic features）***（例如边缘检测，色彩检测），这些特征对许多任务都有用。后面的层提取的是***与特定类别有关***的特征，因此fine-tune时常常只需要Fine-tuning后面的层。

何时以及如何Fine-tune

决定如何使用迁移学习的因素有很多，这是最重要的只有两个：新数据集的大小、以及新数据和原数据集的相似程度。有一点一定记住：**网络前几层学到的是通用特征，后面几层学到的是与类别相关的特征。**这里有使用的四个场景：

新数据集比较小且和原数据集相似。因为新数据集比较小，如果fine-tune可能会过拟合；又因为新旧数据集类似，我们期望他们高层特征类似，可以使用预训练网络当做特征提取器，用提取的特征训练线性分类器。
新数据集大且和原数据集相似。因为新数据集足够大，可以fine-tune整个网络。
新数据集小且和原数据集不相似。新数据集小，最好不要fine-tune，和原数据集不类似，最好也不使用高层特征。这时可是使用前面层的特征来训练SVM分类器。
新数据集大且和原数据集不相似。因为新数据集足够大，可以重新训练。但是实践中fine-tune预训练模型还是有益的。新数据集足够大，可以fine-tine整个网络。

warning

与重新训练相比，fine-tune要使用更小的学习率。因为训练好的网络模型权重已经平滑，我们不希望太快扭曲（distort）它们（尤其是当随机初始化线性分类器来分类预训练模型提取的特征时）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Deep Learning

finetuning

预训练模型 & Fine-tuning 的相关文章

笔记︱几款多模态向量检索引擎：Faiss 、milvus、Proxima、vearch、Jina等

转自 https zhuanlan zhihu com p 364923722 引用文章 7 的开篇来表示什么是向量化搜索人工智能算法可以对物理世界的人物场景所产生各种非结构化数据如语音图片视频语言文字行为等进行抽象
输入文本就可建模渲染了？！OpenAI祭出120亿参数魔法模型！

转自 https new qq com omn 20210111 20210111A0CBRD00 html 2021刚刚开启 OpenAI又来放大招了能写小说哲学语录的GPT 3已经不足为奇那就来一个多模态图像版GPT 3 今天
3D人体重建方法漫谈

转自 https blog csdn net Asimov Liu article details 96442990 1 概述 2 模型匹配的方法 2 1SMPL Skinned Multi Person Linear model 模型 2
tiny-cnn执行过程分析(MNIST)

在http blog csdn net fengbingchun article details 50573841中以MNIST为例对tiny cnn的使用进行了介绍下面对其执行过程进行分析支持两种损失函数 1 mean squared
word2vector学习笔记（一）

word2vector学习笔记一最近研究了一下google的开源项目word2vector http code google com p word2vec 其实这玩意算是神经网络在文本挖掘的一项成功应用本文是看了论文 Distribu
视觉注意力的循环神经网络模型

我们观察PPT的时候面对整个场景不会一下子处理全部场景信息而会有选择地分配注意力每次关注不同的区域然后将信息整合来得到整个的视觉印象进而指导后面的眼球运动将感兴趣的东西放在视野中心每次只处理视野中的部分忽略视野外区域这样
深度神经网络中的Inception模块介绍

深度神经网络 Deep Neural Networks DNN 或深度卷积网络中的Inception模块是由Google的Christian Szegedy等人提出包括Inception v1 Inception v2 Inception
libsvm库简介及使用

libsvm是基于支持向量机 support vector machine SVM 实现的开源库由台湾大学林智仁 Chih Jen Lin 教授等开发它主要用于分类支持二分类和多分类和回归它的License是BSD 3 Claus
Deep Learning Tutorials(一):开头语

万事开头难当你开始看这些时候有可能你已经开始了研究生生活不在像本科时候过着那种得过且过考试不挂科的日子你整天盲目漫无目的的过日子实际上是在浪费自己的生命所以坚持每天进步吧回到正事你可能开始从事深度学习研究或者有关机器学习方
PyTorch torch.optim.lr_scheduler 学习率设置调参-- CyclicLR

torch optim lr scheduler 学习率设置 CyclicLR 学习率的参数调整是深度学习中一个非常重要的一项 Andrew NG 吴恩达认为一般如果想调参数第一个一般就是学习率作者初步学习者有错误直接提出热烈欢迎
《动手学深度学习》(七) -- 边界框和锚框

1 边界框在目标检测中我们通常使用边界框 bounding box 来描述对象的空间位置边界框是矩形的由矩形左上角的以及右下角的 x x x和 y y y坐标决定另一种常用的边界框表示方法是边界框中心的
基于Lasagne实现限制玻尔兹曼机(RBM)

RBM理论部分大家看懂这个图片就差不多了 Lasagne写代码首先要确定层与层 RBM 正向反向过程可以分别当作一个层权值矩阵互为转置即可代码 coding utf 8 data format is bc01 written by Ph
Dilated Conv and Deformable Conv. 空洞卷积和可变形卷积

空洞卷积论文地址 https arxiv org pdf 1511 07122 pdf 可变形卷积论文地址 https arxiv org pdf 1703 06211 pdf 之前一直知道这两个方法一直没时间看论文和实现后面碰到越来越
词向量的运算与Emoji生成器

本文参考参考没有对框架内容进行学习旨在学习思路和方法 1 词向量运算之前学习RNN和LSTM的时候输入的语句都是一个向量比如恐龙的名字那个例子就是将一个单词中的字母按顺序依次输入这对于一个单词的预测是可行的但是对于想让机器学习
深度学习中的优化算法之Adam

之前在https blog csdn net fengbingchun article details 124909910 介绍过深度学习中的优化算法Adadelta 这里介绍下深度学习的另一种优化算法Adam 论文名字为 ADAM A M
deeplearning.ai课程作业：Course 1 Week 2

deeplearning ai课程作业 Course 1 Week 2 原始作业在GitHub上下载本文仅作为本人学习过程的记录含答案不喜勿看全部自己跑过保证可行 Part 1 Python Basics with Numpy o
决策树(Decision Tree)简介

决策树 Decision Tree 及其变种是另一类将输入空间分成不同的区域每个区域有独立参数的算法决策树分类算法是一种基于实例的归纳学习方法它能从给定的无序的训练样本中提炼出树型的分类模型树中的每个非叶子节点记录了使用哪个特征来
吴恩达老师深度学习视频课笔记：逻辑回归公式推导及C++实现

逻辑回归 Logistic Regression 是一个二分分类算法逻辑回归的目标是最小化其预测与训练数据之间的误差为了训练逻辑回归模型中的参数w和b 需要定义一个成本函数 cost function 成本函数 cost functio
全网最最最轻量级检测网络 yolo-fastest 快速上手

文章目录 0x01 Yolo Fastest 0x02 Prepare step1 clone step2 make step3 run darknet 0x03 Train step1 获取权重文件 step2 准备数据集 step3 修
pthread_create返回值错误码11 (EAGAIN)或libgomp: Thread creation failed: Resource temporarily unavailable错误

在主机上开发torch xla时使用非root用户在conda环境遇到tensorflow中报pthread create 11错误大意为系统资源不足解决方案分析此主机多用户使用资源占用非常大且大多数情况下在docker容器

随机推荐