理解dropout

2023-05-16

理解dropout

开篇明义，dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。注意是暂时，对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。

dropout是CNN中防止过拟合提高效果的一个大杀器，但对于其为何有效，却众说纷纭。在下读到两篇代表性的论文，代表两种不同的观点，特此分享给大家。

组合派

参考文献中第一篇中的观点，Hinton老大爷提出来的，关于Hinton在深度学习界的地位我就不再赘述了，光是这地位，估计这一派的观点就是“武当少林”了。注意，派名是我自己起的，各位勿笑。

观点

该论文从神经网络的难题出发，一步一步引出dropout为何有效的解释。大规模的神经网络有两个缺点：

费时
容易过拟合

这两个缺点真是抱在深度学习大腿上的两个大包袱，一左一右，相得益彰，额不，臭气相投。过拟合是很多机器学习的通病，过拟合了，得到的模型基本就废了。而为了解决过拟合问题，一般会采用ensemble方法，即训练多个模型做组合，此时，费时就成为一个大问题，不仅训练起来费时，测试起来多个模型也很费时。总之，几乎形成了一个死锁。

Dropout的出现很好的可以解决这个问题，每次做完dropout，相当于从原始的网络中找到一个更瘦的网络，如下图所示：
在这里插入图片描述

因而，对于一个有N个节点的神经网络，有了dropout后，就可以看做是2ⁿ个模型的集合了，但此时要训练的参数数目却是不变的，这就解脱了费时的问题。

动机论

虽然直观上看dropout是ensemble在分类性能上的一个近似，然而实际中，dropout毕竟还是在一个神经网络上进行的，只训练出了一套模型参数。那么他到底是因何而有效呢？这就要从动机上进行分析了。论文中作者对dropout的动机做了一个十分精彩的类比：

在自然界中，在中大型动物中，一般是有性繁殖，有性繁殖是指后代的基因从父母两方各继承一半。但是从直观上看，似乎无性繁殖更加合理，因为无性繁殖可以保留大段大段的优秀基因。而有性繁殖则将基因随机拆了又拆，破坏了大段基因的联合适应性。

但是自然选择中毕竟没有选择无性繁殖，而选择了有性繁殖，须知物竞天择，适者生存。我们先做一个假设，那就是基因的力量在于混合的能力而非单个基因的能力。不管是有性繁殖还是无性繁殖都得遵循这个假设。为了证明有性繁殖的强大，我们先看一个概率学小知识。

比如要搞一次恐怖袭击，两种方式：

集中50人，让这50个人密切精准分工，搞一次大爆破。
将50人分成10组，每组5人，分头行事，去随便什么地方搞点动作，成功一次就算。

哪一个成功的概率比较大？显然是后者。因为将一个大团队作战变成了游击战。

那么，类比过来，有性繁殖的方式不仅仅可以将优秀的基因传下来，还可以降低基因之间的联合适应性，使得复杂的大段大段基因联合适应性变成比较小的一个一个小段基因的联合适应性。

dropout也能达到同样的效果，它强迫一个神经单元，和随机挑选出来的其他神经单元共同工作，达到好的效果。消除减弱了神经元节点间的联合适应性，增强了泛化能力。

个人补充一点：那就是植物和微生物大多采用无性繁殖，因为他们的生存环境的变化很小，因而不需要太强的适应新环境的能力，所以保留大段大段优秀的基因适应当前环境就足够了。而高等动物却不一样，要准备随时适应新的环境，因而将基因之间的联合适应性变成一个一个小的，更能提高生存的概率。

dropout带来的模型的变化

而为了达到ensemble的特性，有了dropout后，神经网络的训练和预测就会发生一些变化。

训练层面

无可避免的，训练网络的每个单元要添加一道概率流程。

对应的公式变化如下如下：
- 没有dropout的神经网络
- 有dropout的神经网络
- 测试层面
预测的时候，每一个单元的参数要预乘以p。

论文中的其他技术点

防止过拟合的方法：
- 提前终止（当验证集上的效果变差的时候）
- L1和L2正则化加权
- soft weight sharing
- dropout
dropout率的选择
- 经过交叉验证，隐含节点dropout率等于0.5的时候效果最好，原因是0.5的时候dropout随机生成的网络结构最多。
- dropout也可以被用作一种添加噪声的方法，直接对input进行操作。输入层设为更接近1的数。使得输入变化不会太大（0.8）
训练过程
- 对参数w的训练进行球形限制(max-normalization)，对dropout的训练非常有用。
- 球形半径c是一个需要调整的参数。可以使用验证集进行参数调优
- dropout自己虽然也很牛，但是dropout、max-normalization、large decaying learning rates and high momentum组合起来效果更好，比如max-norm regularization就可以防止大的learning rate导致的参数blow up。
- 使用pretraining方法也可以帮助dropout训练参数，在使用dropout时，要将所有参数都乘以1/p。
部分实验结论

该论文的实验部分很丰富，有大量的评测数据。
- maxout 神经网络中得另一种方法，Cifar-10上超越dropout
- 文本分类上，dropout效果提升有限，分析原因可能是Reuters-RCV1数据量足够大，过拟合并不是模型的主要问题
- dropout与其他standerd regularizers的对比
  - L2 weight decay
  - lasso
  - KL-sparsity
  - max-norm regularization
  - dropout
- 特征学习
  - 标准神经网络，节点之间的相关性使得他们可以合作去fix其他节点中得噪声，但这些合作并不能在unseen data上泛化，于是，过拟合，dropout破坏了这种相关性。在autoencoder上，有dropout的算法更能学习有意义的特征（不过只能从直观上，不能量化）。
  - 产生的向量具有稀疏性。
  - 保持隐含节点数目不变，dropout率变化；保持激活的隐节点数目不变，隐节点数目变化。
- 数据量小的时候，dropout效果不好，数据量大了，dropout效果好
- 模型均值预测
  - 使用weight-scaling来做预测的均值化
  - 使用mente-carlo方法来做预测。即对每个样本根据dropout率先sample出来k个net，然后做预测，k越大，效果越好。
- Multiplicative Gaussian Noise
  使用高斯分布的dropout而不是伯努利模型dropout
- dropout的缺点就在于训练时间是没有dropout网络的2-3倍。

进一步需要了解的知识点

dropout RBM
Marginalizing Dropout
具体来说就是将随机化的dropout变为确定性的，比如对于Logistic回归，其dropout相当于加了一个正则化项。
Bayesian neural network对稀疏数据特别有用，比如medical diagnosis, genetics, drug discovery and other computational biology applications

噪声派

参考文献中第二篇论文中得观点，也很强有力。

观点

观点十分明确，就是对于每一个dropout后的网络，进行训练时，相当于做了Data Augmentation，因为，总可以找到一个样本，使得在原始的网络上也能达到dropout单元后的效果。比如，对于某一层，dropout一些单元后，形成的结果是(1.5,0,2.5,0,1,2,0)，其中0是被drop的单元，那么总能找到一个样本，使得结果也是如此。这样，每一次dropout其实都相当于增加了样本。

稀疏性

知识点A

首先，先了解一个知识点：

When the data points belonging to a particular class are distributed along a linear manifold, or sub-space, of the input space, it is enough to learn a single set of features which can span the entire manifold. But when the data is distributed along a highly non-linear and discontinuous manifold, the best way to represent such a distribution is to learn features which can explicitly represent small local regions of the input space, effectively “tiling” the space to define non-linear decision boundaries.

大致含义就是：
在线性空间中，学习一个整个空间的特征集合是足够的，但是当数据分布在非线性不连续的空间中得时候，则学习局部空间的特征集合会比较好。

知识点B

假设有一堆数据，这些数据由M个不同的非连续性簇表示，给定K个数据。那么一个有效的特征表示是将输入的每个簇映射为特征以后，簇之间的重叠度最低。使用A来表示每个簇的特征表示中激活的维度集合。重叠度是指两个不同的簇的A_i和A_j之间的Jaccard相似度最小，那么：

当K足够大时，即便A也很大，也可以学习到最小的重叠度
当K小M大时，学习到最小的重叠度的方法就是减小A的大小，也就是稀疏性。

上述的解释可能是有点太专业化，比较拗口。主旨意思是这样，我们要把不同的类别区分出来，就要是学习到的特征区分度比较大，在数据量足够的情况下不会发生过拟合的行为，不用担心。但当数据量小的时候，可以通过稀疏性，来增加特征的区分度。

因而有意思的假设来了，使用了dropout后，相当于得到更多的局部簇，同等的数据下，簇变多了，因而为了使区分性变大，就使得稀疏性变大。

为了验证这个数据，论文还做了一个实验，如下图：

在这里插入图片描述

该实验使用了一个模拟数据，即在一个圆上，有15000个点，将这个圆分为若干个弧，在一个弧上的属于同一个类，一共10个类，即不同的弧也可能属于同一个类。改变弧的大小，就可以使属于同一类的弧变多。

实验结论就是当弧长变大时，簇数目变少，稀疏度变低。与假设相符合。

个人观点：该假设不仅仅解释了dropout何以导致稀疏性，还解释了dropout因为使局部簇的更加显露出来，而根据知识点A可得，使局部簇显露出来是dropout能防止过拟合的原因，而稀疏性只是其外在表现。

论文中的其他技术知识点

将dropout映射回得样本训练一个完整的网络，可以达到dropout的效果。
dropout由固定值变为一个区间，可以提高效果
将dropout后的表示映射回输入空间时，并不能找到一个样本x^*使得所有层都能满足dropout的结果，但可以为每一层都找到一个样本，这样，对于每一个dropout，都可以找到一组样本可以模拟结果。
dropout对应的还有一个dropConnect，公式如下：
- dropout
- dropConnect
试验中，纯二值化的特征的效果也非常好，说明了稀疏表示在进行空间分区的假设是成立的，一个特征是否被激活表示该样本是否在一个子空间中。

参考文献

[1]. Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

[2]. Dropout as data augmentation. http://arxiv.org/abs/1506.08700

更多文章请关注公众号【雨石记】

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

dropout

理解dropout 的相关文章

使用DISM修复系统

在win10系统中 xff0c 当系统出现文件受损或丢失后 xff0c 可以使用DISM工具进行联机修复 xff1a 1 使用管理员运行CMD xff1a DISM Online Cleanup image RestoreHealth 命令
解决火狐浏览器提示连接不安全或证书错误的问题

问题 xff1a 在地址栏输入 xff1a about config 接受风险并继续 xff0c 然后在方框中输入 xff1a security enterprise roots enabled 将false切换为true 测试
MacOS没有管理员账号的解决方法

MacOS没有管理员账号的解决方法参考文档 xff1a https www jianshu com p 7682230edfba 应用场景 xff1a 员工的Mac内只有一个普通用户 xff0c 没有管理员用户解决方案 xff1a 1
ubuntu18设置不要进入休眠，省去输入密码的麻烦

1合盖不休眠 Ctrl Alt T 组合键打开终端 xff1b 然后修改配置文件 etc systemd logind conf vim etc systemd logind conf 打开文件后修改下面这行 xff1a HandleLid
HP BIOS降级

应用场景 xff1a 员工电脑型号为HP 280 Pro G2 MT xff0c 为员工加装固态硬盘 xff08 硬盘型号 xff1a Samsung V NAND 860 EVO xff09 时 xff0c bios版本过高会导致电脑在开

随机推荐

systemd服务

Systemd 的简介和特点 Systemd 是 Linux 系统中的初始化系统 xff08 init xff09 xff0c 它主要的设计目标是克服sysvinit 固有的缺点 xff0c 提高系统的启动速度 systemd和ubuntu
重定向

重定向简介计算机最基础的功能是可以提供输入输出操作对于Linux系统来说 xff0c 通常以键盘为默认输入设备 xff0c 又称标准输入设备 xff1b 以显示器为默认的输出设备 xff0c 又称标准输出设备所谓重定向 xff0c 就
Canon imageRUNNER 2525i打印机驱动通过IP地址进行安装

环境打印机IP xff1a 192 168 140 251 本机IP xff1a 192 168 141 210 操作一下载驱动方法一 xff1a 佳能ir 2525i驱动下载地址 xff1a https pdisp01 c wss
防火墙firewalld

RHEL7中有几种防火墙共存 xff1a firewalld iptables ebtables等基于iptables的防火墙默认不启动 xff0c 但仍然可以继续使用 RHEL7默认使用firewalld作为防火墙 xff0c 管理工具
redis报错Unrecoverable error: corrupted cluster config file.

系统因为做物理硬件迁移硬重启了一次在启动redis时出现了一下问题 xff1a 启动脚本 xff1a 运行启动脚本 xff1a 提示正在运行但是没有进程出现在redis conf中将daemonize yes设置为daemonize n
vcenter开机报错activating swap-devices in /etc/fstab

问题 xff1a 昨天IDC机房一台存储断电了 xff0c 恰巧vcenter在这台存储上 xff0c 重启存储后再重启vcenter报了以下错误 xff1a 参考文档 xff1a https www virtualizestuff com
IDEA Git 分支branch操作，新建和合并

简单记录IDEA中Git分支操作 1 xff1a 创建分支右下角new branch创建分支创建完成查看右下角当前分支情况创建一个该分支的MD文件信息 xff0c 进行提交这样一个分支就创建完成 xff0c 然后merge分支 xf
KVM 介绍（1）：简介及安装

转载地址 xff1a http www cnblogs com sammyliu p 4543110 html KVM 介绍 xff08 1 xff09 xff1a 简介及安装学习 KVM 的系列文章 xff1a xff08 1 xff0
个人面试经验总结

1 xff0c 海投 2 xff0c 一定要强调自己能留到该地 xff08 这个城市这个公司 xff09 发展 3 xff0c 简历上出现的技能和项目面试前一天一定要复习 xff0c 因为面试官大部分问题会以简历为主 4 xff0c 要有
Java学习笔记4（设计模式、接口）

设计模式建造者模式在类中 xff0c 定义一个静态内部类作为外部类的建造者在建造者类中 xff0c 提供多个方法用来完成外部类对象的属性赋值在建造者类中 xff0c 提供一个 build 用来返回一个外部类的对象在类中 xff
R语言单因素/多因素 Logistic回归

变量因子的转换 gt 单因素logistic回归 gt 多因素logistic回归 https mp weixin qq com s NowePGv6DF9 dF4blSyzVQ 两个模型的比较构造测试集 xff0c 预测概率 xff0c
那一年读过的技术经典书

转载请注明 xff1a http blog csdn net xinzhangyanxiang article details 10199757 大学刚毕业 xff0c 总结起来读过的书并不算多 xff0c 而且主要集中在大四的时期读的 x
Bert: 双向预训练+微调

最近要开始使用Transformer去做一些事情了 xff0c 特地把与此相关的知识点记录下来 xff0c 构建相关的完整的知识结构体系以下是要写的文章 xff0c 文章大部分都发布在公众号雨石记上 xff0c 欢迎关注公众号获取最
Federated Learning: 问题与优化算法

工作原因 xff0c 听到和使用Federated Learning框架很多 xff0c 但是对框架内的算法和架构了解不够细致 xff0c 特读论文以记之这个系列计划要写的文章包括 xff1a Federated Learning 问题与
DIN: 阿里点击率预估之深度兴趣网络

广告推荐算法系列文章 xff1a 莫比乌斯百度的下一代query ad匹配算法百度凤巢分布式层次GPU参数服务器架构DIN 阿里点击率预估之深度兴趣网络DIEN 阿里点击率预估之深度兴趣进化网络本文的知识点来源于参考文献 1 xff0c
DIEN: 阿里点击率预估之深度兴趣进化网络

广告推荐算法系列文章 xff1a 莫比乌斯百度的下一代query ad匹配算法百度凤巢分布式层次GPU参数服务器架构DIN 阿里点击率预估之深度兴趣网络基于Delaunay图的快速最大内积搜索算法DIEN 阿里点击率预估之深度兴趣进化网络
概率矩阵分解模型 PMF

本文是论文一种结合推荐对象间关联关系的社会化推荐算法的笔记 xff08 上 xff09 因为对其中的概率矩阵分解 Probabilistic Matrix Factorization PMF 不够了解 xff0c 因而我先去脑补了PMF
卷积神经网络

卷积神经网络转载请注明 xff1a http blog csdn net stdcoutzyx article details 41596663 自今年七月份以来 xff0c 一直在实验室负责卷积神经网络 xff08 Convolutio
DeepID人脸识别算法之三代

DeepID人脸识别算法之三代转载请注明 xff1a http blog csdn net stdcoutzyx article details 42091205 DeepID xff0c 目前最强人脸识别算法 xff0c 已经三代如今
理解dropout

理解dropout 开篇明义 xff0c dropout是指在深度学习网络的训练过程中 xff0c 对于神经网络单元 xff0c 按照一定的概率将其暂时从网络中丢弃注意是暂时 xff0c 对于随机梯度下降来说 xff0c 由于是随机丢弃

理解dropout

理解dropout

组合派

观点

动机论

dropout带来的模型的变化

论文中的其他技术点

噪声派

观点

稀疏性

知识点A

知识点B

论文中的其他技术知识点

参考文献

理解dropout 的相关文章

随机推荐

热门标签