Deep learning：四十一(Dropout简单理解)

2023-10-29

　　前言

　　训练神经网络模型时，如果训练样本较少，为了防止模型过拟合，Dropout可以作为一种trikc供选择。Dropout是hintion最近2年提出的，源于其文章Improving neural networks by preventing co-adaptation of feature detectors.中文大意为：通过阻止特征检测器的共同作用来提高神经网络的性能。本篇博文就是按照这篇论文简单介绍下Dropout的思想，以及从用一个简单的例子来说明该如何使用dropout。

　　基础知识：

　　Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来（只是暂时不更新而已），因为下次样本输入时它可能又得工作了（有点抽象，具体实现看后面的实验部分）。

　　按照hinton的文章，他使用Dropout时训练阶段和测试阶段做了如下操作：

　　在样本的训练阶段，在没有采用pre-training的网络时（Dropout当然可以结合pre-training一起使用），hintion并不是像通常那样对权值采用L2范数惩罚，而是对每个隐含节点的权值L2范数设置一个上限bound，当训练过程中如果该节点不满足bound约束，则用该bound值对权值进行一个规范化操作（即同时除以该L2范数值），说是这样可以让权值更新初始的时候有个大的学习率供衰减，并且可以搜索更多的权值空间（没理解）。

　　在模型的测试阶段，使用”mean network(均值网络)”来得到隐含层的输出，其实就是在网络前向传播到输出层前时隐含层节点的输出值都要减半（如果dropout的比例为50%），其理由文章说了一些，可以去查看（没理解）。

　　关于Dropout，文章中没有给出任何数学解释，Hintion的直观解释和理由如下：

　　1. 由于每次用输入网络的样本进行权值更新时，隐含节点都是以一定概率随机出现，因此不能保证每2个隐含节点每次都同时出现，这样权值的更新不再依赖于有固定关系隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况。

　　2. 可以将dropout看作是模型平均的一种。对于每次输入到网络中的样本（可能是一个样本，也可能是一个batch的样本），其对应的网络结构都是不同的，但所有的这些不同的网络结构又同时share隐含节点的权值。这样不同的样本就对应不同的模型，是bagging的一种极端情况。个人感觉这个解释稍微靠谱些，和bagging，boosting理论有点像，但又不完全相同。

　　3. native bayes是dropout的一个特例。Native bayes有个错误的前提，即假设各个特征之间相互独立，这样在训练样本比较少的情况下，单独对每个特征进行学习，测试时将所有的特征都相乘，且在实际应用时效果还不错。而Droput每次不是训练一个特征，而是一部分隐含层特征。

　　4. 还有一个比较有意思的解释是，Dropout类似于性别在生物进化中的角色，物种为了使适应不断变化的环境，性别的出现有效的阻止了过拟合，即避免环境改变时物种可能面临的灭亡。

　　文章最后当然是show了一大把的实验来说明dropout可以阻止过拟合。这些实验都是些常见的benchmark，比如Mnist, Timit, Reuters, CIFAR-10, ImageNet.

　　实验过程：

　　本文实验时用mnist库进行手写数字识别，训练样本2000个，测试样本1000个，用的是matlab的https://github.com/rasmusbergpalm/DeepLearnToolbox，代码在test_example_NN.m上修改得到。关于该toolbox的介绍可以参考网友的博文【面向代码】学习 Deep Learning（一）Neural Network。这里我只用了个简单的单个隐含层神经网络，隐含层节点的个数为100，所以输入层-隐含层-输出层节点依次为784-100-10. 为了使本例子简单话，没用对权值w进行规则化，采用mini-batch训练，每个mini-batch样本大小为100，迭代20次。权值采用随机初始化。

　　实验结果：

　　没用Dropout时：

　　训练样本错误率(均方误差)：0.032355

　　测试样本错误率：15.500%

　　使用Dropout时：

　　训练样本错误率（均方误差）：0.075819

　　测试样本错误率：13.000%

　　可以看出使用Dropout后，虽然训练样本的错误率较高，但是训练样本的错误率降低了，说明Dropout的泛化能力不错，可以防止过拟合。

　　实验主要代码及注释：

　　test_dropout.m:　　

%% //导入minst数据并归一化
load mnist_uint8;
train_x = double(train_x(1:2000,:)) / 255;
test_x  = double(test_x(1:1000,:))  / 255;
train_y = double(train_y(1:2000,:));
test_y  = double(test_y(1:1000,:));
% //normalize
[train_x, mu, sigma] = zscore(train_x);% //归一化train_x,其中mu是个行向量,mu是个列向量
test_x = normalize(test_x, mu, sigma);% //在线测试时，归一化用的是训练样本的均值和方差，需要特别注意

%% //without dropout
rng(0);
nn = nnsetup([784 100 10]);% //初步构造了一个输入-隐含-输出层网络，其中包括了
                           % //权值的初始化，学习率，momentum，激发函数类型，
                           % //惩罚系数，dropout等
opts.numepochs =  20;   %  //Number of full sweeps through data
opts.batchsize = 100;  %  //Take a mean gradient step over this many samples
[nn, L] = nntrain(nn, train_x, train_y, opts);
[er, bad] = nntest(nn, test_x, test_y);
str = sprintf('testing error rate is: %f',er);
disp(str)

%% //with dropout
rng(0);
nn = nnsetup([784 100 10]);
nn.dropoutFraction = 0.5;   %  //Dropout fraction，每一次mini-batch样本输入训练时，随机扔掉50%的隐含层节点
opts.numepochs =  20;        %  //Number of full sweeps through data
opts.batchsize = 100;       %  //Take a mean gradient step over this many samples
nn = nntrain(nn, train_x, train_y, opts);
[er, bad] = nntest(nn, test_x, test_y);
str = sprintf('testing error rate is: %f',er);
disp(str)

　　下面来分析与dropout相关的代码，集中在上面test.m代码的后面with drop部分。首先在训练过程中需要将神经网络结构nn的dropoutFraction设置为一定比例，这里设置为50%：nn.dropoutFraction = 0.5;

　　然后进入test_dropout.m中的nntrain()函数，没有发现与dropoutFraction相关的代码，继续进入网络前向传播函数nnff()函数中，在网络的隐含层节点激发函数值被计算出来后，有下面的代码：

　　　　if(nn.dropoutFraction > 0)

            if(nn.testing)

                nn.a{i} = nn.a{i}.*(1 - nn.dropoutFraction);

            else

                nn.dropOutMask{i} = (rand(size(nn.a{i}))>nn.dropoutFraction);

                nn.a{i} = nn.a{i}.*nn.dropOutMask{i};

            end

        end

由上面的代码可知，隐含层节点的输出值以dropoutFraction百分比的几率被随机清0（注意此时是在训练阶段，所以是else那部分的代码），既然前向传播时有些隐含节点值被清0了，那么在误差方向传播时也应该有相应的处理，果然，在反向传播函数nnbp()中，有下面的代码：

　　　　if(nn.dropoutFraction>0)

            d{i} = d{i} .* [ones(size(d{i},1),1) nn.dropOutMask{i}];

        end

　　也就是说计算节点误差那一项时，其误差项也应该清0。从上面可以看出，使用dropout时，其训练部分的代码更改很少。

　　(有网友发私信说，反向传播计算误差项时可以不用乘以dropOutMask{i}矩阵，后面我仔细看了下bp的公式，一开始也感觉不用乘有道理。因为源码中有为：

for i = 1 : (n - 1)
    if i+1==n
        nn.dW{i} = (d{i + 1}' * nn.a{i}) / size(d{i + 1}, 1);
    else
    nn.dW{i} = (d{i + 1}(:,2:end)' * nn.a{i}) / size(d{i + 1}, 1); 
    end
end

　　代码进行权重更新时，由于需要乘以nn.a{i},而nn.a{i}在前向过程中如果被mask清掉的话（使用了dropout前提下），则已经为0了。但其实这时错误的，因为对误差

敏感值作用的是与它相连接的前一层权值，并不是本层的权值，而本层的输出a只对它的下一层权值更新有效。)

　　再来看看测试部分，测试部分如hintion论文所说的，采用mean network,也就是说前向传播时隐含层所有节点的输出同时减小dropoutFraction百分比，即保留(1- dropoutFraction)百分比，代码依旧是上面贴出的nnff()函数里满足if(nn.testing)的部分：

　　　　if(nn.dropoutFraction > 0)

            if(nn.testing)

                nn.a{i} = nn.a{i}.*(1 - nn.dropoutFraction);

            else

                nn.dropOutMask{i} = (rand(size(nn.a{i}))>nn.dropoutFraction);

                nn.a{i} = nn.a{i}.*nn.dropOutMask{i};

            end

        end

　　上面只是个简单的droput实验，可以用来帮助大家理解dropout的思想和使用步骤。其中网络的参数都是采用toolbox默认的，并没有去调整它，如果该实验将训练样本增大，比如6w张，则参数不变的情况下使用了dropout的识别率还有可能会降低（当然这很有可能是其它参数没调到最优，另一方面也说明在样本比较少的情况下，droput确实可以防止过拟合），为了体现droput的优势，这里我只用了2000张训练样本。

　　参考资料：

　　Hinton, G. E., et al. (2012). "Improving neural networks by preventing co-adaptation of feature detectors." arXiv preprint arXiv:1207.0580.

https://github.com/rasmusbergpalm/DeepLearnToolbox

【面向代码】学习 Deep Learning（一）Neural Network

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

MATLAB

Deep learning：四十一(Dropout简单理解) 的相关文章

如何在Matlab脚本中将泰勒级数系数存储到数组中

这个问题是在 m 脚本的上下文中我知道如何获取函数的泰勒级数但我没有看到任何命令允许将级数的系数存储到数组中 sym2poly似乎不起作用如何将系数存储到数组中例如这个函数 syms x f 1 x 2 4 x 9 我们怎样才能得到
将 Android 应用程序与服务器上的 Matlab 应用程序连接

我正在 Android 上开发一个应用程序它将获取图像输入并将该输入传递到安装 MATLAB 应用程序的服务器 MATLAB 应用程序将计算结果并将其返回到该 Android 应用程序我想知道我可以使用哪个服务器如何将 MATLAB
将 Matlab MEX 文件中的函数直接嵌入到 Python 中

我正在使用专有的 Matlab MEX 文件在 Matlab 中导入一些仿真结果当然没有可用的源代码 Matlab 的接口实际上非常简单因为只有一个函数返回一个 Matlab 结构体我想知道是否有任何方法可以直接从Python调用M
如何使用Matlab提高PSD的分辨率

我有音频信号我用 Matlab 读取该信号并使用 pwelch 获取其 PSD 这是我正在使用的代码 x Fs audioread audioFile wav x x 1 mono xPSD f pwelch x hamming 512
MATLAB 中的抗锯齿线和标记

您好我在 MATLAB 中有一张图像我希望这条线是平滑的看看从 0 4 到 0 8 的线这太可怕了当在图中使用 LineSmoothing on 运算符时我得到了这个我在线条上做得很好但它也使标记变得平滑而且它们太可怕了
将单元格转换为双精度

gt gt C 1 2 CF 2 C 1 2 CF 2 gt gt whos C Name Size Bytes Class Attributes C 2x2 478 cell 我怎样才能转换C into double以便 gt gt C
opencv中矩阵的超快中值（与matlab一样快）

我正在 openCV 中编写一些代码想要找到一个非常大的矩阵数组单通道灰度浮点数的中值我尝试了几种方法例如对数组进行排序使用 std sort 和选择中间条目但与 matlab 中的中值函数相比它非常慢准确地说在 ma
将组合字符串和数字输入的元胞数组写入文本文件

考虑以下 DateTime 2007 01 01 00 00 2007 02 01 00 00 2007 03 01 00 00 Headers Datetime Data Dat 100 200 300 Data DateTime num
这是 `min` 和 `nanmin` 之间的区别； Matlab 中的“max”和“nanmax”？

Matlab描述nanmin and nanmax像这样 NANMIN最小值忽略NaNs NANMAX最大值忽略NaNs 但实际上 min and max ignore NaNs too 那我应该使用哪个根据我的测试 nanmin a
类方法的自定义代码完成？

在 MATLAB 中可以定义代码建议和完成如标题为的文档页面中所述自定义代码建议和完成 https www mathworks com help matlab matlab prog customize code suggestio
傅里叶变换定理 matlab

我目前正在尝试理解二维傅里叶位移定理根据我到目前为止所了解到的情况图像空间中的平移会导致相位差异但不会导致频率空间中的幅度差异我试图用一个小例子来演示这一点但它只适用于行的移位而不适用于列的移位这是一个小演示我只在这里显示幅
在 MATLAB 中定义其他中缀运算符

有没有办法在 MATLAB 中定义额外的中缀运算符具体来说我想定义两个中缀运算符 gt and lt gt 这些符号是理想的但如果需要它可以是单个字符它调用函数implies and iff以同样的方式 calls and and
Matlab Solve()：未给出所有解决方案

我试图找到两条曲线的交点 syms x y g x 20 exp x 30 3 5 1 sol x sol y solve x 22 3097 2 y 16 2497 2 25 y g x x y Real true 它只提供一种解决方案
为什么 MATLAB 本机函数 cov（协方差矩阵计算）使用与我预期不同的除数？

给定一个 M 维和 N 个样本的数据矩阵数据例如 data randn N M 我可以计算协方差矩阵 data mu data ones N 1 mean data cov matrix data mu data mu N 如果我使用原生
MATLAB - GUI 和 OPC 服务器

我想在 MATLAB 中设计一个图形用户界面可以使用 MATLAB 的过程控制对象链接和嵌入 OPC 工具箱连续读取数据我怎样才能实现这个我已经设计了图形用户界面但我无法将数据读入图形用户界面就这样做 type opctoolMA
使用 R2010b 中的符号工具箱来求解和/或 linsolve

我前几天问了一个问题here https stackoverflow com questions 20317038 matlab linear congruence solver that supports a non prime modu
垂直子图的单一颜色条

我想让下面的 MATLAB 图有一个沿着两个子图延伸的颜色条像这样的事情使用图形编辑器手动完成 Note 这与提出的问题不同here https stackoverflow com questions 39950229 matlab t
将数据提示堆栈放在轴标签顶部，并在轴位置发生更改后更新轴标签

此问题仅适用于 unix matlab Windows 用户将无法重现该问题我在尝试创建位于 y 轴标签顶部的数据提示时遇到问题下图很能说明问题正如您所看到的在 ylabel 附近创建的数据提示将到达 ylabel 文本的底部而期
Matlab颜色检测

我试图一致地检测同一场景的图像之间的某种颜色这个想法是根据颜色配置文件识别一组对象因此例如如果给我一个带有绿色球的场景并且我选择绿色作为我的调色板的一部分我想要一个具有反映它检测到球的矩阵的函数任何人都可以为这个项目推荐一些
动态调整自定义刻度数

Taking SO 的一个例子 https stackoverflow com a 7139485 97160 我想根据当前视图调整轴刻度这是默认行为除非设置自定义的刻度数下图展示了由此产生的行为左侧是默认行为右侧是带有自定义刻度

随机推荐

Sqlserver中如何快速写入千万级测试数据

数据库结构 id int username nvarchar 50 password nvarchar 50 addtime datetime token nvarchar 50 roleid int 一程序中写for循环实测一分钟写入
STM32_3（GPIO）

一 GPIO简介 GPIO General Purpose Input Output 通用输入输出口 8种输入输出模式输出模式可控制端口输出高电平驱动LED 蜂鸣器模拟通信协议输出时许等输入模式可读取端口的高低电平或电压用于读取按
Qt扩展-KDDockWidgets 简介及配置

Qt扩展 KDDockWidgets 简介及配置一概述二编译 KDDockWidgets 库 1 Cmake Gui 中选择源文件和编译后的路径 2 点击Config 配置好编译器 3 点击Generate 4 在存放编译的文件夹输
Win10+OpenCV2.4.13+VS2013+CUDA7.5配置教程

首先说明一下 OpenCV2 3 13之前的版本不支持CUDA7 5 因此配置总是会出问题在OpenCV官网下载OpenCV2 4 13版本此版本支持CUDA7 5 另外OpenCV2 4 13是支持VS2013的但不清楚支不支持VS
力扣：旋转数组（Java）

给你一个数组将数组中的元素向右轮转 k 个位置其中 k 是非负数 class Solution public void rotate int nums int k int n nums length k n rotate 2 nums
MySQL脏读、不可重复读、幻读

MySQL脏读不可重复读幻读事务的特性 ACID 原子性 Atomicity 指处于同一个事务中的多条语句是不可分割的即一个事务内的所有语句要么全部成功要么全部失败一致性 Consistency 事务必须使数据库从一个一致性状态
gpio上拉下拉区别

gpio上拉下拉区别 GPIO是一颗芯片 MCU 必须具备的最基本外设功能 GPIO通常有三种状态高电平低电平和高阻态高阻态换句话说就是断开状态或浮空态因此上拉和下拉其中一个强大的理由就是为了防止输入端悬空使其有确定的状态减弱外
【经典】修改SpringBoot的默认服务器Tomcat，替换Tomcat

以下将介绍如何替换掉SpringBoot默认服务器Tomcat 我们将从两个案例替换为Jetty和替换为UnderTow Tomcat是目前较流行的web容器但过于臃肿 Jetty是个内嵌WEB容器支持长连接如聊天等长时间保持连接
图论----同构图(详解)

图论当中的术语假设G V E 和G1 V1 E1 是两个图如果存在一个双射m V V1 使得对所有的x y V均有xy E等价于m x m y E1 则称G和G1是同构的这样的一个映射m称之为一个同构如果G G1 则称他为一个自同构
JS：各种遍历方式总结

js的遍历方式真的是有很多有用于遍历数组的也有用于遍历对象的各种方式有什么样的应用场景如何选择恰当的遍历方式很容易就让人迷糊所以做一下总结吧第一种普通for循环直接遍历出的是索引注意每次遍历都需要获取一次arr的长度 f
c#运算符

一运算符运算符是一种告诉编译器执行特定的数学或逻辑操作的符号 C 有丰富的内置运算符分类如下 1 算术运算符下表显示了 C 支持的所有算术运算符假设变量 A 的值为 10 变量 B 的值为 20 则例如假如A 21 B 10 i
网址与域名的区别

目录一网址与域名的区别二主域名与子域名一网址与域名的区别以网址https www baidu com为例网址由协议加域名组成所以协议是https 域名 www baidu com 区别 1 包含与被包含的关系网址包含域名
如何判断某个值更改就让按钮可用_【教程】如何创建自己的 NFT? 这里有份教程，请收下!...

AtomicHub 提供了 NFT 创建工具让任何人都可以创建自己的 NFT 非同质代币喜欢 NFT 的小伙伴们一起搞起来吧除了 WAX 之外目前 AtomicAssets 也支持了 EOS 区块链所以两条链上的朋友都可以参考
pandas的定义以及pandas的DataFrame的初步使用（二）

补充 Series自动对齐当多个series对象之间进行运算的时候如果不同series之间具有不同的索引值那么运算会自动对齐不同索引值的数据如果某个series没有某个索引值那么最终结果会赋值为NaN 示例 DataFrame对象
计算机网络c类网络划分子网介绍,IP地址的子网划分详解

原标题 IP地址的子网划分详解来源今日头条北京炫亿时代一子网划分基础 1 子网划分的若干个好处减少网络流量提高网络性能简化管理可以更为灵活的形成大覆盖范围的网络 2 你最好遵循以下步骤来进行子网划分确认所需要的网络ID数
文件分片上传demo

知识点 File File 接口也继承了 Blob 接口的属性 File 接口没有定义任何方法但是它从 Blob 接口继承了以下方法 Blob slice start end contentType new File 字符串数组 file
【C语言】错题本(4)

一题目及选项答案解析知识点字符型在内存中的数据存储 char类型数据在内存中的图示 unsigned char类型数据在内存中的图示二题目及选项答案解析 A B C D 三题目及选项答案解析数据在计算机中是先转换成补码
@ApiImplicitParam注解使用说明

ApiImplicitParam注解使用说明 ApiImplicitParam是Swagger框架中的一个注解用于描述请求参数的详细信息它可以帮助开发人员生成API文档并提供给用户更清晰的接口信息以下是对 ApiImplicitPa
别再乱写了，Controller 层代码这样写才足够规范！

前言本篇主要要介绍的就是controller层的处理一个完整的后端请求由4部分组成接口地址也就是URL地址请求方式一般就是get set 当然还有put delete 请求数据 request 有head跟body 响应数据 r
Deep learning：四十一(Dropout简单理解)

前言训练神经网络模型时如果训练样本较少为了防止模型过拟合 Dropout可以作为一种trikc供选择 Dropout是hintion最近2年提出的源于其文章Improving neural networks by preventin

Deep learning：四十一(Dropout简单理解)

Deep learning：四十一(Dropout简单理解) 的相关文章

随机推荐

热门标签