Keras 的 dropout 实现正确吗？

2023-11-27

The KerasDropout参考的实施这张纸.

以下摘录自该论文：

这个想法是在测试时使用单个神经网络而不丢失。该网络的权重是经过训练的按比例缩小的版本重量。如果在训练期间以概率 p 保留一个单元，则该单元的输出重量在测试时乘以 p 为如图2所示。

Keras 文档提到 dropout 仅在训练时使用，以及 Dropout 实现中的以下行

x = K.in_train_phase(K.dropout(x, level=self.p), x)

似乎表明实际上层的输出在测试期间只是简单地传递。

此外，我找不到按照论文建议在训练完成后缩小权重的代码。我的理解是，这个缩放步骤对于使 dropout 发挥作用从根本上来说是必要的，因为它相当于在“子网络”集合中获取中间层的预期输出。没有它，计算就不能再被认为是从这个“子网络”集合中采样的。

那么，我的问题是 Keras 中实现的 dropout 的缩放效果（如果有的话）在哪里？

更新1：好的，所以 Keras 使用反向 dropout，尽管它在 Keras 文档和代码中称为 dropout。链接http://cs231n.github.io/neural-networks-2/#reg似乎并不表明两者是等价的。答案也不在https://stats.stackexchange.com/questions/205932/dropout-scaling-the-activation-versus-inverting-the-dropout。我可以看到他们做类似的事情，但我还没有看到有人说他们完全一样。我认为他们不是。

那么一个新问题：dropout 和 inverted dropout 等价吗？需要明确的是，我正在寻找数学理由来证明它们是或不是。

是的。它得到了正确的实施。从 Dropout 被发明的时候起，人们就从实现的角度对其进行了改进。 Keras 正在使用其中一种技术。它被称为反向辍学你可能会读到相关内容here.

UPDATE:

老实说 - 从严格的数学意义上来说，这两种方法并不等同。在倒置大小写您将每个隐藏激活乘以 dropout 参数的倒数。但由于导数是线性的，它相当于将所有梯度乘以相同的因子。为了克服这种差异，你必须设置不同的学习权重。从这个角度来看，这种方法有所不同。但从实际角度来看，这种方法是等效的，因为：

如果您使用自动设置学习率的方法（如 RMSProp 或 Adagrad），那么算法几乎不会发生任何变化。
如果您使用自动设置学习率的方法 - 您必须考虑 dropout 的随机性，并且由于某些神经元在训练阶段将被关闭（在测试/评估阶段不会发生什么） - 你必须重新调整你的学习率才能克服这种差异。概率论为我们提供了最佳的重新调用因子 - 它是 dropout 参数的倒数，它使得损失函数梯度长度的期望值在训练和测试/评估阶段相同。

当然——以上两点都是关于反向辍学技术。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Keras 的 dropout 实现正确吗？的相关文章

Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
NotImplementedError：尚未为未构建的模型子类启用“fit_generator”

我正在使用以下代码 import tensorflow as tf traindata tf keras preprocessing image ImageDataGenerator rescale 1 255 shear range 0
为神经网络打乱两个 numpy 数组

我有两个 numpy 数组用于输入数据 X 和输出数据 y X np array 2 3 sample 1 x 16 4 dtype float sample 2 x y np array 1 0 sample 1 y 0 1 dtype
Keras ZeroDivisionError：整数除法或以零为模

我正在尝试使用 Keras 和 Tensorflow 实现卷积神经网络我有以下代码 from keras models import Sequential from keras layers import Conv2D MaxPoolin
Caffe 的 LSTM 模块

有谁知道 Caffe 是否有一个不错的 LSTM 模块我从 russel91 的 github 帐户中找到了一个但显然包含示例和解释的网页消失了以前是http apollo deepmatter io http apollo deep
了解 YOLO 是如何训练的

我试图了解 YOLO v2 是如何训练的为此我使用这个 keras 实现https github com experiencor keras yolo2 https github com experiencor keras yolo2在
在监督分类中，使用partial_fit() 的MLP 比使用fit() 的表现更差

我正在使用的学习数据集是灰度图像flatten让每个像素代表一个单独的样本第二张图像在训练后将被逐像素分类Multilayer perceptron MLP 前一个分类器我遇到的问题是MLP当它一次接收到所有训练数据集时表现更好 fit
将 Pytorch LSTM 的状态参数转换为 Keras LSTM

我试图将现有的经过训练的 PyTorch 模型移植到 Keras 中在移植过程中我陷入了LSTM层 LSTM 网络的 Keras 实现似乎具有三种状态类型的状态矩阵而 Pytorch 实现则具有四种状态矩阵例如对于hidden l
TensorFlow 相当于 PyTorch 的 Transforms.Normalize()

我正在尝试推断最初在 PyTorch 中构建的 TFLite 模型我一直在遵循PyTorch 实现 https github com leoxiaobin deep high resolution net pytorch blob 1ee
ValueError：张量：（...）不是该图的元素

我正在使用 keras 的预训练模型在尝试获取预测时出现错误我在烧瓶服务器中有以下代码 from NeuralNetwork import app route uploadMultipleImages methods POST def
Java 的支持向量机？

我想用Java编写一个智能监视器它可以随时发出警报detects即将到来的性能问题我的 Java 应用程序正在以结构化格式将数据写入日志文件
将 Dropout 与 Keras 和 LSTM/GRU 单元结合使用

在 Keras 中您可以像这样指定 dropout 层 model add Dropout 0 5 但对于 GRU 单元您可以将 dropout 指定为构造函数中的参数 model add GRU units 512 return se
对于只有 10000 个单词的字典来说，真正需要什么嵌入层 output_dim？

我正在训练一个 RNN 其单词特征集非常少大约 10 000 个我计划在添加 RNN 之前从嵌入层开始但我不清楚真正需要什么维度我知道我可以尝试不同的值 32 64 等但我宁愿先有一些直觉例如如果我使用 32 维嵌入向量则每
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
如何在 keras 中添加可训练的 hadamard 产品层？

我试图在训练样本中引入稀疏性我的数据矩阵的大小为比如说 NxP 我想将其传递到一个层 keras 层该层的权重大小与输入大小相同即可训练权重矩阵W的形状为NxP 我想对这一层的输入矩阵进行哈达玛乘积逐元素乘法 W 按元素与输入相乘
无法获取未知等级的 Shape 长度

我有一个神经网络来自tf data数据生成器和tf keras模型如下简化版本因为太长 dataset A tf data Dataset反对与next x方法调用get next为了x train迭代器和next y方法调用get
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
如何将神经网络的输出限制在特定范围内？

我正在使用 Keras 进行回归任务并希望将输出限制在一个范围内例如 1 到 10 之间有没有办法保证这一点像这样编写自定义激活函数 a simple custom activation from keras import back
在 Keras 中连接两个目录迭代器

假设我有类似以下内容 image data generator ImageDataGenerator rescale 1 255 train generator image data generator flow from director
Python sklearn 多标签分类：用户警告：所有训练示例中都存在标签不是 226

我正在尝试多标签分类问题我的数据看起来像这样 DocID Content Tags 1 some text here 70 2 some text here 59 3 some text here 183 4 some text here

随机推荐

错误：在最新检查期间无法捕获任务“transformClassesWithDexForDebug”的输出文件快照

我是 Android 应用程序开发新手试图构建一个简单的界面但遇到了这个错误我该如何解决它整个错误声明是这样的错误在最新检查期间无法捕获任务 transformClassesWithDexForDebug 的输出文件快照 jav
主干视图继承

我正在尝试为对象浏览器编写一个 Backbone 视图该视图旨在在具有不同对象类型和略有不同操作的多个地方实现我尝试简单地扩展浏览器中的主干视图然后在我的实现中扩展浏览器但这给我留下了一些共享的属性这是不期望的效果因为每次创建浏
JSON.stringify() 值作为数字？

我在用JSON stringify 在 HTML 上
如何在所有元素上用“js”替换“no-js”类名？ [复制]

这个问题在这里已经有答案了我想做的是获取具有类名的元素no js并将其替换为js 我不知道该怎么做我尝试谷歌搜索但找不到任何东西所以有人知道该怎么做吗我的目标是让菜单在单击时显示下拉导航但如果禁用 JavaScript 我希望它在
Kadane算法中如何返回最大子数组？

public class Kadane double maxSubarray double a double max so far 0 double max ending here 0 for int i 0 i lt a length i
将元素添加到状态 React

我已经有了这样的状态 this setState conversation div conversation map element gt if element id this props id return div div div div
旧应用程序的 PAM 身份验证

我有一个遗留应用程序它通过网络异步接收用户名密码请求由于我已经将用户名和密码存储为变量那么在 Linux Debian 6 上使用 PAM 进行身份验证的最佳方法是什么我尝试编写自己的对话函数但我不确定将密码输入其中的最佳方法
YouTube 链接的正则表达式

是否有人有一个正则表达式可以从几乎所有可能的 Youtube 链接方式获取 Youtube 视频非嵌入对象的链接我认为这是一个非常常见的问题并且我确信有很多方法可以将其联系起来起点是 http www youtube com
修改 String 的 List 迭代

我无法以这种方式修改列表的元素 for String s list s x s 执行后此列表中的代码元素未更改如何用最简单的方式通过List实现modyfing的迭代 Since String对象是不可变的您无法更改正在迭代的值此外
如何通过 TFS API 获取最新的变更集编号

如何通过 TFS API 获取最新的变更集编号你能给我举个例子吗干得好 TeamProjectPicker tpp new TeamProjectPicker TeamProjectPickerMode SingleProject tr
jqGrid：如何在不同页面上使用多选

简单的问题很难找到答案如果我尝试以编程方式选择一行我会使用以下命令 grid jqGrid setSelection rowId 问题是它只选择当前可见页面上的行如果rowId在另一页上则不会被选择更多信息我的目标是在第一次加
C++函数计算字符串中的所有单词

我在一次采访中被问到这个问题显然这是一个简单的问题但对我来说不是而且仍然不明显给定一个字符串计算其中的所有单词即使重复也没关系只是总数就像文本文件的字数一样单词是由空格分隔的任何内容标点符号并不重要只要它是单词的一部分
Python for 循环中的变量赋值

我知道在Python中常规的C 风格的变量赋值被对东西的引用所取代即 a 1 2 3 b a a append 4 print b gives 1 2 3 4 print a gives 1 2 3 4 但我仍然很困惑为什么基本类型会出
如何将自定义模板页面添加到夹层？

我已经在夹层上玩了几天了我一直在关注这个blog 这非常有帮助我现在需要制作一堆需要基于自定义模板的页面我的自定义模板称为content html 我已经把它放进去了myProject gt myApp theme folder gt
使用 Json.net 将 JSON 数组中的多个项目添加到 C# 中的对象

谁能告诉我如何反序列化包含多个属性的对象鉴于下面的场景代码可以正常工作 public ActionResult Index string json name Person 2 email email protected var emp
我需要在react-native项目中保留.watchmanconfig文件吗

默认反应本机项目生成 watchmanconfig只是空对象的文件我可以安全地删除它吗一个子问题是我可以做参考任何看守配置来以某种方式改善反应本机项目体验吗 watchmanconfig可以安全删除 If Watchman没有找到
Keycloak - 将所有用户映射到角色

我知道keycloak已经暴露了下面的api
自定义功能区 onAction 语法问题

我跟着这里的路线为 Access 应用程序创建自定义功能区但所有按钮都不起作用我不断收到一条错误消息指出 Access 无法找到该函数或宏即使它是公共的且位于标准模块中最终我发现如果我使用以下语法它会起作用 onAction fn
ViewPager2 无法动态添加删除片段

在索引处删除添加片段会导致 Viewpager2 中出现意外行为这是不可能的ViewPager但预计将与Viewpager2 它会导致重复片段和不同步TabLayout 这是一个演示项目重现了这个问题有一个切换按钮可以删除片段并将其
Keras 的 dropout 实现正确吗？

The KerasDropout参考的实施这张纸以下摘录自该论文这个想法是在测试时使用单个神经网络而不丢失该网络的权重是经过训练的按比例缩小的版本重量如果在训练期间以概率 p 保留一个单元则该单元的输出重量在测试时乘以 p 为

Keras 的 dropout 实现正确吗？

Keras 的 dropout 实现正确吗？ 的相关文章

随机推荐

热门标签

Keras 的 dropout 实现正确吗？的相关文章