辍学训练

2024-06-19

如何对由 dropout 产生的许多薄层进行平均？在测试阶段要使用哪些重量？我对这个问题真的很困惑。因为每个细化层都会学习一组不同的权重。那么反向传播是为每个稀疏网络单独完成的吗？这些细化网络之间的权重究竟是如何共享的？因为在测试时仅使用一个神经网络和一组权重。那么使用哪一组权重呢？

据说每个训练案例都会训练不同的细化网络。培训案例到底是什么意思？你的意思是每个前向和反向传播训练一个不同的稀疏网络一次？那么下一个前向和反向传播训练另一个稀疏网络？权重是如何学习的？

训练时：

在 Dropout 中，您只需强制该层的一些激活/输出数量（dropout 概率）为零。通常，创建布尔掩码来删除这些激活。这些掩模在进行反向传播时使用。因此，梯度应用于仅在前向传播中使用的权重。

测试时：

使用所有重量。所有神经元都被保留（没有丢失），但该层的激活/输出按 p（丢失概率）缩放，以标准化该层的整个输出。

它只是一个网络，如上图所示（从这里使用：https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf )

问题：我不明白你所说的稀疏网络是什么意思。

我希望这有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

辍学训练的相关文章

Keras 错误：预计会看到 1 个数组

当我尝试在 keras 中训练 MLP 模型时出现以下错误我使用的是 keras 版本1 2 2 检查模型输入时出错您输入的 Numpy 数组列表传递给您的模型的尺寸不是模型预期的尺寸预期的查看 1 个数组但得到以下 12859
如何以干净高效的方式在 pytorch 中获得小批量？

我试图做一件简单的事情即使用火炬通过随机梯度下降 SGD 训练线性模型 import numpy as np import torch from torch autograd import Variable import pdb def
神经网络误差随每个训练示例而振荡

我已经实现了一个反向传播神经网络并根据我的数据对其进行了训练数据在英语和非洲语句子之间交替神经网络应该识别输入的语言网络结构为27 16 2 输入层对于字母表中的每个字母都有 26 个输入加上一个偏置单元我的问题是当遇到每个新的训
使用 CNN 和 pytorch 计算每个类别的准确度

我可以使用此代码计算每个时期后的准确性但是我想最后计算每个班级的准确性我怎样才能做到这一点我有两个文件夹 train 和 val 每个文件夹有 7 个不同类别的 7 个文件夹 train 文件夹用于训练否则 val 文件夹用于测试
“Dense”对象没有属性“op”[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我正在尝试使用tensorflow keras制作一个完全连接的模型这是我的代码 from tensorflow keras m
使用 Huggingface 变压器仅保存最佳权重

目前我正在使用 Huggingface transformers 构建一个新的基于 Transformer 的模型其中注意力层与原始模型不同我用了run glue py检查我的模型在 GLUE 基准测试上的性能但是我发现huggi
使用 R 上的反向传播神经网络模型生成预测会为所有观察返回相同的值

我正在尝试使用经过训练的反向传播神经网络在新数据集上使用神经网络包来生成预测我使用了计算函数但最终所有观察结果都得到相同的值我做错了什么 the data Var1 lt runif 50 0 100 sqrt data lt d
使用 Keras 时，验证集中未见的类别会出现错误

我有由数值变量和分类变量组成的数据分类变量有很多类别因此我使用嵌入来表示这些类别我的模型是一个简单的神经网络我知道当你定义嵌入层时你需要通过input dim number of categories 1为了解释训练中看不见的类别
池化与随时间池化

我从概念上理解最大总和池中发生的情况作为 CNN 层操作但我看到这个术语随时间变化的最大池或随时间变化的总和池例如用于句子分类的卷积神经网络 https arxiv org pdf 1408 5882 pdfYoon Kim
使 pycaffe 致命错误：找不到“Python.h”文件

我在运行 OSX 10 9 5 的 Mac 上编译了 caffe 并且我知道尝试编译 pycaffe 当我在 caffe 根文件夹中运行 make pycaffe 时我得到 CXX LD o python caffe caffe so p
预处理 csv 文件以与 tflearn 一起使用

我的问题是关于在将 csv 文件输入神经网络之前对其进行预处理我想使用 python 3 中的 tflearn 为著名的 iris 数据集构建一个深度神经网络数据集 http archive ics uci edu ml machine
辍学训练

如何对由 dropout 产生的许多薄层进行平均在测试阶段要使用哪些重量我对这个问题真的很困惑因为每个细化层都会学习一组不同的权重那么反向传播是为每个稀疏网络单独完成的吗这些细化网络之间的权重究竟是如何共享的因为在测试时仅使用一
如何返回 Keras 中验证丢失的历史记录

使用 Anaconda Python 2 7 Windows 10 我正在使用 Keras 示例训练语言模型 print Build model model Sequential model add GRU 512 return seque
TensorFlowdynamic_rnn 回归器：ValueError 维度不匹配

我想构建一个用于回归的玩具 LSTM 模型 This http mourafiq com 2016 05 15 predicting sequences using rnn in tensorflow html不错的教程对于初学者来说已经太
Keras 中 Adam 优化器的衰减参数

我认为 Adam 优化器的设计可以自动调整学习率但是 Keras 中有一个选项可以明确提及 Adam 参数选项中的衰减我想澄清衰减对 Keras 中 Adam 优化器的影响如果我们在 lr 0 001 上使用衰减例如 0 01 编译
Keras 均方误差损失层

我目前正在实现一个自定义损失层在此过程中我偶然发现了 Objectives py 文件 1 中均方误差的实现我知道我对这种损失计算的理解遗漏了一些东西因为我一直认为平均值是在每个小批量张量的轴 0 中的每个输出的样本之间单独完成的
使用tensorflow和keras的不同训练结果

Intro 我随机创建训练数据X形状为 1000 10 对于标签Y 它总是等于第一个元素X特征例如认为x1 0 1 0 2 0 3 0 9 theny 0 1 使用以下代码创建的数据集 from numpy random import
在 Tensorflow 中实现对比损失和三元组损失

我两天前开始玩 TensorFlow 我想知道是否有三元组和对比损失的实现我一直在看文档 https www tensorflow org versions r0 9 api docs python nn html losses 但我还没
YOLO 中的 Intersection Over Union (IOU) 地面实况

我试图理解 YOLO 中 IOU 的概念我读到它是预测边界框和真实边界框之间的重叠区域这是训练数据所必需的并且您可以手动放置地面实况边界框我的问题是如果你想在新图像上应用 YOLO 它如何知道真实边界框如果我们有两个边界框那么
MATLAB 中的神经网络

我在 MATLAB 中训练了异或神经网络并得到了这些权重 iw 2 162 2 1706 2 1565 2 1688 lw 3 9174 3 9183 b 1 2 001 2 0033 b 2 3 8093 出于好奇我尝试编写 MATLA

随机推荐

删除 arrayList 中的项目，java.lang.UnsupportedOperationException

我想删除数组列表选择位置中的项目我的代码是 List
按列表中（不在）中的索引值对 Pandas 数据帧进行切片

我有一个pandas数据框 df 我想选择所有索引df那是not在列表中 blacklist 现在我使用列表理解来创建所需的切片标签 ix i for i in df index if i not in blacklist df sele
如何向 ExtJS 应用添加自定义字体？

同事请建议如何向 ExtJS 添加自定义字体以便它与应用程序一起加载如果用户的系统中没有安装此字体必须将其加载到哪个文件夹以及应将其包含在何处以及如何包含谢谢各位的解答您只需添加新的字体文件即可myApp resources
如何让 PowerShell 等待 Invoke-Item 完成？

如何让 PowerShell 等待 Invoke Item 调用完成我正在调用一个不可执行的项目因此我需要使用 Invoke Item 来打开它只需使用Start Process wait 例如Start Process wait c
tkinter - 使用按钮在帧之间来回切换

我需要功能最好是一个功能当按下下一页和后退按钮时可以在页面之间来回切换我想这可以通过将布尔变量分配给后退和下一页按钮来完成不确定是否可以这样做来确定您是否要前进或后退所有页面的有序列表需要知道当前升高的框架的索引索引可用于找出
在 Chrome 中，应用于包含图像的锚点的轮廓高度不正确

对于我正在开发的网站我希望当链接聚焦悬停活动时链接周围会出现虚线轮廓我希望文本和图像链接发生这种情况我遇到的问题是虽然我的代码在 Firefox 和 IE 中运行良好但在 Chrome 7 0 517 41 中虚线轮廓与我
带数据透视表的 Laravel 查询生成器

我有两个带有数据透视表的表 Table tours id name country id featured Table countries id name 数据透视表country tour id country id tour id 我想
Jasmine 测试中模拟 window.location.reload

我创建了一个window location reload我的 JavaScript 中的函数我需要在 Jasmine 中测试时模拟重新加载函数因为它不断循环当我跑步时测试进展顺利grunt jenkins 但在浏览器 mozilla
如何通过 COM 将长数组从 VB6 传递到 C#

我需要将 int 或 long 数组无关紧要从 VB6 应用程序传递到 C COM Visible 类我尝试在 C 中声明接口如下所示 void Subscribe MarshalAs UnmanagedType SafeArray
如何强制串行端口写入方法在发送数据之前等待线路清除？

以下是我正在尝试做的一些背景打开从移动设备到蓝牙打印机的串行端口将 EPL 2 表格发送到蓝牙打印机以便它了解如何处理即将接收的数据收到表格后将一些数据发送到打印机这些数据将打印在标签纸上根据需要多次重复步骤 3 打印每个标签
即使没有结果也返回一个值

我有这种简单的查询它返回给定 id 的非空整数字段 SELECT field1 FROM table WHERE id 123 LIMIT 1 问题是如果找不到 id 结果集就是空的我需要查询始终返回一个值即使没有结果我有这个东西工
如何使用div绘制曲线？

我需要使用 CSS 绘制两条曲线我尝试过组装一些divs 使用CSSborder radius绘制弧形面板但结果很糟糕还有更好的算术吗正如我之前在评论中提到的请不要使用CSS用于实现复杂的曲线和形状虽然仍然可以使用 CSS 来实
添加 Google Play Services 9.0.0 后 Dex 文件超过 64k

我按照 Firebase 指南添加 FCM 因此我将以下依赖项添加到我的应用程序 gradle 中 compile com google android gms play services 9 0 0 apply plugin com go
重新渲染列表模板导致页面滚动到顶部

我有一些模板大致如下所示
只获取倒数第二条记录 - mysql-query

我有一个如下表记录 my table id rating description 1 0 0 bed 2 1 0 good 3 0 0 bed 4 1 0 good 5 0 0 bed 6 0 0 bed 7 0 0 bed 现在我通过评级
SSE：如何将 _m128i._i32[4] 减少到 _m128i._i8

我对 SSE 编码非常陌生我想将 int32 类型的 m128i 4 的结果存储到 int8 类型的 m128i 中 m128i j i32 k 的值均在 127 和 127 之间我认为伪代码如下 result i8 vec1 i8 0
Ruby 在 Windows 上找不到 sqlite3 驱动程序

我正在尝试在 Windows 上设置 Ruby on Rails 我正在使用看起来不错的 Flash Rails 发行版但是 sqlite3 有一个问题我发现线程告诉我安装版本 1 2 3 安装得很好我使用的是 ruby 1 9 0
程序堆栈真的会溢出吗？

如果达到堆栈大小限制处理器是否会导致操作系统出现 TRAP 从而防止堆栈溢出 P 我相信 Windows 确实有一个堆栈当您到达末尾时它会增长在 Visual Studio 编译器中负责此操作的代码位于chkstk obj modu
C++11 容器/适配器属性的实用总结/参考？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我正在寻找各种 C 11 标准容器和容器适配器的重要属性的全面总结参考也可以选择包括 boost Qt 但是按这些属性索引而不是通常的每个容器文档
辍学训练

如何对由 dropout 产生的许多薄层进行平均在测试阶段要使用哪些重量我对这个问题真的很困惑因为每个细化层都会学习一组不同的权重那么反向传播是为每个稀疏网络单独完成的吗这些细化网络之间的权重究竟是如何共享的因为在测试时仅使用一

辍学训练

辍学训练 的相关文章

随机推荐

热门标签

辍学训练的相关文章