反向传播中的梯度检查

2024-03-05

我正在尝试对具有 2 个单位输入层、2 个单位隐藏层和 1 个单位输出层的简单前馈神经网络实现梯度检查。我所做的如下：

取所有层之间网络权重的每个权重 w 并使用 w + EPSILON 然后使用 w - EPSILON 执行前向传播。
使用两个前馈传播的结果计算数值梯度。

我不明白的是如何准确地执行反向传播。通常，我将网络的输出与目标数据进行比较（在分类的情况下），然后在网络中反向传播误差导数。然而，我认为在这种情况下必须反向传播一些其他值，因为数值梯度计算的结果不依赖于目标数据（而仅依赖于输入），而误差反向传播取决于目标数据。那么，梯度检查的反向传播部分应该使用什么值呢？

反向传播是在分析计算梯度之后执行的，然后在训练时使用这些公式。神经网络本质上是一个多元函数，需要找到或训练函数的系数或参数。

相对于特定变量的梯度的定义是函数值的变化率。因此，正如您所提到的，从定义来看一阶导数 https://en.wikipedia.org/wiki/Derivative我们可以近似函数的梯度，包括神经网络。

要检查神经网络的分析梯度是否正确，最好使用数值方法进行检查。

For each weight layer w_l from all layers W = [w_0, w_1, ..., w_l, ..., w_k]
    For i in 0 to number of rows in w_l
        For j in 0 to number of columns in w_l
            w_l_minus = w_l; # Copy all the weights
            w_l_minus[i,j] = w_l_minus[i,j] - eps; # Change only this parameter

            w_l_plus = w_l; # Copy all the weights
            w_l_plus[i,j] = w_l_plus[i,j] + eps; # Change only this parameter

            cost_minus = cost of neural net by replacing w_l by w_l_minus
            cost_plus = cost of neural net by replacing w_l by w_l_plus

            w_l_grad[i,j] = (cost_plus - cost_minus)/(2*eps)

此过程一次仅更改一个参数并计算数值梯度。在这种情况下我使用了(f(x+h) - f(x-h))/2h，这似乎对我来说效果更好。

请注意，您提到：“因为数值梯度计算的结果不依赖于目标数据”，这是不正确的。就像当你找到cost_minus and cost_plus上面，成本是根据以下计算的

权重
目标班级

因此，反向传播的过程应该独立于梯度检查。在反向传播更新之前计算数值梯度。在一个时期内使用反向传播计算梯度（使用与上面类似的方法）。然后比较向量/矩阵的每个梯度分量并检查它们是否足够接近。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

neuralnetwork

backpropagation

反向传播中的梯度检查的相关文章

C# 中的激活函数列表

我可以在数学中找到激活函数列表但在代码中却找不到所以我想如果应该有这样一个列表的话这将是代码中放置这样一个列表的正确位置从这两个链接中算法的翻译开始 https en wikipedia org wiki Activation fu
我如何知道我的神经网络模型是否过度拟合（Keras）

我使用 Keras 来预测输出是 1 还是 0 数据如下所示 funded amnt emp length avg cur bal num actv rev tl loan status 10000 5 60088 19266 2 1 13
使用 ScikitLearn 的神经网络实现时出现的问题

我正在尝试使用 Scikit Learn 提供的神经网络实现来实现图像处理我有近 10 000 张 JPG 格式的彩色图像我将这些图像转换为 PNG 格式并删除了颜色信息新图像都是黑白图像将这些图像转换为矢量格式后这些图像矢量形成
如何设计深度卷积神经网络？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案据我了解所有 CNN 都非常相似它们都有一个卷积层后面是池化层和 relu 层有些具有专门的层例如 FlowNet 和 Segn
如何注释图像分割的基本事实？

我正在尝试训练一个执行图像分割的 CNN 模型但如果我有几个我很困惑如何创建基本事实图像样本图像分割可以将输入图像中的每个像素分类为预定义的类别例如汽车建筑物人或任何其他类别有没有任何工具或一些好主意来创建地面图像分割的
AlexNet 中的神经元数量

In AlexNet http www cs toronto edu 7Efritz absps imagenet pdf 图像数据为3 224 224 第一个卷积层用96个大小的核对图像进行过滤11 11 3步幅为 4 像素我对第一层的
为什么我的 keras LSTM 模型陷入无限循环？

我正在尝试构建一个小型 LSTM 它可以通过在现有 Python 代码上进行训练来学习编写代码即使是垃圾代码我已将数百个文件中的数千行代码连接到一个文件中每个文件以
反向传播实现问题

我应该做什么我有一个黑白图像 100x100px 我应该训练一个反向传播 http en wikipedia org wiki Backpropagation神经网络与该图像输入是图像的 x y 坐标从 0 到 99 输出是 1 白色
液态状态机：它是如何工作的以及如何使用它？

我现在正在学习LSM 液态状态机我试图了解它们到底是如何用于学习的我对在网上读到的内容感到非常困惑我将写出到目前为止我所理解的内容但这可能是不正确的所以如果您能纠正我并解释什么是正确的我会很高兴 LSM 根本没有经过训练它们只
Caffe：如果内存中只能容纳一小部分，我该怎么办？

我正在尝试训练一个非常大的模型因此我只能将非常小的批量大小放入 GPU 内存中处理小批量的结果非常噪声梯度估计 https stackoverflow com a 33717093 1714410 我该怎么做才能避免这个问题您可以更
神经网络中“特征”的定义是什么？

我是神经网络的初学者我对这个词很困惑feature 你能给我一个定义吗feature 这些特征是隐藏层中的神经元吗这些特征是输入向量的元素特征的数量等于网络输入层的节点数量如果您使用神经网络根据物理属性的测量将动物分类为猫或狗那么
pytorch 中的 autograd 可以处理同一模块中层的重复使用吗？

我有一层layer in an nn Module并在一次中使用两次或多次forward步这个的输出layer稍后输入到相同的layer pytorch可以吗autograd正确计算该层权重的梯度 def forward x x self
BatchNorm 动量约定 PyTorch

Is the 批归一化动量约定 http pytorch org docs master modules torch nn modules batchnorm html 默认 0 1 与其他库一样正确例如Tensorflow默认情况下似乎
Pytorch ValueError：优化器得到一个空参数列表

当尝试创建神经网络并使用 Pytorch 对其进行优化时我得到了 ValueError 优化器得到一个空参数列表这是代码 import torch nn as nn import torch nn functional as F fro
R 神经网络在时间序列的最大步长内不收敛

我正在编写一个神经网络来预测时间序列中的元素x sin x 2 在 R 中使用neuralnet包裹这就是训练数据的生成方式假设窗口有 4 个元素最后一个元素是必须预测的元素 nntr0 lt 1 25 sin 1 25 2 nnt
caret::train：为 mlpWeightDecay（RSNNS 包）指定更多非调整参数

我在使用插入符号包和 RSNNS 包中的 mlpWeightDecay 方法指定学习率时遇到问题 mlpWeightDecay 的调整参数是大小和衰减将大小保持为 4 并在 c 0 0 0001 0 001 0 002 上调整衰减的示例
实例标准化与批量标准化

据我所知批量归一化通过将激活转向单位高斯分布来帮助加快训练速度从而解决梯度消失问题批量归一化行为在训练使用每个批次的平均值 var 和测试时间使用训练阶段的最终运行平均值 var 时应用不同另一方面实例归一化充当本文提到的对比
将数值和分类数据混合到具有密集层的 keras 序列模型中

我在 Pandas 数据框中有一个训练集我将此数据框传递到model fit with df values 以下是有关 df 的一些信息 df values shape 981 5 df values 0 array 163 0 6 83
R中的神经网络包出现大错误

我正在尝试弄清楚如何使神经网络包发挥作用我用我创建的数据及其结果大约 50 行数据和三列第四列是我想要的结果它是通过简单的数学执行如对其他三列求和得出的进行了一些测试到目前为止一切顺利然后我决定将这个包应用到真实数据上我
Keras 获取中间层的输出

what my model looks like defining the model archictecture model Sequential 1st conv layer model add Conv2D 32 5 5 activa

随机推荐

clang-format 主要包括以文件夹前缀排序

我正在尝试使用 clang format 来识别主要包含内容foo cpp在以下设置中 project my lib CMakeLists txt include project my lib foo hpp src foo cpp tes
Safari 应用程序扩展在 hello world 项目几秒钟后崩溃

打开Xcode 文件 gt 新建 gt 项目 gt 可可应用程序文件 gt 新建 gt 目标 gt safari扩展编译并运行扩展选择野生动物园 xcode 编译没有错误 Safari 打开几秒钟然后崩溃这是调试窗口的输出 2018
避免 Objective-C 中的异步代码嵌套块

我的 Objective C 代码中有一系列需要发生的事件假设我有 6 件东西 thingA thingB thingC thingD thingE 和 thingF thingB 和 thingD 返回 BOOL 如果 thingB 为
iPhone OS 3.1.3 支持块吗？

我尝试在 iPhone 3 1 3 应用程序中使用 Objective C 块但出现链接错误 NSConcreteGlobalBlock referenced from 关于 iPhone 3 1 3 SDK 是否支持块有什么想法吗我在
如何从cassandra读取文件并将文件写入cassandra？

不知道google什么关键词我是 datastax 的新手我想我可以轻松地将文件插入 cassandra 我想我不需要像这样将文件写入 cassandra out new FileOutputStream new File C test
如何从 Gmail 读取电子邮件？

我正在尝试将我的 gmail 连接到 python 但显示此错误我已经检查过我的密码知道是什么吗 b AUTHENTICATIONFAILED Invalid credentials Failure Traceback most rec
布局页面“~/Views/Shared/_Layout.cshtml”已定义以下部分，但尚未呈现：“Scripts”

我是 ASP MVC 新手正在使用 ASP MVC 4 Beta 简介教程http www asp net mvc tutorials mvc 4 getting started with aspnet mvc4 intro to asp
FileHelpers：如何跳过第一行和最后一行读取固定宽度文本

下面的代码用于使用 ASP NET MVC2 中的 FileHelpers 读取固定宽度上传的文件内容文本文件第一行和最后一行的长度较小因此 ReadStream 会导致异常所有其他线都有适当的固定宽度如何跳过第一行和最后一行或以其
视图内带有变量的动态 SQL (SQL Server)

你好我本质上是想在 SQL Server 2008 的新视图窗口中执行此操作声明 var 从数据库中选择db exec 从 var dbo Names中选择名称这个视图实际上在 SQL Server 中运行但我无法保存它它给了我一
jQuery 抓取输入类型='file'上传的文件

我想抓取上传的文件
忽略 Azure Pipelines 中 .vdproj 项目的 NuGet 包还原

我正在尝试针对 NET Framework 4 7 2 解决方案设置 Azure DevOps 构建管道该解决方案包含Visual Studio 安装程序项目 https marketplace visualstudio com item
没有关于服务器 API 调用的 AppSecret Proof 的文档吗？

如果我启用该选项高级设置是给我BAD 请求或错误代码 400 如果我启用此选项 AppSecret Proof 参数所需的值是多少如果您访问 github 并查看他们的 PHP SDKcode https github com faceb
PHP & MySQL 用户名提交问题

我想允许用户随时将用户名字段留空但我收到用户名错误消息Your username is unavailable 我该如何纠正这个问题这是 PHP 代码 if isset POST username u SELECT FROM users
松耦合和依赖注入变得疯狂

随着我们的依赖注入框架的最新添加春季的注释创建 DI 管理的组件的边际成本似乎已经达到了一些关键的新阈值虽然以前存在与 spring 相关的开销大量的 XML 和额外的间接但依赖注入似乎已经开始出现在许多模式所在的地方他们躲在引
访问过的兄弟姐妹的风格

我的 HTML 看起来像这样 ul li a a a a a a li ul 我想将样式应用于访问链接的所有同级链接我试过 ul gt li gt a visited a color green important 但什么也没发生但 u
使用 role="list" 和 role="listitem" 的原因是什么？

使用以下代码有什么好处吗 ul li li li li li li ul 以下代码对于辅助技术是否具有相同的含义 ul li li li li li li ul 答案是肯定的当使用正确的语义标记来构建文档时辅助技术会很好地发挥作用如果
设置条形图上日期标签的格式

我的问题假设我有一个这样的系列 In 10 month series Out 10 2016 01 01 4880 2016 02 01 4579 2016 03 01 6726 2016 04 01 1778 2016 05 01 33
计算 MarkerCluster 中的元素数量

所以我的地图上有几家商店作为图层我的所有商店都已添加到 MarkerCluster 并且该商店已添加到地图一切正常但我想在我的 viewPort 中显示有关商店的简短信息对于通常的商店层这是第一次尝试但集群组不起作用我从这个
由于我没有使用服务器，如何访问 Chrome 中的原始策略

我想更改chrome中的origin策略如何访问并修改它非常感谢您是在谈论放宽 file url 的同源策略吗如果是这样我强烈建议您在本地计算机上设置一个 Web 服务器并以这种方式进行开发也就是说你can使用以下命令行标志运
反向传播中的梯度检查

我正在尝试对具有 2 个单位输入层 2 个单位隐藏层和 1 个单位输出层的简单前馈神经网络实现梯度检查我所做的如下取所有层之间网络权重的每个权重 w 并使用 w EPSILON 然后使用 w EPSILON 执行前向传播使用两个前馈传

反向传播中的梯度检查

反向传播中的梯度检查 的相关文章

随机推荐

热门标签

反向传播中的梯度检查的相关文章