神经网络：连续输出变量的 Sigmoid 激活函数

2024-01-24

好吧，所以我正处于中间Andrew Ng 在 coursera 上的机器学习课程 https://www.coursera.org/course/ml并希望调整作为作业 4 的一部分完成的神经网络。

特别是，我在作业中正确完成的神经网络如下：

S 型激活函数：g(z) = 1/(1+e^(-z))
10个输出单元，每个输出单元可以取0或1
1个隐藏层
用于最小化成本函数的反向传播方法
成本函数：

where L=number of layers, s_l = number of units in layer l, m = number of training examples, K = number of output units

现在我想调整练习，以便有一个连续输出单元可以取 [0,1] 之间的任何值，并且我正在尝试找出需要更改的内容，到目前为止我已经

用我自己的数据替换数据，即输出是 0 到 1 之间的连续变量
更新了输出单元数量的参考
Updated the cost function in the back-propagation algorithm to: $J=1/(2m) * sum^m_{i=1} (g(a_3)-y)^2 + lambda/(2*m)(sum_{l=1}^{L-1}sum_{i=1}^{s_l} sum_{j=1}^{s_{l=1}} (Theta_{ji}^{(l)})^{2}$ where a_3 is the value of the output unit determined from forward propagation.

我确信其他一些东西必须改变，因为梯度检查方法显示由反向传播确定的梯度和由数值近似确定的梯度不再匹配。我没有改变 sigmoid 梯度；它被留在f(z)*(1-f(z)) where f(z)是 sigmoid 函数1/(1+e^(-z)))我也没有更新导数公式的数值近似；简单地(J(theta+e) - J(theta-e))/(2e).

谁能建议还需要采取哪些其他步骤？

在Matlab中编码如下：

% FORWARD PROPAGATION
% input layer
a1 = [ones(m,1),X];
% hidden layer
z2 = a1*Theta1';
a2 = sigmoid(z2);
a2 = [ones(m,1),a2];
% output layer
z3 = a2*Theta2';
a3 = sigmoid(z3);

% BACKWARD PROPAGATION
delta3 = a3 - y;
delta2 = delta3*Theta2(:,2:end).*sigmoidGradient(z2);
Theta1_grad = (delta2'*a1)/m;
Theta2_grad = (delta3'*a2)/m;

% COST FUNCTION
J = 1/(2 * m) * sum( (a3-y).^2 );

% Implement regularization with the cost function and gradients.
Theta1_grad(:,2:end) = Theta1_grad(:,2:end) + Theta1(:,2:end)*lambda/m;
Theta2_grad(:,2:end) = Theta2_grad(:,2:end) + Theta2(:,2:end)*lambda/m;
J = J + lambda/(2*m)*( sum(sum(Theta1(:,2:end).^2)) + sum(sum(Theta2(:,2:end).^2)));

我后来意识到这个问题与提问者提出的问题类似StackOverflow 上的 @Mikhail Erofeev https://stackoverflow.com/questions/13255724/gradient-in-continuous-regression-using-a-neural-network，但是在这种情况下，我希望连续变量介于 0 和 1 之间，因此使用 sigmoid 函数。

首先，你的成本函数应该是：

J = 1/m * sum( (a3-y).^2 );

我认为你的Theta2_grad = (delta3'*a2)/m;更改为后预计与数值近似相匹配delta3 = 1/2 * (a3 - y);).

检查这个slide http://people.cs.pitt.edu/~milos/courses/cs2750-Spring03/lectures/class10.pdf更多细节。

EDIT:如果我们的代码之间存在一些细微的差异，我将我的代码粘贴在下面供您参考。该代码已经与数值逼近函数进行了比较checkNNGradients(lambda);，相对差异小于1e-4（不满足1e-11不过，Andrew Ng 博士的要求）

function [J grad] = nnCostFunctionRegression(nn_params, ...
                                   input_layer_size, ...
                                   hidden_layer_size, ...
                                   num_labels, ...
                                   X, y, lambda)

Theta1 = reshape(nn_params(1:hidden_layer_size * (input_layer_size + 1)), ...
                 hidden_layer_size, (input_layer_size + 1));

Theta2 = reshape(nn_params((1 + (hidden_layer_size * (input_layer_size + 1))):end), ...
                 num_labels, (hidden_layer_size + 1));

m = size(X, 1);   
J = 0;
Theta1_grad = zeros(size(Theta1));
Theta2_grad = zeros(size(Theta2));


X = [ones(m, 1) X];   
z1 = sigmoid(X * Theta1');
zs = z1;
z1 = [ones(m, 1) z1];
z2 = z1 * Theta2';
ht = sigmoid(z2);


y_recode = zeros(length(y),num_labels);
for i=1:length(y)
    y_recode(i,y(i))=1;
end    
y = y_recode;


regularization=lambda/2/m*(sum(sum(Theta1(:,2:end).^2))+sum(sum(Theta2(:,2:end).^2)));
J=1/(m)*sum(sum((ht - y).^2))+regularization;
delta_3 = 1/2*(ht - y);
delta_2 = delta_3 * Theta2(:,2:end) .* sigmoidGradient(X * Theta1');

delta_cap2 = delta_3' * z1; 
delta_cap1 = delta_2' * X;

Theta1_grad = ((1/m) * delta_cap1)+ ((lambda/m) * (Theta1));
Theta2_grad = ((1/m) * delta_cap2)+ ((lambda/m) * (Theta2));

Theta1_grad(:,1) = Theta1_grad(:,1)-((lambda/m) * (Theta1(:,1)));
Theta2_grad(:,1) = Theta2_grad(:,1)-((lambda/m) * (Theta2(:,1)));


grad = [Theta1_grad(:) ; Theta2_grad(:)];

end

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

神经网络：连续输出变量的 Sigmoid 激活函数的相关文章

垂直子图的单一颜色条

我想让下面的 MATLAB 图有一个沿着两个子图延伸的颜色条像这样的事情使用图形编辑器手动完成 Note 这与提出的问题不同here https stackoverflow com questions 39950229 matlab t
将数据提示堆栈放在轴标签顶部，并在轴位置发生更改后更新轴标签

此问题仅适用于 unix matlab Windows 用户将无法重现该问题我在尝试创建位于 y 轴标签顶部的数据提示时遇到问题下图很能说明问题正如您所看到的在 ylabel 附近创建的数据提示将到达 ylabel 文本的底部而期
平衡两轮机器人而不使其向前/向后漂移

我正在尝试设计一个控制器来平衡 2 轮机器人约 13 公斤并使其能够抵抗外力例如如果有人踢它它不应该掉落也不应该无限期地向前向后漂移我对大多数控制技术 LQR 滑模控制 PID 等都很有经验但我在网上看到大多数人使用 L
如何确定 Keras Conv2D 函数中的“filter”参数

我刚刚开始我的 ML 之旅并且已经完成了一些教程对我而言不清楚的一件事是如何为 Keras Conv2D 确定过滤器参数我读过的大多数资料只是将参数设置为 32 没有任何解释这只是经验法则还是输入图像的尺寸起作用例如 CIF
getappdata 在 MATLAB 中返回空矩阵

我有一段代码我在其中使用setappdata然后我使用以下方式调用数据getappdata即使它不为空它也会返回一个空矩阵我的一段简化代码如下 function edit1 Callback hObject eventdata han
预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
在监督分类中，使用partial_fit() 的MLP 比使用fit() 的表现更差

我正在使用的学习数据集是灰度图像flatten让每个像素代表一个单独的样本第二张图像在训练后将被逐像素分类Multilayer perceptron MLP 前一个分类器我遇到的问题是MLP当它一次接收到所有训练数据集时表现更好 fit
我如何编写一个名为 dedbi 的 MATLAB 函数，它将输入 xtx 作为字符串并返回另一个字符串 xtxx 作为输出。

dedbi 反转单词即 a 将被 z 替换 b 将被 y 替换 c 将被 x 替换依此类推 dedbi 将对大写字母执行相同的操作即将字符串 A 替换为 Z 将 B 替换为 Y 将 C 替换为 X 依此类推如果我给函数这个字符串 a
Matlab 图像数据的 hist 函数

我是 Matlab 新手我想制作自己的函数与 imhist 显示图像数据的直方图完成相同的工作但我对此完全是新手我不知道如何做开发这样的功能我开始做一些东西但它非常不完整 function output args myhist
ValueError：没有为“dense_input”提供数据

我正在使用以下简单的代码使用tensorflow加载csv并使用keras执行建模无法弄清楚这个错误 import tensorflow as tf train dataset fp tf keras utils get file fna
Tensorflow conv2d_transpose 大小错误“out_backprop 的行数与计算的不匹配”

我正在张量流中创建一个卷积自动编码器我得到了这个确切的错误 tensorflow python framework errors InvalidArgumentError Conv2DBackpropInput Number of row
MATLAB 编译器与 MATLAB 编码器

两者有什么区别据我了解 MATLAB Compiler将MATLAB代码包装成 exe文件这样就可以在不安装MATLAB的情况下使用它并且只需要MCR 除此之外 MATLAB Builder NE 还可以用于生成与 Net 框架一起使
在matlab中，如何读取python pickle文件？

在 python 中我生成了一个 p 数据文件 pickle dump allData open myallData p wb 现在我想在Matlab中读取myallData p 我的Matlab安装在Windows 8下其中没有Pyt
Matlab的导入函数的范围是什么？

我正在尝试将一些用 Matlab 编写的代码转换为独立的编译的 Matlab 应用程序然而在出现一些奇怪的错误之后我意识到代码大量使用了从路径中添加和删除的操作以避免多次使用多个具有相同名称但结果计算不同的函数这一事实环顾
为什么LeNet5使用32×32图像作为输入？

我知道mnist数据集中的手写数字图像是28 28 但是为什么LeNet5中的输入是32 32 您的问题已在原纸 http yann lecun com exdb publis pdf lecun 98 pdf 卷积步骤始终采用比前一层的特
将 Matlab 数组移植到 C/C++

我正在将 matlab 程序移植到 C C 我有几个问题但最重要的问题之一是 Matlab 将任何维度的数组都视为相同假设我们有一个这样的函数 function result f A B C result A 2 B C A B and
FMINCON 的替代方案

除了 fmincon 之外还有其他更快更高效的求解器吗我正在使用 fmincon 来解决特定问题但对于中等大小的向量变量来说我的内存不足我也没有任何超级计算机或云计算选项可供使用我知道任何替代解决方案仍然会耗尽内存但我只是想看
Keras：多类 NLP 任务中 model.evaluate 与 model.predict 的准确性差异

我正在使用以下代码在 keras 中为 NLP 任务训练一个简单模型训练集测试集和验证集的变量名称是不言自明的该数据集有 19 个类因此网络的最后一层有 19 个输出标签也是 one hot 编码的 nb classes 19 m
通过多次合并相同的行向量来构建矩阵

有没有一个matlab函数可以让我执行以下操作 x 1 2 2 3 然后基于x我想建立矩阵m 1 2 2 3 1 2 2 3 1 2 2 3 1 2 2 3 您正在寻找REPMAT http www mathworks com help t
如何选择面积最大的对象？

我用过bwconvhull检测图像的某个部分正如您在图像中看到的那样有许多具有特定质心的对象我想做的是检测面积最大的物体左起第一个大物体并忽略其他物体我应该遵循哪种方法我将非常感谢您的帮助以下是代码由于我仍在努力所以写得

随机推荐

为什么 Channel.waitForConfirmsOrDie 不阻塞？

我有一个发布订阅用例我想在发布端进行阻止直到每个订阅者确认他们已完成处理发布者发送的消息我错误地假设我可以使用 RabbitMQ 及其 Java amqp client 的 Channel waitForConfirmsOrDi
如何向矢量绘图添加阴影？

我有一个矢量可绘制对象 category bg 我将其用作 FrameLayout 的背景
sklearn随机森林索引feature_importances_如何实现

我在 sklearn 中使用 RandomForestClassifier 来确定数据集中的重要特征我如何能够返回实际的功能名称我的变量标记为 x1 x2 x3 等而不是它们的相对名称它告诉我重要的功能是 12 22 等下面是我当
我应该怎么做才能从 eclipse - Android 连接到服务器？

大师们我对这个话题有点迷失这是我正在尝试做的事情的细分用户 Android 设备将位置信息发送到服务器 gt 服务器 server 返回已使用 sql 排序的项目列表 gt db 服务器获取表信息并返回给用户 gt 用户 Andr
以编程方式配置 p2 更新存储库

Eclipse wiki 中有一篇文章如何通过向您的产品添加静态conf 文件来配置 RCP 应用程序的用户 p2 默认存储库 Equinox p2 向 RCP 应用程序添加自我更新配置用户的默认存储库 http wiki eclipse
Angular 2 单元测试 - @ViewChild 未定义

我正在编写 Angular 2 单元测试我有一个 ViewChild组件初始化后我需要识别的子组件在这种情况下它是一个Timepicker来自 ng2 bootstrap 库的组件尽管具体细节并不重要之后我detectChange
如何覆盖 Angular 5 中的组件？

我有一个组件
有没有办法从 Angular 2+ 中删除未使用的导入和声明？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有一些 Visual Studio Code 插件或其他方法可以帮助我们快速有效地整理和组织导入和
NodeJs、Mocha 和 Mongoose

我有以下结构 server db mongooseTest js test userModel test js user userModel js 用他们的代码猫鼬测试 js var mongoose require mongoose m
解析 Javascript 中自定义格式的“日期和时间”字符串

我必须解析格式为 2015 01 16 22 15 00 的日期和时间字符串我想将其解析为 JavaScript 日期对象对此有什么帮助吗我尝试了一些jquery插件 moment js date js xdate js 还是没有运气
Grails 打包和命名约定

包装控制器服务等IE com company controllers com company services 这是一个好的做法还是应该避免我遇到的另一个值得一提的问题是命名服务示例 SomthingGatewayService gro
在 Android ContentProvider 中连接表和通知 ContentObservers 的最佳实践

我有一个 ContentProvider 来处理与我的应用程序相关的所有数据插入和检索我遵循 Virgil Doobjanschi 在 Google I O 上建议的模式我正在使用第一种模式我的问题是我有一个由数据库中的多个表表示的逻
动画结束后的 CSS 过渡

我有一个 css 过渡可以在悬停时移动元素还有一个动画可以在悬停时旋转元素动画上有一个等于过渡持续时间的延迟因此在过渡到正确位置后动画就会开始它工作得很好但是当我们将鼠标移开时动画会停止但不会向下过渡是否可以在鼠标移
从 TypeScript->CommonJS 模块导出带有字体资源的全局样式

我有一个 TypeScript React 项目组织如下 tsconfig json package json yarn lock lerna json node modules packages ui library package j
从 rfft2 数组创建 fft2 结果

我试图通过操作 rfft2 的结果来重新创建完整 fft2 的结果该文档指出 rfft2 仅计算正系数因为当输入为实数时负系数与正系数具有对称性这对于大型数组非常有用因为计算 rfft2 比完整的 fft2 快得多所以下面的代码
如何处理 MySQL 多边形重叠查询？

例如我有一个用户表每个用户都是地图上的一个正方形或圆圈我想找到这样的用户overlap地图上的另一个广场 MySQL 5 6 目前支持此功能吗 MySQL 的开发版本怎么样请注意我不是在寻找查找在该正方形内有一个点的用户我
小负数四舍五入后保持符号

即使舍入结果为零 MATLAB 似乎也会记住原始符号由于小负值已四舍五入为零因此该信号不再有意义代码示例 a 0 001 ar round a 2 fprintf a 2f a rounded 2f Zero 2f n a ar 0
将 MILOC 与 Fortran 结合使用：赋值中的等级 0 和 1 不兼容

给出错误消息的版本 program hello integer a 9 integer index note no dimension here a 1 3 4 5 6 7 8 9 10 index MINLOC a MASK a gt 5
如何知道动画为什么会卡顿？

我有一些相当简单的动画移动文本移动椭圆等并在全屏 1920x1080 减去任务栏下运行 WPF Performance Suite 报告整个动画的帧速率约为 50 FPS 脏矩形加法约为 300 矩形秒 SW 帧在 0 到 4 之
神经网络：连续输出变量的 Sigmoid 激活函数

好吧所以我正处于中间Andrew Ng 在 coursera 上的机器学习课程 https www coursera org course ml并希望调整作为作业 4 的一部分完成的神经网络特别是我在作业中正确完成的神经网络如下 S

神经网络：连续输出变量的 Sigmoid 激活函数

神经网络：连续输出变量的 Sigmoid 激活函数 的相关文章

随机推荐

热门标签

神经网络：连续输出变量的 Sigmoid 激活函数的相关文章