深度学习笔记2：手写一个单隐层的神经网络

2023-10-31

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tsaiedu，并注明消息来源，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。

作者简介：
鲁伟：一个数据科学践行者的学习日记。数据挖掘与机器学习，R与Python，理论与实践并行。
个人公众号：数据科学家养成记（微信ID：louwill12）
配套学习视频教程：手把手教你用Python 实践深度学习

笔记1中我们利用 numpy 搭建了神经网络最简单的结构单元：感知机。笔记2将继续学习如何手动搭建神经网络。我们将学习如何利用 numpy 搭建一个含单隐层的神经网络。单隐层顾名思义，即仅含一个隐藏层的神经网络，抑或是成为两层网络。

继续回顾一下搭建一个神经网络的基本思路和步骤：

定义网络结构（指定输出层、隐藏层、输出层的大小）
初始化模型参数
循环操作：执行前向传播/计算损失/执行后向传播/权值更新

定义网络结构

假设 X 为神经网络的输入特征矩阵，y 为标签向量。则含单隐层的神经网络的结构如下所示：

image

网络结构的函数定义如下：

def layer_sizes(X, Y):
    n_x = X.shape[0] # size of input layer
    n_h = 4 # size of hidden layer
    n_y = Y.shape[0] # size of output layer
    return (n_x, n_h, n_y)

其中输入层和输出层的大小分别与 X 和 y 的 shape 有关。而隐层的大小可由我们手动指定。这里我们指定隐层的大小为4。

初始化模型参数

假设 W1 为输入层到隐层的权重数组、b1 为输入层到隐层的偏置数组；W2 为隐层到输出层的权重数组，b2 为隐层到输出层的偏置数组。于是我们定义参数初始化函数如下：

def initialize_parameters(n_x, n_h, n_y):
    W1 = np.random.randn(n_h, n_x)*0.01
    b1 = np.zeros((n_h, 1))
    W2 = np.random.randn(n_y, n_h)*0.01
    b2 = np.zeros((n_y, 1)) 
   
    assert (W1.shape == (n_h, n_x))    
    assert (b1.shape == (n_h, 1))    
    assert (W2.shape == (n_y, n_h))    
    assert (b2.shape == (n_y, 1))
    parameters = {"W1": W1, 
                  "b1": b1,                 
                  "W2": W2,                  
                  "b2": b2}   
                   
    return parameters

其中对权值的初始化我们利用了 numpy 中的生成随机数的模块 np.random.randn ，偏置的初始化则使用了 np.zero 模块。通过设置一个字典进行封装并返回包含初始化参数之后的结果。

前向传播

在定义好网络结构并初始化参数完成之后，就要开始执行神经网络的训练过程了。而训练的第一步则是执行前向传播计算。假设隐层的激活函数为 tanh 函数，输出层的激活函数为 sigmoid 函数。则前向传播计算表示为：

image

定义前向传播计算函数为：

def forward_propagation(X, parameters):
    # Retrieve each parameter from the dictionary "parameters"
    W1 = parameters['W1']
    b1 = parameters['b1']
    W2 = parameters['W2']
    b2 = parameters['b2']    
    # Implement Forward Propagation to calculate A2 (probabilities)
    Z1 = np.dot(W1, X) + b1
    A1 = np.tanh(Z1)
    Z2 = np.dot(W2, Z1) + b2
    A2 = sigmoid(Z2)    
    assert(A2.shape == (1, X.shape[1]))
    cache = {"Z1": Z1,                   
             "A1": A1,                   
             "Z2": Z2,                  
             "A2": A2}    
    return A2, cache

从参数初始化结果字典里取到各自的参数，然后执行一次前向传播计算，将前向传播计算的结果保存到cache 这个字典中，其中 A2 为经过 sigmoid 激活函数激活后的输出层的结果。

计算当前训练损失

前向传播计算完成后我们需要确定以当前参数执行计算后的的输出与标签值之间的损失大小。与笔记1一样，损失函数同样选择为交叉熵损失：

image

定义计算损失函数为：

def compute_cost(A2, Y, parameters):
    m = Y.shape[1] # number of example
    # Compute the cross-entropy cost
    logprobs = np.multiply(np.log(A2),Y) + np.multiply(np.log(1-A2), 1-Y)
    cost = -1/m * np.sum(logprobs)
    cost = np.squeeze(cost)     # makes sure cost is the dimension we expect.
    assert(isinstance(cost, float))    
    return cost

执行反向传播

当前向传播和当前损失确定之后，就需要继续执行反向传播过程来调整权值了。中间涉及到各个参数的梯度计算，具体如下图所示：

image

根据上述梯度计算公式定义反向传播函数：

def backward_propagation(parameters, cache, X, Y):
    m = X.shape[1]    
    # First, retrieve W1 and W2 from the dictionary "parameters".
    W1 = parameters['W1']
    W2 = parameters['W2']    
    # Retrieve also A1 and A2 from dictionary "cache".
    A1 = cache['A1']
    A2 = cache['A2']    
    # Backward propagation: calculate dW1, db1, dW2, db2. 
    dZ2 = A2-Y
    dW2 = 1/m * np.dot(dZ2, A1.T)
    db2 = 1/m * np.sum(dZ2, axis=1, keepdims=True)
    dZ1 = np.dot(W2.T, dZ2)*(1-np.power(A1, 2))
    dW1 = 1/m * np.dot(dZ1, X.T)
    db1 = 1/m * np.sum(dZ1, axis=1, keepdims=True)
    grads = {"dW1": dW1,
             "db1": db1,                      
             "dW2": dW2,             
             "db2": db2}   
    return grads

将各参数的求导计算结果放入字典 grad 进行返回。

这里需要提一下的是涉及到的关于数值优化方面的知识。在机器学习中，当所学问题有了具体的形式之后，机器学习就会形式化为一个求优化的问题。不论是梯度下降法、随机梯度下降、牛顿法、拟牛顿法，抑或是 Adam 之类的高级的优化算法，这些都需要花时间掌握去掌握其数学原理。

image

权值更新

迭代计算的最后一步就是根据反向传播的结果来更新权值了，更新公式如下：

image

由该公式可以定义权值更新函数为：

def update_parameters(parameters, grads, learning_rate = 1.2):
    # Retrieve each parameter from the dictionary "parameters"
    W1 = parameters['W1']
    b1 = parameters['b1']
    W2 = parameters['W2']
    b2 = parameters['b2']    
    # Retrieve each gradient from the dictionary "grads"
    dW1 = grads['dW1']
    db1 = grads['db1']
    dW2 = grads['dW2']
    db2 = grads['db2']    
    # Update rule for each parameter
    W1 -= dW1 * learning_rate
    b1 -= db1 * learning_rate
    W2 -= dW2 * learning_rate
    b2 -= db2 * learning_rate
    parameters = {"W1": W1, 
                  "b1": b1,            
                  "W2": W2,   
                  "b2": b2}    
    return parameters

这样，前向传播-计算损失-反向传播-权值更新的神经网络训练过程就算部署完成了。当前了，跟笔记1一样，为了更加 pythonic 一点，我们也将各个模块组合起来，定义一个神经网络模型：

def nn_model(X, Y, n_h, num_iterations = 10000, print_cost=False):
    np.random.seed(3)
    n_x = layer_sizes(X, Y)[0]
    n_y = layer_sizes(X, Y)[2]    
    # Initialize parameters, then retrieve W1, b1, W2, b2. Inputs: "n_x, n_h, n_y". Outputs = "W1, b1, W2, b2, parameters".
    parameters = initialize_parameters(n_x, n_h, n_y)
    W1 = parameters['W1']
    b1 = parameters['b1']
    W2 = parameters['W2']
    b2 = parameters['b2']    
    # Loop (gradient descent)
    for i in range(0, num_iterations):        
    # Forward propagation. Inputs: "X, parameters". Outputs: "A2, cache".
        A2, cache = forward_propagation(X, parameters)        
        # Cost function. Inputs: "A2, Y, parameters". Outputs: "cost".
        cost = compute_cost(A2, Y, parameters)        
        # Backpropagation. Inputs: "parameters, cache, X, Y". Outputs: "grads".
        grads = backward_propagation(parameters, cache, X, Y)        
        # Gradient descent parameter update. Inputs: "parameters, grads". Outputs: "parameters".
        parameters = update_parameters(parameters, grads, learning_rate=1.2)        
        # Print the cost every 1000 iterations
        if print_cost and i % 1000 == 0:            
            print ("Cost after iteration %i: %f" %(i, cost))    
            
    return parameters

以上便是本节的主要内容，利用 numpy 手动搭建一个含单隐层的神经网路。从零开始写起，打牢基础，待到结构熟练，原理吃透，再去接触一些主流的深度学习框架才是学习深度学习的最佳途径。

参考资料：
https://www.coursera.org/learn/machine-learning
https://www.deeplearning.ai/

7月26日
Hellobi Live
现场直播
免费！
免费！
免费！
深度学习从哪开始学？从数据分析师到机器学习(深度学习)工程师的进阶之路** ，内容：1、机器学习/深度学习的学习方法 2、数据职业生涯规划与自我转型路线 3、手把手教你搭建一个深度神经网络（DNN）**

扫描下图二维码即可参与学习

从数据分析师到机器学习(深度学习)工程师的进阶之路

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习笔记2：手写一个单隐层的神经网络的相关文章

报错处理：org.xml.sax.SAXParseException: 不允许有匹配 “[xX][mM][lL]“ 的处理指令目标

在vue项目中配置user xml文件后重新启动后台报错 org xml sax SAXParseException 不允许有匹配 xX mM lL 的处理指令目标后面查阅后发现 xml文件是从别处粘贴过来的没有顶格写这样达咩这
Nginx相关配置

启动Nginx 到nginx sbin目录下 nginx 1 反向代理的配置一打开浏览器在浏览器的地址栏输入 www 123 com 跳转到Linux系统tomcat上我们访问一个网址的时候浏览器会先查询本地有没有缓存这个网址对应的
计算机牛人找工作-----可以参考（9个offer，12家公司，35场面试，从微软到谷歌2012）

http www kuqin com job 20130111 333954 html 1 简介毕业答辩搞定总算可以闲一段时间把这段求职经历写出来也作为之前三个半月的求职的回顾首先说说我拿到的offer情况微软 3面 gt 终面
SDN介绍

随着通信技术的不断发展 SDN已经逐渐成为整个行业注目的焦点很多人认为SDN技术必将对传统网络带来一次划时代的变革那么什么是SDN 我们有应该如何理解和学习SDN 我们为什么需要SDN SDN的实现方式有哪些 SDN的未来发展方向是什
Mac安装Redis

要在Mac上安装Redis 你可以按照以下步骤进行操作打开终端应用程序 Terminal 可以在应用程序文件夹的实用工具目录下找到它或者command 空格输入ter然后直接回车确保你已经安装了Homebrew 如果没有请
解决kibana启动时:3005 - wrong protocol being used to connect to the wazuh api 和 Wazuh API seems to be dow

解决elasticsearch缺少模板问题 https mp csdn net editor html 112570396 后依然不能正常检测到 wazuh api 状态默认ip和端口现在解决kibana启动时 3005 wrong
Git教程---Windows安装及命令使用(详细例子)

目录一 Git的工作原理二 Git下载及安装三 Git配置四 Git命令示例参考链接一 Git的工作原理 Git有四个工作区域其中三个工作区域工作在本地一个工作区域工作在远程仓库本地目录工作区平时存放项目代码的位置
使用 Grid 进行常见布局

grid 布局是W3C提出的一个二维布局系统通过 display grid 来设置使用对于以前一些复杂的布局能够得到更简单的解决本篇文章通过几个布局来对对 grid 布局进行一个简单的了解目前 grid 仅仅只有 Edge使用前缀能
【windows系统】通过SSH Key访问服务器

BG 废话不多说直接上干货 1 终端输入命令 ssh username server 确认是否有自己的用户名 2 查看是否生成过SSH Key ls ssh 未生成过提示 No such file or directory 生成过提示
旅游推荐平台

作者主页编程千纸鹤作者简介 Java 前端 Python开发多年做过高程项目经理架构师主要内容 Java项目开发毕业设计开发面试技术整理最新技术分享收藏点赞不迷路关注作者有好处文末获得源码项目编号 BS XX 05
Flask从入门到做出一个博客的大型教程(三)

Flask从入门到做出一个博客的大型教程三在开始之前先来看下项目的整体结构 flask app forms py init py routes py templates base html index html login html
导入别人的安卓项目方法-需要修改的配置（Androidstudio）通用解决办法

导入别人的安卓项目方法一般导入别人的安卓项目后会遇到一些问题下面是通用方法绝大多数情况都能运行出来步骤一导入别人的项目报错步骤二 Androidstudio新建一个空项目步骤三找到两个build gradle文件这两个就是
2021年江苏省职业院校技能大赛中职网络信息安全赛项试卷--攻击日志解析

2021年江苏省职业院校技能大赛中职网络信息安全赛项 attack pacapng攻击日志分析 2021年江苏省攻击日志分析任务书 2021年江苏省攻击日志分析任务书解析如果有不懂得地方可以私信博主欢迎交流交流群 603813289
java ＜? extends T＞和＜? super T＞介绍（一）
python安装&配置环境（win10）

python安装配置环境 win10 1 打开python官网下载python安装包操作步骤如下所示点击 gt python官网链接 1 1 进入官网 1 2 进入下载页面 1 3 选择指定版本的python 本文选择python3
高德地图JS API升级到2.0版本

项目上反馈高德地图底图信息更新不及时不利于进行点位规划经研究发现高德地图JS API 1 4 15版本相对于2 0版本确实地图切片上的标注信息较少通过工单的形式询问高德的技术工程师认识到1 4 15版本数据更新有延迟 1 4 15版
cin与scanf cout与printf效率问题

在竞赛中遇到大数据时往往读文件成了程序运行速度的瓶颈需要更快的读取方式相信几乎所有的C 学习者都在cin机器缓慢的速度上栽过跟头于是从此以后发誓不用cin读数据还有人说Pascal的read语句的速度是C C 中scanf比不上
warning C4146: 一元负运算符应用于无符号类型，结果仍为无符号类型

这种警告出现在变量表示范围的临界状态一溢出问题 int main int a 2147483648 return 0 在已经定义死int型的情况下影响不大但是下面的例子却会由很大的影响二类型转化 int main if 2147
C语言---数组名与&数组名的区别

今天在用strsep函数有一个是双指针类型的形参的时候我以为数组名就是双指针类型的但结果却不对后来查了才知道虽然数组名与数组名的值是相同的但是他们的类型是不一样的 char str 10 str 的值为str 0 的地
JavaScript常见的运用场景

JavaScript是一种相当流行高效便捷的脚本语言它在 web 开发中发挥着重要的作用下面我们来介绍下 JavaScript 常见的运用场景 1 网页动态效果制作 JavaScript 可以用来制作网页的多种动态效果包括但不限于

随机推荐

低功耗技术（一）动态功耗与静态功耗

一动态功耗翻转功耗 Switching Power 翻转功耗是由充放电电容引起的动态功耗其推导过程很简单但是这个最终的结果却十分重要 1 switching power 和负载电容电压 0到1变化事件的发生次数时钟频率有关 2
Tomcat任意写入文件漏洞（CVE-2017-12615）

声明好好学习天天向上漏洞描述 2017年9月19日 Apache Tomcat官方确认并修复了两个高危漏洞漏洞CVE编号 CVE 2017 12615和CVE 2017 12616 其中远程代码执行漏洞 CVE 2017 1261
CSS——网易云音乐首页导航栏的制作

文章目录前言一结构的布局二实现过程 1 HTML结构 2 CSS样式总结前言本文主要介绍了网易云导航栏的制作过程这个案例中将会运用到CSS中的浮动绝对定位等相关知识点这些在以往的文章里有所介绍一结构的布局示例图
js数组去重（9种方法），你都会了吗？

以下共有九种数组去重的方式和详解包含对象数组去重 1 利用Array from new Set 去重 1 利用set去重 Set是es6新增的数据结构似于数组但它的一大特性就是所有元素都是唯一的没有重复的值我们一般称为集合 Arr
Qt QSqlQueryModel详解

背景知识 Qt SQL的API分为不同层驱动层驱动层对于QT是基于C 来实现的框架该层主要包括QSqlDriver QSqlDriverCreator QSqlDriverCreatorbase QSqlDriverPlugin a
C4droid安装使用教程

1 C4droid简介手机 Android 上C C 的IDE 编译器便携功能强大足以满足初学者平时的练习汉化版更易理解和使用 2 C4droid下载在我分享的百度网盘链接中下载 https pan baidu com s 1
mysql yearweek函数_MySQL的YEARWEEK函数（转）_MySQL

MySQL的YEARWEEK函数以及查询本周数据MySQL 的 YEARWEEK 是获取年份和周数的一个函数函数形式为 YEARWEEK date mode 例如 2010 3 14 礼拜天 www bitsCN com SELECT Y
numpy:广播机制

广播是numpy对不同形状的数组进行数值计算的方式对数组的算术运算通常在相应的元素上进行的如果两个数组a和b形状相同即满足a shape b shape 那么a b的结果就是a与b数组对应位相乘这要求维数相同且各维度的长度相同对
2023华为OD机试真题【区块链转储系统】

题目描述区块链底层存储是一个链式文件系统由顺序的N个文件组成每个文件的大小不一依次为F1 F2 Fn 随着时间的推移所占存储会越来越大云平台考虑将区块链按文件转储到廉价的SATA盘只有连续的区块链文件才能转储到SATA盘上且
Pandas中inf值替换

文章目录问题出现inf的原因解决办法参考文章问题今天使用Pandas从MySQL读取数据在处理之后再写回到数据库时报了一个错误 sqlalchemy exc ProgrammingError MySQLdb exception
mysql数据库期末总结

目录数据库基础知识 MySQL命令字符集库操作表操作创建查看和删除修改表复制表约束控制数据操作插入数据增删除数据删修改数据改查询数据查单表查询分组查询排序限制查询结果数量集合函数多表查询 1
Game of Primes （博弈）

Game of Primes 题目链接题意初始有两个数 x 和 y 每次操作可以选择一个数减1 Alice和Bob轮流操作指定某人先手 1 如果某时刻 x k 或 y k Bob胜 2 如果某时刻 x y都是素数 Alice胜 3 如
shell使用示例

文章目录 shell使用示例统计一个文本文件中每个单词出现的频率打印文本文件的第十行判断有效的电话号码输出数字范围内7的倍数 shell使用示例统计一个文本文件中每个单词出现的频率 cat text tr s n sort uni
Win11 文件夹打开慢或卡顿解决方案

问题目前是 2023 2 27 我的 Win11 系统点开一个文件夹要等待 2 3 秒才能加载出来使用体验极差网上查阅大量资料有些人在系统更新后这个情况就消失了但是我这一直存在系统也是当前的最新版没有修复目前得出的结论是因
修改Maven的本地仓库位置

最近开始学SSM整合项目视频时需要用到Maven仓库于是便开始研究起了Maven 首先需要在官网下载Maven的压缩包然后进行解压再把其加入到环境变量中由于主要研究的时Maven的如何修改仓库位置所以这里就一笔带过不知道如何配置
MySQL复习笔记-一条SQL更新语句是如何执行的？

前面我们系统了解了一个查询语句的执行流程并介绍了执行过程中涉及的处理模块相信你还记得一条查询语句的执行过程一般是经过连接器分析器优化器执行器等功能模块最后到达存储引擎那么一条更新语句的执行流程又是怎样的呢之前你可能经常听
简单的Markdown功能实现——marked模块的使用

marked是一个markdown 解析编译器通过引入marked模块可以实现一个简单的markdown编辑器使用方式如下 Install 新建一个项目文件夹在项目中下载marked模块 Usage 新建一个marked js文件
java 生成纯色图片_canvas简单实现纯色背景图片抠图(示例代码)

最近在研究html5 canvas的过程中发现 canvas为前端对图像的处理开辟了一条新的道路 canvas可以做到很多事情甚至可以做个类似于PhotoShop的东西曾经本人在一家软件工作就做类似的工作可以看一下我之前开发的软件
支付宝、微信Android APP支付接入流程

支付类型一次性支付自动续费支付宝周期扣款微信委托扣款 1 支付并签约 2 先签约后扣费注微信委托扣款中先签约后扣费自动续费授权扣款免密支付支付宝支付流程中各端交互逻辑支付流程中商户APP端交互逻辑先签约后扣费流程中
深度学习笔记2：手写一个单隐层的神经网络

欢迎关注天善智能我们是专注于商业智能BI 人工智能AI 大数据分析与挖掘领域的垂直社区学习问答求职一站式搞定对商业智能BI 大数据分析挖掘机器学习 python R等数据领域感兴趣的同学加微信 tsaiedu 并注明消息来源邀

深度学习笔记2：手写一个单隐层的神经网络

深度学习笔记2：手写一个单隐层的神经网络 的相关文章

随机推荐

热门标签

深度学习笔记2：手写一个单隐层的神经网络的相关文章