机器学习西瓜书学习记录-第五章神经网络

2023-05-16

第5章神经网络

5.1神经元模型
神经网络中最基本的成分是神经元模型。
“M-P神经元模型”，又称“阈值逻辑单元”
在模型中，神经元接收到来自n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值将与神经元的阈值进行比较，然后通过“激活函数”处理以产生神经元的输出。
在这里插入图片描述
实际常用Sigmoid函数作为激活函数，它把可能在较大范围内变化的输入值挤压到(0,1)输出值范围内，因此也称“挤压函数”

将许多这样的神经元按一定的层次结构连接起来即可得到神经网络。我们可以将神经网络视为包含了许多参数的数学模型，该模型是若干函数（如 y j = f ( ∑ i w i x i − θ j ) y_j=f(\sum_{i}w_ix_i-\theta_j) yj=f(∑iwixi−θj)）相互嵌套带入而得。
5.2感知机与多层网络
感知机由两层神经元组成，输入层接收外界输入信号后传递给输出层，输出层为M-P神经元。
在这里插入图片描述
感知机可实现逻辑与、或、非运算

给定训练数据集，权重 w i w_i wi及阈值 θ \theta θ通过学习得到。
将阈值 θ \theta θ看作一个固定输入为-1.0的“哑结点”，对应连接权重 w n + 1 w_{n+1} wn+1,这样权重和阈值的学习就可统一为权重的学习。
感知机的学习规则：
训练样例（x,y），若当前感知机输出为 y ^ \hat{y} y^,则感知机权重调整如下，其中 η ϵ ( 0 , 1 ) \eta \epsilon (0,1) ηϵ(0,1)为学习率
在这里插入图片描述
感知机只有输出层神经元进行激活函数处理，即只拥有一层功能神经元，学习能力有限。
事实，前述的与、或、非问题都是线性可分的问题。若两类模式是线性可分的，即存在一个线性超平面能将他们分开，感知机的学习过程一定会收敛求得适当的权向量 w = ( w 1 ; w 2 ; . . . ; w n + 1 ) w=(w_1;w_2;...;w_{n+1}) w=(w1;w2;...;wn+1)（如图a-c），否则感知机学习过程会发生震荡，不能求得合适解(如图d)。
在这里插入图片描述
如何解决非线性可分问题？–考虑使用多层功能神经元。
如下两层感知机解决异或问题，输出层与输入层之间的一层神经元被称为隐层或隐含层，隐含层和输出层神经元都是拥有激活函数的功能神经元

常见的神经网络每层神经元与下一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接，这样的神经网络结构通常称为“多层前馈神经网络”。其中输入层神经元接受外界输入，隐层与输出层包含功能神经元对信号进行加工，最终结果由输出层神经元输出。
在这里插入图片描述
神经网络的学习过程即是根据训练数据调整神经元之间的“连接权”以及每个功能神经元的阈值；换言之，神经网络“学”到的东西蕴含在连接权与阈值中。
5.3误差逆传播算法
训练多层网络多用误差逆传播算法简称BP算法。
训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } , x i ϵ R d , y i ϵ R l D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\},x_i\epsilon R^d,y_i\epsilon R^l D={(x1,y1),(x2,y2),...,(xm,ym)},xiϵRd,yiϵRl，即输入示例有d个属性描述、输出l维实值向量。
如图一个d个输入神经元、l个输出神经元、q个隐层神经元的多层前馈网络结构。
输出层第j个神经元的阈值用 θ j \theta_j θj表示，隐层第h个神经元的阈值用 γ h \gamma_h γh表示。输入层第i个神经元与隐层第h个神经元之间的连接权为 v i h v_{ih} vih，隐层第h个神经元与输出层第j个神经元之间的连接权为 w h j w_{hj} whj。
记隐层第h个神经元接收到的输入为 α h = ∑ i = 1 d v i h x i \alpha_h=\sum_{i = 1}^dv_{ih}x_i αh=∑i=1dvihxi，输出层第j个神经元接收到的输入为 β j = ∑ h = 1 q w h j b h \beta_j=\sum_{h = 1}^qw_{hj}b_h βj=∑h=1qwhjbh，其中 b h b_h bh为隐层第h个神经元的输出。设隐层和输出层神经元均使用Sigmoid函数。
在这里插入图片描述
在BP网络中，我们需要确定的参数有：输入层到隐层d×q个权值、隐层到输出层的q×l个权值、q个隐层神经元的阈值、l个输出层神经元的阈值。
BP是迭代学习算法，在迭代每一轮对参数进行更新估计，任意参数v更新估计式子为
在这里插入图片描述
下面以隐层到输出层的连接权 w h j w_{hj} whj为例推导。
BP算法-基于梯度下降策略，以目标负梯度方向对参数进行调整。
对于误差 E k E_k Ek，给定学习率 η \eta η，则有
在这里插入图片描述
并且我们知道，对于连接权 w h j w_{hj} whj，它会先影响第j个输出层神经元的输入值 β j \beta_j βj，随后再影响到该输出层神经元的输出值 y ^ j k \hat{y}_j^k y^jk，进而影响到输出的均方误差 E k E_k Ek，因此可以这样写
在这里插入图片描述
然后由于定义输出层第j个神经元接收到的输入为 β j = ∑ h = 1 q w h j b h \beta_j=\sum_{h = 1}^qw_{hj}b_h βj=∑h=1qwhjbh，因此有
在这里插入图片描述
已知Sigmoid函数有性质：

再根据神经网络的误差式以及输出式，可以得出如下推导

同理可得 Δ θ j \Delta\theta_j Δθj， Δ v i h \Delta v_{ih} Δvih， Δ γ h \Delta\gamma_h Δγh。（p103）
学习率 η ϵ ( 0 , 1 ) \eta\epsilon(0,1) ηϵ(0,1)控制迭代的更新步长，太大容易震荡，太小收敛速度过慢。一般常设置为0.1
BP算法工作流程如下
先将输入示例提供给输入层神经元，然后逐层将信号前传，直到产生输出层的结果;
然后计算输出层的误差(第 4-5 行) ，再将误差逆向传播至隐层神经元(第6行) ，最后根据隐层神经元的误差来对连接权和阈值进行调整(第7行).
该迭代过程循环进行，直到达到某些停止条件为止，例如训练误差已达到一个很小的值。
在这里插入图片描述
以上算法更新规则基于单个 E k E_k Ek推导而得，称“标准BP算法”。
类似推导出基于累积误差最小化的更新规则，得到累积误差逆传播算法。
标准BP算法参数更新非常频繁。累积BP算法直接针对累积误差最小化，在读取整个训练集D一遍后才对参数进行更新，故参数更新的频率低得多。
当包含足够多神经元的隐层，多层前馈网络能以任何精度逼近任意复杂度的连续函数。至于如何设置隐层神经元的个数，常靠“试错法”调整。
由于强大的表示能力， BP 神经网络经常遭遇过拟合，其训练误差持续降低，但测试误差却可能上升。
缓解BP网络的过拟合：
1、“早停”：将数据分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，返回具有最小验证集误差的连接权和阈值。
2、“正则化”：其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分。
例如，误差目标函数改变为
在这里插入图片描述
E k E_k Ek表示第k个训练样例上的误差， w i w_i wi表示连接权和阈值。其中 λ ∈ ( 0 , 1 ) \lambda\in(0,1) λ∈(0,1)用于对经验误差与网络复杂度这两项进行折中。（理解：增加连接权与阈值平方和这一项后，训练过程会偏好比较小的连接权和阈值，使网络输出更加“光滑”，从而缓解过拟合）
5.4全局最小与局部最小
E表示神经网络在训练集上的误差，其显然关于连接权 w w w和阈值 θ \theta θ的函数。神经网络的训练过程相当于在参数空间中，寻找一组最优参数使得E最小。
“最优”：包括“局部极小”和“全局最小”
1、局部极小解，是参数空间中的某个点，其邻域点的误差函数值均不小于该点的函数值；
2、全局最小解则是指参数空间中所有点的误差函数值均不小于该点的误差函数值.两者对应的 E ( w ∗ ; θ ∗ ) E(w^*;\theta^*) E(w∗;θ∗)分别称为误差函数的局部极小值和全局最小值.
可能存在多个“局部极小”，但只会有一个全局最小值，在参数寻优过程中是希望找到全局最小。
常用的参数寻优方法-基于梯度的搜索：
每次迭代，我们计算误差函数在当前的梯度，然后根据梯度确定搜索方向，负梯度方向为函数值下降最快的方向，故梯度下降法即是沿着负梯度方向搜索最优解。
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习西瓜书学习记录-第五章神经网络的相关文章

编写一个程序，开启3个线程，这3个线程的ID分别为ABC，每个线程将自己的ID在屏幕上打印10遍，要求输出结果必须按ABC的顺序显示，如ABCABC……依次递推；

编写一个程序 xff0c 开启 3 个线程 xff0c 这 3 个线程的 ID 分别为 ABC xff0c 每个线程将自己的 ID 在屏幕上打印 10 遍 xff0c 要求输出结果必须按 ABC 的顺序显示 xff0c 如 ABCABC
将文件中的单词及翻译导入数据库

include lt stdio h gt include lt sqlite3 h gt include lt stdlib h gt include lt string h gt int do insert sqlite3 db cha
项目：电子词典

电子词典项目要求 xff1a 登录注册功能 xff0c 不能重复登录 xff0c 重复注册单词查询功能历史记录功能 xff0c 存储单词 xff0c 意思 xff0c 以及查询时间基于TCP xff0c 支持多客户端连接采用数据库
使用C语言实现LED1/LED2/LED3灯点亮

gpio h文件 ifndef GPIO H define GPIO H 封装RCC寄存器 define RCC volatile unsigned int 0x50000A28 封装GPIO寄存器 typedef struct volat
通过串口收发一个字符、字符串

1 通过串口收发一个字符 2 通过串口收发一个字符串 uart4 h文件 ifndef UART4 H define UART4 H include 34 stm32mp1xx rcc h 34 include 34 stm32mp1xx
编写驱动，实现应用层自由控制哪个数码管显示及显示内容

驱动程序 xff1a include lt linux init h gt include lt linux module h gt include lt linux spi spi h gt int major char kbuf 128
编写一个函数，要求输入任意两个无符号32位整形数，在控制台打印两个数相加的结果，要求禁止使用64位变量。

include lt stdio h gt void add unsigned int x unsigned int y unsigned int xh 61 0 xl 61 0 yh 61 0 yl 61 0 sumh 61 0 suml
员工管理系统

头文件common h ifndef COMMON H define COMMON H include lt stdio h gt include lt stdlib h gt include lt sys types h gt inclu
gradle 插件开发踩坑记，应用插件时总是报 UnknownPluginException 异常

问题描述引用一个本地开发的 gradle 插件时 xff0c 一直找不到这个插件 ID xff0c 报错 xff1a Caused by org gradle api plugins UnknownPluginException Plug
初学FreeRTOS实现多任务程序

初学FreeRTOS实现多任务程序 1 什么是FreeRTOS2 STM32下FreeRTOS移植2 1 准备工作2 2 移植更改2 2 1 新建分组2 2 2 添加相应的头文件路径2 2 3 修改 SYSTEM 文件 3 多任务程序的实现
【计网+go】如何获取完整的报文？

我们想要获取完整的报文 xff0c 首先得知道消息的长度和起始位置然后来读取通常有以下几种方法使用带消息头的协议头部写入包长度 xff0c 然后再读取包内容设置定长消息 xff0c 每次读取定长内容 xff0c 长度不够时空位补固定
Visual Studio 2022下载安装

Visual Studio 2022下载安装 1 进入官网官网地址 xff1a https visualstudio microsoft com 这里以Windows操作系统为例根据需要选择版本 xff0c 我这里下载的是Enterpr
Lighttpd入门教程

Lighttpd入门教程概述入门教程安装配置静态文件服务动态文件服务虚拟主机SSL启动服务器日志模块总结lighthttpd使用场景和原理使用场景原理概述 Lighttpd xff08 也称为轻量级HTTP服务器 xff09 是一款快
5.OSD叠加学习之在YUV图片上显示竖线横线斜线

目录实现效果图实现思路 xff1a 代码编写实现效果图实现思路 xff1a 无论是显示竖线横线还是斜线 xff0c 无非是对多个连续的像素点进行操作 xff0c 明白了一个像素点如何点亮 xff0c 加个循环偏移量 xff0c
shell脚本发送http请求

简述 xff1a 使用shell脚本发送http请求 xff0c 解析请求获取token再次发起请求系统 xff1a ubuntu系统工具 xff1a cURL 发送http请求 xff0c jq 解析json xff0c 没有需要安装
2020年电赛省赛题目A——无线运动传感器节点设计

无线运动传感器节点设计题目要求设计方案分析心电检测模块方案ADS1292的A D转换计算心电信号的处理体表温度分析计算运动量分析计算无线传输模块设计显示屏的设计电路设计温度模块设计加速度计模块设计无线传输模块设计PCB布线布局题目要求
【全志T113-S3_100ask】8-USB串口获取GPS数据（含解析）

全志T113 S3 100ask 8 USB串口获取GPS数据 xff08 含解析 xff09 背景 xff08 一 xff09 USB串口驱动 xff08 二 xff09 驱动加载 xff08 三 xff09 简单读取串口数据 xff08
Java ---JVM栈的存储结构与运行原理

目录一栈中存储结构二栈运行原理一栈中存储结构 1 每个线程都有自己的栈 xff0c 栈中的数据都是以栈帧 Stack Frame 的格式存在 2 在这个线程上正在执行的每个方法都各自对应一个栈帧 3 栈帧是一个内存区块 xff0
c++配置opencv环境

c 43 43 配置opencv环境环境 xff1a 系统 xff1a win10系统截至20190523版本 opencv版本 xff1a 3 4 6版本教程 xff1a 1 下载opencv安装包 xff0c 由于4 0 1版本会出
Android应用安全解决方案

前言防止第三方反编译篡改应用 xff0c 防止数据隐私泄露 xff0c 防止二次打包欺骗用户 1 一些必要的基础知识我们在加密的时候会用到一些加密或者编码方法常见的有 xff0c 非对称加密算法 RSA 等 xff1b 对称加密算法

随机推荐

win10修改系统配置处理器引导参数后，系统无限蓝屏解决办法

win10修改系统配置处理器引导参数后 xff0c 系统无限蓝屏解决办法 0 xff1a 开机时先按f8进入安全模式 xff0c 在进入命令提示符 1 进入启动修复的命令提示符 xff08 最好是使用有管理员权限的 xff0c 不过普
运行内存变成的2G，为硬件保留内存为6G

运行内存变成的2G xff0c 为硬件保留内存为6G 先看设置中下面是否有设置是否激活windows xff0c 如有点进去 xff0c 有疑难解疑下面 xff0c 点入会自动激活windows xff0c 如盗版就不行 xff0c 激活后
ubuntu20.4安装NVIDIA驱动，cuda

安装NVIDIA驱动准备工作下载NVIDIA地址 xff1a https www nvidia cn Download index aspx lang 61 cn 查看是否安装好驱动命令 xff1a nvidia span class t
图像进行反转：白变黑，黑变白

图像进行反转 xff1a 白变黑 xff0c 黑变白二值图对图像进行反转 span class token keyword import span cv2 img span class token operator 61 span spa
python调用相机和双目相机

python调用相机 span class token keyword import span cv2 span class token keyword import span numpy span class token keyword
安装PCL1.9.1其它版本号Python3.6+PCL1.9.1+VS2017+gtkbundle_3.6.4版本

下载 python pcl文件地址 xff1a https github com strawlab python pcl 安装 VS2017 安装PLC1 91 首先在自己电脑上安装PCL xff08 点击这里 xff09 xff0c 这
ROS--机器人小车仿真rviz

URDF练习需求描述创建一个四轮圆柱状机器人模型 xff0c 机器人参数如下底盘为圆柱状 xff0c 半径 10cm xff0c 高 8cm xff0c 四轮由两个驱动轮和两个万向支撑轮组成 xff0c 两个驱动轮半径为 3 25cm
ROS--URDF集成Gazebo仿真小车和rviz结合

ROS URDF集成Gazebo仿真小车实现流程需要编写封装惯性矩阵算法的 xacro 文件为机器人模型中的每一个 link 添加 collision 和 inertial 标签 xff0c 并且重置颜色属性在 launch 文件中
使用D435i深度相机运行ORB-SLAM3

下载安装链接下载ORB SLAM3地址 xff1a git clone https github com UZ SLAMLab ORB SLAM3 git eigen3多版本安装 xff1a https blog csdn net wei
keil5使用一个父工程打开多个子工程文件

1 首先工程文件需要在同样的文件夹里 2 打开keil5 xff0c 选择Project New Multi Project Workspace 3 将工程文件建立在刚刚的总文件夹里面 xff0c 命名保存 4 弹出此页面 xff08 Cr
Android动态加载so！这一篇就够了！

作者 xff1a Pika 链接 xff1a https juejin cn post 7107958280097366030 对于一个普通的android应用来说 xff0c so库的占比通常都是巨高不下的 xff0c 因为我们无可避免的
HTTP是什么

HTTP是什么 HTTP是什么 HTTP协议是Hyper Text Transfer Protocol xff08 超文本传输协议 xff09 的缩写是用于从万维网 xff08 WWW World Wide Web xff09 服务器传输
error: array has incomplete element type ‘char []‘

原代码 xff1a void explain input char int char a 报错 xff1a error array has incomplete element type 39 char 39 原因 xff1a 可以用二维数
STM32串口接收十六进制数转为十进制数（包含负数）

外部设备传输给STM32单片机十六进制数例如0x09c4 代表2500 0xff38 代表 200 xff08 并不是65336 xff0c 因为这是有符号的 xff09 串口接收处理函数接收到 5A A5 06 83 55 00 01
无人机-3无人机ROS应用与开发

一 ROS是什么二为什么要学习ROS 三怎么学习ROS https www cnblogs com masbay p 10745170 html TF坐标系指机器人在现实世界会有坐标的变换 xff0c ROS已经将其算成固定的程序 x
ROS入门-4.安装ROS系统(ubuntu20.04版本安装ros的noetic版本)

ubuntu20 04版本安装ros的noetic版本 1 添加软件源2 添加密钥3 更新4 安装ROS5 初始化rosdep6 设置环境变量7 测试ROS安装是否成功 1 添加软件源 2 添加密钥 3 更新 4 安装ROS 5 初始化ro
数学建模-12.预测模型

灰色预测灰色系统 GM 1 1 模型 xff1a Grey Model GM 1 1 原理介绍呢么 xff0c 准指数规律的检验 xff1f 发展系数 a 与预测情形的探究发展系数越小预测的越精确 GM 1 1 模型的评价在使用GM
数学建模-数学规划模型

数学规划模型一概述 1 什么是数学规划 xff1f 运筹学的一个分支 xff0c 用来研究在给定条件下即约束条件 xff0c 如何按照某一衡量指标 xff08 目标函数 xff09 来寻求计划管理工作中的最优方案即求目标函数在一定
机器学习西瓜书学习记录-第四章决策树

第4章决策树 4 1基本流程决策树 xff0c 一类常见机器学习方法 xff0c 希望从给定训练集学得一个模型用以对新示例进行分类一般 xff0c 一棵决策树包含一个根结点若干个内部结点和若干个叶结点 xff1b 叶结点对应于决策结
机器学习西瓜书学习记录-第五章神经网络

第5章神经网络 5 1神经元模型神经网络中最基本的成分是神经元模型 M P神经元模型 xff0c 又称阈值逻辑单元在模型中 xff0c 神经元接收到来自n个其他神经元传递过来的输入信号 xff0c 这些输入信号通过带权重的连接进行传

机器学习西瓜书学习记录-第五章 神经网络

第5章 神经网络

机器学习西瓜书学习记录-第五章 神经网络 的相关文章

随机推荐

热门标签

机器学习西瓜书学习记录-第五章神经网络

第5章神经网络

机器学习西瓜书学习记录-第五章神经网络的相关文章