梯度消失和梯度爆炸及解决方法

2023-11-03

一、为什么会产生梯度消失和梯度爆炸？

目前优化神经网络的方法都是基于BP，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。其中将误差从末层往前传递的过程需要链式法则（Chain Rule）的帮助，因此反向传播算法可以说是梯度下降在链式法则中的应用。

而链式法则是一个连乘的形式，所以当层数越深的时候，梯度将以指数形式传播。梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。在根据损失函数计算的误差通过梯度反向传播的方式对深度网络权值进行更新时，得到的梯度值接近0或特别大，也就是梯度消失或爆炸。梯度消失或梯度爆炸在本质原理上其实是一样的。

二、分析产生梯度消失和梯度爆炸的原因

【梯度消失】经常出现，产生的原因有：一是在深层网络中，二是采用了不合适的损失函数，比如sigmoid。当梯度消失发生时，接近于输出层的隐藏层由于其梯度相对正常，所以权值更新时也就相对正常，但是当越靠近输入层时，由于梯度消失现象，会导致靠近输入层的隐藏层权值更新缓慢或者更新停滞。这就导致在训练时，只等价于后面几层的浅层网络的学习。

【梯度爆炸】一般出现在深层网络和权值初始化值太大的情况下。在深层神经网络或循环神经网络中，误差的梯度可在更新中累积相乘。如果网络层之间的梯度值大于 1.0，那么重复相乘会导致梯度呈指数级增长，梯度变的非常大，然后导致网络权重的大幅更新，并因此使网络变得不稳定。

梯度爆炸会伴随一些细微的信号，如：①模型不稳定，导致更新过程中的损失出现显著变化；②训练过程中，在极端情况下，权重的值变得非常大，以至于溢出，导致模型损失变成 NaN等等。

下面将从这3个角度分析一下产生这两种现象的根本原因

（1）深层网络

一个比较简单的深层网络如下：

由于深度网络是多层非线性函数的堆砌，整个深度网络可以视为是一个复合的非线性多元函数（这些非线性多元函数其实就是每层的激活函数），那么对loss function求不同层的权值偏导，相当于应用梯度下降的链式法则，链式法则是一个连乘的形式，所以当层数越深的时候，梯度将以指数传播。

如果接近输出层的激活函数求导后梯度值大于1，那么层数增多的时候，最终求出的梯度很容易指数级增长，就会产生梯度爆炸；相反，如果小于1，那么经过链式法则的连乘形式，也会很容易衰减至0，就会产生梯度消失。

从深层网络角度来讲，不同的层学习的速度差异很大，表现为网络中靠近输出的层学习的情况很好，靠近输入的层学习的很慢，有时甚至训练了很久，前几层的权值和刚开始随机初始化的值差不多。因此，梯度消失、爆炸，其根本原因在于反向传播训练法则，属于先天不足。

（2）激活函数

以下图的反向传播为例（假设每一层只有一个神经元且对于每一层 $y_i=\sigma\left(z_i\right)=\sigma\left(w_ix_i+b_i\right)$ ，其中 $\sigma$ 为sigmoid函数）

可以推导出：

原因看下图，sigmoid导数的图像。

如果使用sigmoid作为损失函数，其梯度是不可能超过0.25的，而我们初始化的网络权值 $|w|$ 通常都小于1，因此 $|\sigma'\left(z\right)w|\leq\frac{1}{4}$ ，因此对于上面的链式求导，层数越多，求导结果 $\frac{\partial C}{\partial b_1}$ 越小，因而很容易发生梯度消失。

（3）初始化权重的值过大

如上图所示，当 $|\sigma'\left(z\right)w|>1$ ，也就是 $w$ 比较大的情况。根据链式相乘(反向传播)可得，则前面的网络层比后面的网络层梯度变化更快，很容易发生梯度爆炸的问题。

三、解决方法

梯度消失和梯度爆炸问题都是因为网络太深，网络权值更新不稳定造成的，本质上是因为梯度反向传播中的连乘效应。解决梯度消失、爆炸主要有以下几种方法：

（1） pre-training+fine-tunning

此方法来自Hinton在2006年发表的一篇论文，Hinton为了解决梯度的问题，提出采取无监督逐层训练方法，其基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，此过程就是逐层“预训练”（pre-training）；在预训练完成后，再对整个网络进行“微调”（fine-tunning）。此思想相当于是先寻找局部最优，然后整合起来寻找全局最优，此方法有一定的好处，但是目前应用的不是很多了。

（2）梯度剪切：对梯度设定阈值

梯度剪切这个方案主要是针对梯度爆炸提出的，其思想是设置一个梯度剪切阈值，然后更新梯度的时候，如果梯度超过这个阈值，那么就将其强制限制在这个范围之内。这可以防止梯度爆炸。

（3）权重正则化

另外一种解决梯度爆炸的手段是采用权重正则化（weithts regularization），正则化主要是通过对网络权重做正则来限制过拟合。如果发生梯度爆炸，那么权值就会变的非常大，反过来，通过正则化项来限制权重的大小，也可以在一定程度上防止梯度爆炸的发生。比较常见的是 L1 正则和 L2 正则，在各个深度框架中都有相应的API可以使用正则化。

关于 L1 和 L2 正则化的详细内容可以参考我之前的文章——欠拟合、过拟合及如何防止过拟合

（4）选择relu等梯度大部分落在常数上的激活函数

relu函数的导数在正数部分是恒等于1的，因此在深层网络中使用relu激活函数就不会导致梯度消失和爆炸的问题。

关于relu等激活函数的详细内容可以参考我之前的文章——温故知新——激活函数及其各自的优缺点

（5） batch normalization

BN就是通过对每一层的输出规范为均值和方差一致的方法，消除了权重参数放大缩小带来的影响，进而解决梯度消失和爆炸的问题，或者可以理解为BN将输出从饱和区拉倒了非饱和区。

关于Batch Normalization（BN）的详细内容可以参考我之前的文章——常用的 Normalization 方法：BN、LN、IN、GN

（6）残差网络的捷径（shortcut）

说起残差结构的话，不得不提这篇论文了：Deep Residual Learning for Image Recognition。论文链接：http://openaccess.thecvf.com/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf

相比较于以前直来直去的网络结构，残差中有很多这样（如上图所示）的跨层连接结构，这样的结构在反向传播中具有很大的好处，可以避免梯度消失。

（7） LSTM的“门（gate）”结构

LSTM全称是长短期记忆网络（long-short term memory networks），LSTM的结构设计可以改善RNN中的梯度消失的问题。主要原因在于LSTM内部复杂的“门”(gates)，如下图所示。

LSTM 通过它内部的“门”可以在接下来更新的时候“记住”前几次训练的”残留记忆“。

发布于 2019-07-30 14:35

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

梯度消失和梯度爆炸及解决方法的相关文章

蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
机器学习：基于python微博舆情分析系统+可视化+Django框架 K-means聚类算法（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
毕业设计：基于卷积神经网络的验证码识别系统机器视觉人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 字符分割算法 2 2 深度学习三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
无人机视角、多模态、模型剪枝、国产AI芯片部署

无人机视角多模态模型剪枝国产AI芯片部署是当前无人机技术领域的重要研究方向其原理和应用价值在以下几个方面进行详细讲述一无人机视角无人机视角是指在无人机上搭载摄像头等设备通过航拍图像获取环境信息并进行图像处理和分析这种技术
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
机器学习算法实战案例：LSTM实现多变量多步负荷预测

文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建

随机推荐

安装centos与动态磁盘

在动态磁盘压缩磁盘后 Linux是检测不到压缩后的磁盘空闲空间需要用分区助手将动态磁盘变为基本磁盘
【MES】工业4.0之MES系统方案

人类自从250年前发生在英国的第一次工业革命开始我们共经历了工业1 0 机械化工业2 0 电气化自动化工业3 0 信息化之后迎来了工业4 0网络化从工业革命的定义来看仅仅是生产力的提升那还只是量变不能称为工业革命必须有生产
CodeCounter

package cn zzsxt io2 import java io BufferedReader import java io File import java io FileReader import java io IOExcept
老猿学5G扫盲贴：3GPP中的5G计费架构

专栏 Python基础教程目录专栏使用PyQt开发图形界面Python应用专栏 PyQt入门学习老猿Python博文目录老猿学5G博文目录一计费逻辑架构和信息流在32240子系列文档内定义了计费的逻辑架构和信息流如图上图
使用HttpClient为GET/POST请求获取数据 -- 信任证书 SS连接

使用HttpClient为GET POST请求获取数据信任证书 SS连接依赖部分使用GET请求获取数据使用POST 请求 Form 表单格式请求获取数据使用POST 请求 Body 格式请求获取数据公共部分执行http请求信
random 与 range

random方法 random randint 1 5 会生成一个1 5之间的任一个整数包括1和5 random random 会随机生成0 1的浮点数 random choice list 会从list中随机选出一个值 range方法
使用Edge调试安卓app应用或插件

Edge调试安卓手机 1 1 找到开发者模式打开 USB 调试 1 2 找条数据线连上电脑 PC 打开 edge 2 1 打开 URL edge inspect devices 2 2 等待手机和 edge 响应然后出现页面后点击
SQL练习

学生选课表的50个SQL语句 1 查询001课程比002课程成绩高的所有学生的学号 select a s id from select s id score from sc where c id 001 a select s id scor
python自动化办公（三十二）pyinstaller.exe打包成exe程序，运行后ModuleNotFoundError或FileNoFounderError:no such file or **

目录一打包Tkinter 二下载pyinstaller 三 pycharm终端运行pyinstaller 四 pyinstaller exe直接运行Cmd命令打包
Docker中web项目的部署以及访问

1 将应用打包成demo war 2 编写Dockerfile 构建镜像 Dockerfile FROM 包含tomcat的基础镜像 COPY demo war usr local tomcat webapps COPY apple app
八皇后[n皇后]问题 python 算法的理解

八皇后 n皇后问题表述为在8 8格的国际象棋上摆放8个皇后使其不能互相攻击即任意两个皇后都不能处于同一行同一列或同一斜线上问有多少种摆法答案是92种可以看看遍历过程方便理解对于递归queen A cur 1 的理解 cu
vue根据路由隐藏侧边栏

项目要求某模块显示侧边栏某模块隐藏侧边栏所有模块统一引用了一个layout组件所以在路由里设置一个自定义属性在layout组件里监听路由判断自定义属性值来隐藏侧边栏 An highlighted block path equipm
macos配置vscode支持c++11/17标准

目录简介需求步骤步骤1 步骤2 步骤3 步骤4 步骤5 结语简介 Hello 非常感谢您阅读海轰的文章倘若文中有错误的地方欢迎您指出昵称海轰标签程序猿 C 选手学生简介因C语言结识编程随后转入计算机专业获得过
Looper和Handler

Looper用于在android线程中进行消息处理默认情况下一个线程并不和任何Looper绑定当我们调用Looper prepare 时如果当前线程还没有和任何Looper绑定那么将创建一个Looper让它和当前线程绑定当我们调
Mysql数据库简单配置

1 将安装包下载到本地文件路径按照自己的情况 2 配置ini文件放在mysql安装目录没有文件名解决方法 3 终端切换目录到安装目录下的bin目录下建议配置环境变量后面直接通过命令开启服务直接双击path也可以进入然后点击新
module “**.vue“ has not default

module vue has not default 这个问题造成的原因是因为你在vue config js中设置了happyPackMode选项如下所示 config module rule ts use ts loader loade
初识注解

注解的英文单词 Annotation 3 有一个public修饰的入口 4 且该public修饰的类名必须与文件名相同 5 并且一个源文件可以只有非public类 package com kuang Annotation 测试元注解 im
用一个函数实现用选择法对5个整数按升序排序

用一个函数实现用选择法对5个整数按升序排序选择法思想先选出5个数中最小的数把它和score 0 交换这样a 0 就是5个数中最小的数了再在剩下4个数 score 1 到score 4 中选出最小的数把它和score 1 交换这
kafka基本知识

kafka 消息队列是什么解决什么样的问题有什么常见的应用场景 MQ message queue 消息队列是本质上是队列先进先出的数据结构生产者将消息放到队列上消费者通过消息的消费者通过拉取或者订阅推送的机制来获取消息解决的问
梯度消失和梯度爆炸及解决方法

原文链接感谢原作者一为什么会产生梯度消失和梯度爆炸目前优化神经网络的方法都是基于BP 即根据损失函数计算的误差通过梯度反向传播的方式指导深度网络权值的更新优化其中将误差从末层往前传递的过程需要链式法则 Chain Rule 的帮

梯度消失和梯度爆炸及解决方法

梯度消失和梯度爆炸及解决方法 的相关文章

随机推荐

热门标签

梯度消失和梯度爆炸及解决方法的相关文章