浅谈深度学习归一化加快模型收敛速度

2023-10-31

在训练模型时,我们经常会对数据进行归一化,甚至在隐藏层中也加入归一化。这样做的主要目的是为了加快模型收敛速度。
假设特征在经过卷积层后没有经过归一化的数据如下图分布(xx表示数据点),用sigmoid函数作为激活函数。那么在不经过归一化的时候数据所在的分布会使sigmoid的函数值接近0,这样会导致出现梯度消失的情况。
在这里插入图片描述
假设在对经过卷积层的数据进行归一化后,数据分布如下图所示,分布会处在中间状态,sigmoid的函数值会取到比较大的值(相对于0)。这样便会加快模型的收敛速度。
在这里插入图片描述
但是,我们一般并不是简单的对数据进行归一化,即让数据表现一个正态分布,如果简单地把数据进行标准化,那么就会改变原始数据的分布状态,这不利于神经网络学习原始数据的分布状态,所以在对数据进行标准化后(x-u/方差),会对标准化后的结果在进行处理。
假设标准化后的结果是x,那么再对x进行处理
z = γ * x + β
为什么要多加两个可学习的参数呢,如下图
左边为没有对x再进行处理,右边为对x再进行处理
对x再进行处理可以使x可贴近原始数据的分布,而不会单纯地让数据分布集中地处于中间那一部分。
在这里插入图片描述

另外,如果数据集中地处于中间那一部分,那么sigmoid中间那一部分也可以看成线性函数了,这样也弱化了加激活函数的作用。激活函数本身就是想增强网络的非线性能力。
在这里插入图片描述
以上处于个人理解,如果有错误欢迎指正。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

浅谈深度学习归一化加快模型收敛速度 的相关文章

随机推荐

  • 机器学习——线性回归、房价预测案例【正规方案与梯度下降】

    coding utf 8 1 获取数据集 2 数据基本处理 2 1 数据划分 3 特征工程 标准化 4 机器学习 线性回归 5 模型评估 from sklearn datasets import load boston 1 获取数据集 所使
  • 代码自动化审核操作详解(svnchecker+checkstyle)

    一 概述 1 1 使用范围 本规范仅使用于代码服务器为SVN的场景 1 2 代码提交预校验 在代码提交SVN的时候 插件自动做一些静态代码规范的校验 对不符合规范的代码在提交时 会提示对应代码的错误信息 使用关键组件包括 VisualSVN
  • 【论文阅读】Multi-scale Single Image Dehazing using Perceptual Pyramid Deep Network

    论文 Multi scale Single Image Dehazing using Perceptual Pyramid Deep Network 作者 He Zhang 年份 2018年 期刊 IEEE CVF Conference o
  • angular-cli中配置proxy代理

    1 先在angular cli目录下新建 proxy config json 文件 文件内容如下 其中 我请求的接口URL 是 http 172 20 1 26 8082 api back common getVerifyCode back
  • ARouter 源码分析

    概述 arouter annotation ARouter路由框架所使用的全部注解 及其相关类 arouter compiler 注解编译处理器 引入 arouter annotation 在编译期完成了 构造路由表逻辑的创建 aroute
  • 【华为OD统一考试B卷

    在线OJ 已购买本专栏用户 请私信博主开通账号 在线刷题 运行出现 Runtime Error 0Aborted 请忽略 华为OD统一考试A卷 B卷 新题库说明 2023年5月份 华为官方已经将的 2022 0223Q 1 2 3 4 统一
  • 跟着我学 AI丨ChatGPT 详解

    随着人工智能的发展 聊天机器人成为了一个备受关注的领域 而ChatGPT作为其中的佼佼者 其功能和技术水平也越来越受到人们的关注 那么 什么是ChatGPT 它又有哪些优点和限制呢 ChatGPT是一款基于自然语言处理技术开发的聊天机器人
  • 2022年的有关语义分割的论文,含CVPR、ECCV、ICLR、AAAI

    TransRAC Encoding Multi scale Temporal Correlation with Transformers for Repetitive Action Counting CVPR 2022 Oral 论文 ht
  • 定时器的一些使用

    TIM TimeBaseStructure TIM Period 5000 设置在下一个更新事件装入活动的自动重装载寄存器周期的值 计数到5000为500ms TIM TimeBaseStructure TIM Prescaler 7200
  • 输入一个二进制表示的正整数,转换成十进制输出

    我们想一想咋实现这个算法 input 输入一个二进制字符串 不能是其他类型的字符 只能为0和1 所以在这里要做出限制 略去非0和1的字符后 把二进制字符串逐个输入进行计算 二进制转化为十进制方法为 例子 110 0 2 1 2 2 1 2
  • 基于RFID技术在服装智慧门店中的应用-rfid服装盘点

    一 项目背景 相较于RFID服装智慧门店应用 传统的服装门店 普遍存在以下管理瓶颈 1 条码管理 费时费力 条码作为智能化的方式 虽然其智能化程度比以前大大提高 但仍需要耗费大量人力物力 2 服装查找耗时长 对顾客特殊要求的服装 在门店成千
  • 你所了解的Vim是什么样的,如何打造一款高级的Vim编辑器

    vim简介 vim是linux上一个比较实用的文本编辑器 它在代码补全 编译及错误跳转等方便编程的功能上特别丰富 在程序员中被广泛使用 vim安装 如果你还没有安装vim可以使用下面命令安装 ubuntu环境安装 如果是centosd的话使
  • Spring IoC实现及原理

    文章目录 一 IoC 1 Spring Ioc 的由来 2 IoC思想 3 IoC的实现 3 1 实现原理 3 2 实现过程 3 2 1 xml方式 3 2 2 注解方式 二 DI 1 DI含义 2 注入依赖的方式 2 1 构造方法注入 2
  • Lyapunov稳定性判定总结及PI滑膜悬架仿真

    目录 前言 1 PD PSD ND NSD概念 2 Stable asymptotic stability Globalasymptotic stability 3 线性定常系统的稳定性分析 4 滑模变结构的拉塞尔 Lasalle 不变性原
  • java语言数据库课程设计_数据库课程设计 人事管理系统 (一)

    一 JAVA与数据库的合作此次开发语言为Java 所用的数据库驱动是mysql connector java 5 1 8 bin jar第一步 用Java连接MySQL数据库 驱动下载 https dev mysql com downloa
  • python爬虫爬取-前程无忧-岗位信息

    用python获取前程无忧网站的岗位信息 通过前程无忧的一个信息接口来获取搜索的相关的岗位信息 先看效果 打开前程无忧网站 打开开发者模式 进行抓包 先刷新一遍 然后直接全局搜索关键字 找到这个文件 这些就是岗位信息 直接访问这个接口 就可
  • 最全解决方案:提示Flutter plugin not installed,实际已安装插件

    flutter提示AndroidStudio4 1没有安装flutter插件 实际已经安装 错误体现 错误原因 解决方案 错误体现 具体表现为 android studio 4 1已经安装了flutter和dart插件 但是flutter
  • mybatis初步运用

    为了和数据库进行交互 通常的做法是将SQL语句写在Java代码中 SQL语句和Java代码耦合在一起不利于后期维护修改 而MyBatis能够帮助我们将SQL语句和Java代码分离 方便了后期因需求变动而对SQL语句进行修改 下面举个例子说明
  • C++ Primer Plus 第六章 习题

    目录 复习题 1 请看下面两个计算空格和换行符数目的代码片段 2 在程序清单6 2中 用ch 1替换 ch将发生什么情况 3 请认真考虑下面的程序 4 创建表示下述条件的逻辑表达式 a weight大于或等于115 但小于125 b ch为
  • 浅谈深度学习归一化加快模型收敛速度

    在训练模型时 我们经常会对数据进行归一化 甚至在隐藏层中也加入归一化 这样做的主要目的是为了加快模型收敛速度 假设特征在经过卷积层后没有经过归一化的数据如下图分布 xx表示数据点 用sigmoid函数作为激活函数 那么在不经过归一化的时候数