【MindSpore易点通】深度学习系列-那些介于模糊与清楚之间的一些概念

2023-11-17

之前小编就给大家提过正则化(超链接),其实还有很多定义大家是有点模糊又有点清楚的,今天好好带大家一起捋一遍~~

1训练集、验证集、测试集

正确地配置训练、验证和测试数据集,会很大程度上帮助大家创建高效的神经网络。即使是深度学习专家也不太可能一开始就知道匹配度最高的参数,深度学习网络需要多次循环往复,才能为应用程序找到最佳的神经网络,因此循环该过程的效率是决定项目进展速度的一个关键因素,而创建高质量的训练数据集,验证集和测试集也有助于提高循环效率。

在机器学习发展的小数据量时代,常见做法所有数据中存在70%的验证集,剩下的30%作为测试集,如果没有明确设置验证集的话,可以将训练集、验证集、测试集以3:1:1的标准划分。(这点小编应该也在之前的机器学习系列中给大家普及过)而当涉及大量数据的时候,验证集和测试集占数据总量的比例会趋向于变得更小。(没错,验证集的目的就是验证不同的算法,检验哪种算法更有效,因此,验证集要足够大才能评估,而因为我们的数据总量是巨大的,因此即使验证集所占的比例很小,但是其数据量也是可观的)。所以当数据集规模较大的,验证集和测试集要小于数据总量的20%或10%。

当然,小编这里还有两个小TIPS,大家可以细品一下:

1.尽可能使验证集和测试集的数据来自同一分布;

2.就算没有测试集也无伤大雅,只需要在训练集上训练,尝试不同的模型框架,在验证集上评估这些模型,然后迭代并选出适用的模型。

1.2 偏差,方差

假设给上图中的数据集拟合一条直线,可能会得到一个逻辑回归拟合,但是并不能很好地拟合该数据,这就是高偏差(high bias)的情况,即欠拟合。

而如果拟合一个非常复杂的分类器适用于这个数据集,这时候就可能会出现方差较高(high variance),数据过度拟合(overfitting)的现象。

当然,介于欠拟合与过拟合之间也会存在适度拟合(just right)的情况,使得数据拟合看起来更加合理。

理解偏差和方差的两个关键数据是训练集误差(Train set error)和验证集误差(Dev set error)。

1.假定训练集误差是1%,验证集误差是11%,可以看出训练集设置得非常好,而验证集设置相对较差,可能过度拟合了训练集,像这种情况,我们称之为“高方差”。

2.假设训练集误差是15%,验证集误差是16%,算法并没有在训练集中得到很好训练,如果训练数据的拟合度不高,就是数据欠拟合,就可以说这种算法偏差比较高。另一方面,它对于验证集产生的结果却是合理的,验证集中的错误率只比训练集的多了1%。

3.训练集误差是15%,偏差相当高,同时验证集的错误率达到30%,这样一来方差也很高。

4.最匹配的结果模型:训练集误差是0.5%,验证集误差是1%,偏差和方差都很低。

1.3 处理方法

因此当初始模型训练完成后,我们首先需要知道算法的偏差高不高,如果较高,甚至无法拟合训练集,那么我们就需要毫不犹豫地选择一个或多个新的网络。

采用规模更大的网络,延长训练时间也可以试试看,直到解决偏差问题,实现数据拟合。

如果偏差降低到可以接受的数值,查看验证集性能检查方差,如果方差高,那就是采用更多数据来解决问题,当然无法增加数据,那么就可以采用我们之前提到的正则化来减少过拟合。

1.4 正则化如何预防过拟合

为什么正则化可以减少方差问题?这里可以具体给大家讲解一下:

左图是高偏差,右图是高方差,中间是恰好合适。

假设上图为一个过拟合的神经网络,代价函数J,含有参数W,b。添加正则项避免数据权值矩阵过大。

如果正则化设置得足够大,权重矩阵W被设置为接近于0的值,将多隐藏单元的权重设为0,消除了隐藏单元的影响。如果是这种情况,神经网络会变成一个很小的网络,小到如同一个逻辑回归单元,可是深度却很大,使网络从过度拟合的状态更接近左图的高偏差状态。但是会存在一个中间值,于是就会有一个接近“Just Right”的中间状态。

假设使用的是双曲线激活函数。

用g(z)表示tanh(z),只要z非常小,激活函数开始变得非线性。

如果正则化参数λ很大,激活函数的参数会相对较小,因为代价函数中的参数变大了,如果W很小,z也会很小。

总结来说,如果正则化参数变得很大,参数W很小,z也会相对变小,此时忽略b的影响,z会相对变小。激活函数tanh曲线函数会相对呈线性,整个神经网络会计算离线性函数近的值,不会发生过拟合。

当然啦,正则化我们之前只是做了比较简单的介绍,下期我们进行更加详细的介绍~再会!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【MindSpore易点通】深度学习系列-那些介于模糊与清楚之间的一些概念 的相关文章

随机推荐

  • 微信小程序_安装第三方的UI组件库(详细步骤)

    微信小程序的UI组件库 在我了解的 有两种方式 一种是微信小程序的官方文档自带的小程序 另一种是vant的小程序的UI组件库 一 官方自带的小程序的安装步骤 官方文档 https developers weixin qq com minip
  • Mysql管理

    一 Mysql 一 前言 MySQL是一个关系型数据库管理系统 由瑞典MySQL AB 公司开发 目前属于 Oracle 旗下产品 MySQL 是最流行的关系型数据库管理系统之一 在 WEB 应用方面 MySQL是最好的 RDBMS Rel
  • C++11:转移语义

    为什么需要转移语义 gt File Name main cpp gt Author Xianghao Jia gt mail xianghaojia sina com gt Created Time Mon 09 Dec 2019 04 2
  • ubuntu创建新用户并设置samba服务

    1 新建自己的用户并查看 sudo useradd m s bin bash 用户名 sudo passwd 用户名 ls home t 或者 1创建一个新的普通用户 m 表示用户 s表示shell环境 sudo useradd m gue
  • Selenium:网页屏幕截图

    前言 在学习 Selenium 做 UI自动化时 往往会遇到需要截图的时候 框架自带截图方法 方法 方法释义 save screenshot filename 截取当前屏幕截图 并保存为指定文件 此方法没必要使用 get screensho
  • iOS音视频—Shell脚本语言(语法-echo命令&参数传递)

    That wonderful world is waiting for me Shell脚本语言 语法 echo命令 1 显示普通字符串 echo iPhoneX 标配 8388 2 显示转义字符 echo iPhoneX 顶配 9688
  • 每日一题:路径计数

    路径计数 题目 Daimayuan Online Judge f i j 表示从左上角走到 i j 的方案数 状态转移 i j 由 i 1 j 和 i j 1 转移而来 初始状态 得使得f 1 1 为1 所以初始化f 1 0 或者f 0 1
  • 基于单光子探测的多脉冲周期符合远距离测距

    激光测距技术通过发射主动激光信号对目标进行探测 接收由目标漫反射回来的回波信号并进行统计 处理及换算 从而得到目标的距离 速度信息 实现对目标距离信息的探测 凭借其系统简单 操作灵活 高精度等特点 被广泛运用于民用 科研及军事等各类场合 基
  • Lambda表达式使用详细讲解

    目录 1 新思想 1 1函数式编程思想 1 2 函数式接口 2 通往lambda之路 2 1 什么是lambda表示式 2 2 lambda表示式有哪些特点 2 3 lambda表示式使用场景 2 4 lambda表示式语法 2 5 Lam
  • [Unity] Input.mousetion 屏幕坐标转世界坐标。

    代码如下 Vector3 screenPos Input mousePosition screenPos z 5 0f Vector3 p1 Camera main ScreenToWorldPoint screenPos Vector3
  • 释放数据价值这道难题,Smartbi V11有解

    未来简史 预言 数据将成为人们未来的信仰 未来已来 将至已至 如今 数据所扮演的角色与作用超乎想象 从政府将数据要素列入生产要素之中 到数据驱动型业务场景涌现 企业与组织对于数据及其价值的认可度明显提升 如何充分释放数据价值已成为所有企业与
  • Dijkstra与Bellman-Ford算法对比

    文章目录 TOC Dijkstra Dijkstra 伪代码 Dijkstra 为什么不能有负权重 Dijkstra算法复杂度 Bellman Ford算法 Bellman Ford算法伪代码 Bellman Ford判断是否有负权 Bel
  • 大文件上传如何做断点续传?

    是什么 不管怎样简单的需求 在量级达到一定层次时 都会变得异常复杂 文件上传简单 文件变大就复杂 上传大文件时 以下几个变量会影响我们的用户体验 服务器处理数据的能力 请求超时 网络波动 上传时间会变长 高频次文件上传失败 失败后又需要重新
  • 2020大厂前端面试之vue专题(三)

    21 v model中的实现原理及如何自定义v model v model 可以看成是 value input方法 的语法糖 input v model checkbox v model select v model 组件的v model
  • PS替换证件照背景颜色

    PS换背景颜色 1 选择 中的 色彩范围 快速抠图换底 2 点击下 原背景 即可选中 调整 颜色容差 预览中 白色为选中的部分 3 调整好背景选区后 按delete 键 增加一个 新背景颜色的图层 放置到刚删除背景的图层下边 4 此时可能
  • 在排序数组中查找元素的第一个和最后—个位置

    include
  • vscode c++ 的环境配置 (完美版)

    怎么下载MinGW64 https blog csdn net skh2015java article details 85075032 vscode c 的环境配置 https blog csdn net qq 43041976 arti
  • ElasticSearch--Field的使用

    目录 一 Field的介绍 二 Field的属性介绍 三 常用的Field类型 一 text文本字段 二 keyword关键字字段 三 date日期类型 四 Numeric类型 四 Field属性的设置标准 一 Field的介绍 上周的一篇
  • 顺丰科技 Hudi on Flink 实时数仓实践

    关注 Flink 中文社区 获取更多技术干货 摘要 本文作者刘杰 介绍了顺丰科技数仓的架构 趟过的一些问题 使用 Hudi 来优化整个 job 状态的实践细节 以及未来的一些规划 主要内容为 数仓架构 Hudi 代码躺过的坑 状态优化 未来
  • 【MindSpore易点通】深度学习系列-那些介于模糊与清楚之间的一些概念

    之前小编就给大家提过正则化 超链接 其实还有很多定义大家是有点模糊又有点清楚的 今天好好带大家一起捋一遍 1训练集 验证集 测试集 正确地配置训练 验证和测试数据集 会很大程度上帮助大家创建高效的神经网络 即使是深度学习专家也不太可能一开始