机器学习基础:监督学习深入介绍

2023-11-06

监督学习三要素

在这里插入图片描述
模型(model):总结数据的内在规律,用数学函数描述的系统
算法(algorithm):选取最优模型的具体方法
策略(strategy):选取最优模型的评价准则

监督学习实现步骤

1.得到一个有限的训练数据集
2.确定包含所有学习模型的集合
3.确定模型选择的准则,也就是学习策略
4.实现求解最优模型的算法,也就是学习算法
5.通过学习算法选择最优模型
6.利用得到的最优模型,对新数据进行预测或分析

监督学习过程示例
在这里插入图片描述

在这里插入图片描述

监督学习模型评估策略

模型评估:

训练集和测试集
我们将数据输入到模型中训练出了对应的模型,但是模型的效果好不好呢?我们需要对模型的好坏进行评估;
我们将用来训练模型的数据称为训练集,将用来预测模型好坏的集合称为测试集;
训练集:输入到模型中对模型进行训练的数据集合
测试集:模型训练完成后测试训练效果的数据集合

损失函数和经验风险
损失函数用来衡量模型预测误差的大小
定义:选取模型f为决策函数,对于给定的输入参数x,f(x)为预测结果,Y为真实结果;f(x)和Y之间可能会有偏差,我们急用一个损失函数(loss function)来度量预测偏差的程度,记作L(Y,f(x))
损失函数是系数的函数,损失函数值越小,模型就越好

损失函数:
在这里插入图片描述
经验风险
经验风险:模型 f(X) 关于训练数据集的平均损失称为经验风险(empirial risk),记作 Remp
在这里插入图片描述
经验风险最小化(Empirical Risk Minimization,ERM)

训练误差和测试误差
训练误差:训练误差(training error)是关于训练集的平均损失。
在这里插入图片描述

测试误差:测试误差(testing error)是关于测试集的平均损失。
在这里插入图片描述

测试误差真正反映了模型对未知数据的预测能力,这种能力一般被称为泛化能力

模型选择

过拟合和欠拟合
欠拟合:模型没有很好的捕捉到数据特征,特征集过小,导致模型不能很好地拟合数据,称之为欠拟合(under-fitting)
欠拟合的本质是对数据的特征学习得不够;
过拟合:把训练数据学习的太彻底,以至于把噪声数据的特征也学习到了,特征集过大,这样就会导致在后期测试的时候不能够很好地识别数据,即不能正确的分类,模型泛华能力太差,称之为过拟合(over-fitting);

模型的选择:
当模型复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值之后再增大;
当模型复杂度过大时,就会发生过拟合,所以模型复杂度应适当
在这里插入图片描述

正则化和交叉验证
结构风险最小化(Structural Risk Minimization SRM)
在ERM基础上,为了防止过拟合而提出的策略
在经验风险上加上表是模型复杂度的正则化项(regularizer),或者叫惩罚项
正则化项一般是模型复杂度的单调递增函数,即模型越复杂,正则化值越大
在这里插入图片描述
奥卡姆剃刀
奥卡姆剃刀原理:如无必要,勿增实体
正则化符合奥卡姆剃刀原理。它的思想是:在所有坑选择的模型中,我们应该选择能够很好地解释一致数据并且十分简单的模型;

交叉验证
数据集划分
如果样本数据充足,一种简单方法是随机将数据集切成三部分:训练集(training set)、验证集(validation set)、测试集(test set)
训练集用于训练模型,验证集用于模型选择,测试集用于学习方法评估

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习基础:监督学习深入介绍 的相关文章

随机推荐

  • 了解硬盘的电路组成部分

    一 硬盘电路组成 硬盘电路板是将硬盘内部和电脑主板相互连接的中介 它将接口传送过来的电信号转换成磁信息记录到硬盘盘片上 写操作 反过来也可以将硬盘盘片上的磁信息转换成电信号传送到接口 读操作 硬盘电路板是裸露在外面的 因此也是比较容易出现故
  • Idea安装免注册版ChatGPT

    文章目录 一 前期准备 二 开始使用 一 前期准备 1 准备Idea开发软件并打开 VS Code同理 2 Ctrl Alt S 快捷键调出Settings窗口 如图 3 找到NexChatGPT 此插件不需要注册 可以直接使用 高级一些的
  • java中Synchronized和Lock的区别

    Synchronized和Lock的区别 原始构成 synchronized关键字属于JVM层面的 通过monitorenter monitorexit指令实现 底层是通过monitor对象来完成 其实wait notify等方法也依赖mo
  • Linux下安装QT4.3.2

    安装qt是因为我刚安装过mplayer想装个前端上网 一查 很多都推崇用smplayer 我也就下决心装上 刚开始一直都装不上 后来静心读了读Install文件才明白要装smplayer必须要有qt4 2或者更高版本 用rpm qa qt才
  • 短视频矩阵营销系统技术开发者开发笔记分享

    一 开发短视频seo抖音矩阵系统需要遵循以下步骤 1 确定系统需求 根据客户的需求 确定系统的功能和特点 例如用户注册登录 视频上传 视频浏览 评论点赞等 2 设计系统架构 根据系统需求 设计系统的整体架构 包括前端 后端 数据库等组件的功
  • 使用.NET构建登录网站

    摘要 本文将介绍如何使用 NET框架构建一个简单的登录网站 并附带每段代码的解释和讲解 帮助读者了解相关概念和功能 引言 在现代互联网应用中 登录系统是一个常见的功能模块 本文将使用 NET框架来创建一个简单的登录网站 演示如何进行用户认证
  • QT UDP简单的通信示例

    UDP user datagram protocol 即用户数据协议 是一个轻量级的 不可靠的 面向数据报的无连接协议 在qt中提供了QUdpSocket类来进行UDP数据报的发送和接收 在Pro中加入network模块 因为upd是无连接
  • 线性代数基础(变换)

    本文中的图片 公式等来自 GMAES101 在此向作者表达真挚的感谢 一 为什么要引入齐次坐标 平移变换不能用一个矩阵来表示 它不是线性变换 在缩放或者旋转等变换操作后 需要单独用一个向量来表示 这样表示起来就不方便了 根据以上约定 会有以
  • spring boot配置druid(德鲁伊)

    spring boot配置druid 德鲁伊 关于druid的介绍请看 阿里巴巴温少访谈 1 引入相关依赖 全部依赖是上一篇spring boot mybatis依赖的基础上 再加上下边的依赖 如下
  • [note] deep learning tensorflow lecture 1 notes 深度学习笔记 (1)

    1 logistic classifier model W X b Y where W is the Weights Vector X is input vector b is bias and Y is output Y the outp
  • Gamemaker studio2经验(2)——TCP联机

    问题概述 众所周知gamemaker是一款制作2d游戏的优秀引擎 但是落后的弱联网机制始终是一个坑 所幸在gms2中 yoyogames集团加入了TCP的联机机制 这也为gm系列引擎制作联网游戏带来了希冀 下面用一个最简单的 红蓝球游戏 作
  • spring boot打jar包和打war包的区别作用

    spring boot既可以打成war发布 也可以找成jar包发布 说一下区别 jar包 直接通过内置tomcat运行 不需要额外安装tomcat 如需修改内置tomcat的配置 只需要在spring boot的配置文件中配置 内置tomc
  • shell函数【参数传递及输入输出】&内置函数

    Linux shell脚本基础3 shell函数 参数传递及输入输出 内置函数 函数定义 1 退出状态 1 参数传递 2 标准IO 2 脚本调试 2 AND OR 3 内置命令补充 3 函数定义 函数定义 在Shell 中 函数就是一组命令
  • 数据可视化:读取csv文件绘制图表

    怎样去读取csv文件 怎样去读每一行的某一列 提取并读取数据 读取每天的最高气温 import csv filename sitka weather 07 2014 csv with open filename as f reader cs
  • 深入理解微分、积分电路!搞懂PID控制原理就这么简单!

    很多朋友觉得PID是遥不可及 很神秘 很高大上的一种控制 对其控制原理也很模糊 只知晓概念性的层面 知其然不知其所以然 那么本期从另类视角来探究微分 积分电路的本质 意在帮助理解PID的控制原理 PID P表示比例控制 I表示积分控制 D表
  • Linux异步通知,以及Qt的调用

    参考帖子 http bbs elecfans com jishu 913446 1 1 html
  • Python在26个字母大小写和9个数字组成的列表中随机生成8位密码。

    from random import def makepasswd a b 定义一个生成密码的函数 可先先看main 函数 frequency 0 用于计算生成密码的个数 Allpasswd 用于存放生成的密码 while frequenc
  • hdu 4405 Aeroplane chess

    Problem acm hdu edu cn showproblem php pid 4405 vjudge net contest 151678 problem R Reference bbs csdn net topics 380193
  • springboot+thymeleaf前端调用date函数bean name ‘#dates‘ available as request attribute

    问题描述
  • 机器学习基础:监督学习深入介绍

    目录 监督学习三要素 监督学习实现步骤 监督学习模型评估策略 模型评估 模型选择 监督学习三要素 模型 model 总结数据的内在规律 用数学函数描述的系统 算法 algorithm 选取最优模型的具体方法 策略 strategy 选取最优