西瓜书 第一章 绪论

2023-10-27

1.1 引言 理解机器学习

人类的“经验”对应计算机中的“数据”,让计算机来学习这些经验数据,生成一个算法模型,在面对新的情况中,计算机便能作出有效的判断,这便是机器学习。

1.2 基本术语

假设我们收集了一批西瓜的数据,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅自;根蒂=硬挺;敲声=清脆)……每对括号内是一个西瓜的记录。

  • 数据集:这组数据的集合叫做数据集
  • 示例/样本:每条记录是关于一个事件或者对象(本书指西瓜)的描述
  • 属性/特征:例如:色泽,根蒂,敲声
  • 属性值:属性上的取值,例如青绿,沉闷,硬挺
  • 属性空间/样本空间/输入空间:属性张成的空间。如果在坐标轴上表示,每个西瓜都可以用坐标轴中的一个点表示。
  • 特征向量:每个西瓜都可以用坐标轴中的一个点表示,一个点也是一个向量,例如(青绿,蜷缩,浊响),即每个西瓜为:一个特征向量(feature vector)。因此我们也把一个示例称为一个“特征向量”。
  • 维数:一个样本的特征数。例如有 色泽,根蒂,敲声三个特征数,则维数为3。
  • 训练样本:计算机程序学习经验数据生成算法模型的过程中,每一条记录称为一个“训练样本”。
  • 训练集:训练样本组成的集合。【特殊】
  • 测试样本:在训练好模型后,我们希望使用新的样本来测试模型的效果,则每一个新的样本称为一个“测试样本”。
  • 测试集:测试样本组成的集合。【一般】
  • 分类:预测值为离散值,例如好瓜,坏瓜。
  • 回归:预测值为连续值,例如西瓜的成熟度0.95、0.75。
  • 聚类:将训练集的西瓜分成若干组,每组称为一个“簇”;这些自动形成的簇可能存在潜在的划分,比如浅色瓜,深色瓜或者本地瓜,外地瓜。但这些潜在的概念使我们事先不知道的,有助于我们了解数据的内在规律。
  • 监督学习:训练数据有标记信息的学习任务。例如分类,回归。
  • 无监督学习:训练数据没有标记信息的学习任务。例如聚类。
  • 泛化能力:机器学习出来的模型适用于新样本的能力。具有强泛化能力的模型可以很好地适用于整个样本空间。

1.3 假设空间

  • 归纳:从特殊到一般的泛化过程。
  • 演绎:从一般到特殊的特化过程。
  • 假设空间:例如色泽属性有青绿,乌黑,浅白三种可能取值,还要考虑到,色泽无论取什么值都合适(即瓜的好坏与色泽无关),我们用*表示。考虑得到一种极端情况,好瓜这个概念不成立,世界上根本没有好瓜我们用∅表示这个假设。若色泽,根蒂,敲声分别有三种可能取值,则假设空间规模为4x4x4+1=65。
    西瓜数据集
    在这里插入图片描述
  • 版本空间:有多个假设与训练集一致,即存在一个与训练集一致的“假设集合”。
    在这里插入图片描述

如何求取版本空间?

链接: https://blog.csdn.net/m0_37688984/article/details/79461983.

1.4 归纳偏好

  • 归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。例如,某种原因使得它笔记色泽和敲声,更愿意去相信根蒂决定瓜的好坏。
  • 奥卡姆剃刀:若有多个假设与观察一致,则选择最简单的那个。【作用:用来引导算法确立正确的偏好】
  • 没有免费的午餐”定理(NFL定理):总误差与学习算法无关。
    注意: 脱离具体问题,空泛的谈论“什么学习算法更好”,毫无意义。

课后习题:

1.1 表1.1 中若只包含编号为 的两个样例?试给出相应的版本空间.

1.色泽=青绿 根蒂=蜷缩 敲声=浊响

2.色泽=青绿 根蒂=蜷缩 敲声= *

3.色泽=青绿 根蒂=* 敲声= 浊响

4.色泽= * 根蒂= 蜷缩 敲声= 浊响

5.色泽= * 根蒂= * 敲声= 浊响

6.色泽= * 根蒂= 蜷缩 敲声= *

7.色泽= 青绿 根蒂= * 敲声= *

1.2
在这里插入图片描述

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

西瓜书 第一章 绪论 的相关文章

  • 如何查看中科院分区

    中科院分区和JCR分区查询 jcr分区查询官网 xing meng的博客 CSDN博客
  • 如何让自动化测试框架更自动化?

    一 引言 对于大厂的同学来说 接口自动化是个老生常谈的话题了 毕竟每年的MTSC大会议题都已经能佐证了 不是大数据测试 就是AI测试等等 越来越高大上了 不可否认这些专项的方向是质量智能化发展的方向 但是凡事都遵循2 8定律 80 的从事软

随机推荐

  • oracle中exp/imp命令详解

    ORACLE数据库有两类备份方法 第一类为物理备份 该方法实现数据库的完整恢复 但数据库必须运行在归挡模式下 业务数据库在非归挡模式下运行 且需要极大的外部存储设备 例如磁带库 第二类备份方式为逻辑备份 业务数据库采用此种方式 此方法不需要
  • 使用OpenCV+Python进行图像处理的初学者指南

    点击上方 小白学视觉 选择加 星标 或 置顶 重磅干货 第一时间送达 介绍 我们都知道一句话 每张照片都可以告诉我们一个故事 图像中可能隐藏着很多信息 我们可以用不同的方式和视角来解释它 那么 什么是图像 如何处理图像 简而言之 我们可以说
  • 类加载机制—详解

    1 类加载 class 文件中都是一个一个的二进制 通过前面个两个字节进行判断 2 双亲委托机制 class 文件通过类加载器进入到 JVM虚拟机中运行 2 1类加载器 类加载器分为两种 一种是引导类加载器 启动类加载器是已经提供好的 一种
  • 世间万物,音乐不可辜负

    世间万物 唯有爱不可辜负 爱 除了来自家人的亲情 恋人的爱情 朋友的友情 爱 还来自你对世间万物的感受 比如 美食 通过嗅觉 品尝到美味 又比如音乐 通过听觉 调动你的情绪 激发你的想象力 共情能力 愉悦你的身心 安慰你 鼓励你 今天 跟大
  • 大数据实战 Linux Ubuntu 20.04.1 server 最小化安装及其网络配置

    1 Uduntu 的诞生 Ubuntu是一个以桌面应用为主的Linux操作系统 其名称来自非洲南部祖鲁语或豪萨语的 ubuntu 一词 意思是 人性 我的存在是因为大家的存在 是非洲传统的一种价值观 buntu Linux是由南非人马克 沙
  • 【Linux篇】fwrite函数

    include
  • 深入理解 synchronized 关键字

    看书的时候 看到这里 觉得有必要记录一下 那就顺手写一下 先看一下 synchronized 的官方解释的翻译 synchronized 关键字可以实现一个简单的策略来防止线程干扰和内存一致性错误 如果一个对象对多个线程是可见的 那么该对象
  • node.JS之中转服务器

    经过前面node的学习 我们对node已经有了一定的了解下面我直接上中转服务器实现过程和思路说明 let http require http let https require https var iconv require iconv l
  • mysql的binlog详解

    author skate time 2012 03 27 mysql的binlog详解 什么是binlog binlog日志用于记录所有更新了数据或者已经潜在更新了数据 例如 没有匹配任何行的一个DELETE 的所有语句 语句以 事件 的形
  • 洛谷T160512 G - 森林(并查集)

    题目思路 按照正常的并查集思路来想的话 对于操作一 分裂成两颗树后 比较难维护的是其中一颗子树的所有子节点的祖先节点 因为 在find找祖先节点的时候会找到分裂前的的那个祖先节点 如果给每个子节点都更改的话 复杂度不允许 但是 如果我们把删
  • 【Yarn】yarn源码阅读之AsyncDispatcher

    文章目录 1 概述 1 1 图示如下 2 源码解读 2 1 继承关系 2 2 构造方法 2 3 serviceInit方法 2 4 serviceStart 2 5 dispatch 2 6 注册类型方法 2 7 GenericEventH
  • (三)Qlabel显示图片

    在 一 QT学习中 我们说过label这个控件是可以显示图片的 那么这篇让我们看下如何显示图片 首先让我们创建一个项目picture 为项目布置上对应的控件label 让图片显示在label上 代码很简单 如下 QLabel abel ne
  • Unity+ECS框架(Entity Component System)学习(图文详细+源码)(一)——概念

    Unity ECS框架 Entity Component System 学习 图文详细 源码 一 概念 官方链接 一 ECS介绍 Entity 实体 Component 组件 System 系统 实例化系统 实例化系统 二 ECS概念 En
  • Java开发主流框架有哪些?

    SSM组合 SSM是一种Java Web开发的组合框架 是Spring Spring MVC和MyBatis的缩写 Spring是一个轻量级的Java应用框架 提供了一系列的模块 包括IoC容器 AOP MVC框架 数据访问和事务等 可以帮
  • react native xcode unable to open configuration settings file

    解决方案 pod install 然后重开 pod install可能会很久 pod install verbose 可以看进度
  • blender动画全面学习教程

    大小解压后 31 8G 时长28小时 包含项目文件 1920X1080 MP4 语言 英语 中英文字幕 根据原英文字幕机译更准确 Gumroad 活着 Blender中的动画课程 云桥网络 平台获取课程 信息 Alive 是迄今为止发布的最
  • Python import Queue ImportError: No module named 'Queue'

    python3 中引入Queue 会报出这个问题 python3 中这样引入 import queue python2 中这样引入 import Queue 为了兼容 可以这样 import sys if sys version gt 3
  • 机器学习-线性回归-多维度特征变量

    1 假设函数 之前的几篇文章里面 我们都只是介绍了单维特征变量的线性回归模型 比如预测房价的时候 我们只用了房子的面积这个维度 接下来我们会去研究多个维度的线性回归模型 还是从预测房价这个例子入手 假设我们现在不只是单纯的考虑房子的面积 还
  • verilog 简单分频程序

    偶数分频 最简单二分频 在输入时钟上升沿翻转即可 N分频 N为偶数 计数器计数到N 2 1翻转 如进行4分频 count 4 2 1 1时翻转 6分频计数器计到2 翻转 程序如下 经过实测验证 正确 时序如图 可以看出 从36到42是一个周
  • 西瓜书 第一章 绪论

    1 1 引言 理解机器学习 人类的 经验 对应计算机中的 数据 让计算机来学习这些经验数据 生成一个算法模型 在面对新的情况中 计算机便能作出有效的判断 这便是机器学习 1 2 基本术语 假设我们收集了一批西瓜的数据 例如 色泽 青绿 根蒂