概念学习—机器学习

2023-11-16

介绍

  1. 定义:
    概念学习是指从有关某个布尔函数的输入输出训练样例中,推断出该布尔函数。其结果是布尔函数,即true or false。
    每个概念可被看作一个对象或事件集合,它是从更大的集合中选取的子集(如从动物的集合中选取鸟类)

  2. 每个属性值可使用的符号:

    • 由“?”表示任意值
    • 明确指定的属性值(如 AirTemp=Warm
    • 由“∅”表示不接受任何值
      如果某些实例x满足假设h的所有约束,就将x分类为正例。
      比如,为判定 Aldo 只在寒冷和潮湿的日子里进行水上运动(并与其他属性无关),这样的假设可表示为下面的表达式:
      < ? , C o l d , H i g h , ? , ? , ? > <?, Cold, High, ?, ?, ?> <?,Cold,High,?,?,?>
      最一般的假设是每一天都是正例,可表示为:
      < ? , ? , ? , ? , ? , ? > <?, ?, ?, ?, ?, ?> <?,?,?,?,?,?>
      而最特殊的假设即每一天都是反例,表示为:
      < ∅ , ∅ , ∅ , ∅ , ∅ , ∅ > <∅, ∅, ∅, ∅, ∅, ∅ > <,,,,,>
  3. 术语
    目标概念:待学习的概念或函数,记作c。
    在学习目标概念时,必须提供一套训练样例(training examples),每个样例为 X 中的一个实例 x 以及它的目标概念值 c(x)(如表 2-1 中的训练样例)。对于 c(x)=1 的实例被称为正例(positive example),或称为目标概念的成员。对于 c(x)=0 的实例为反例(negative example),
    或称为非目标概念成员。
    归纳学习:从特殊的训练样例(关于概念的正/反样例)中归纳出一般的概念描述(函数),它的一般操作是泛化和特化。这也是机器学习的中心问题。
    归纳学习算法最多只能保证输出的假设能与训练样例相拟合。如果没有更多的信息,我们只能假定,对于未见实例最好的假设就是与训练数据最佳拟合的假设。这是归纳学习的一个基本假定

概念学习

概念学习可以看作是一个搜索的过程,范围是假设的表示所隐含定义的整个空间。搜索的目标是为了寻找能最好地拟合训练样例的假设。

如果属性 Sky有 3 种可能的值,而 AirTemp、 Humidity、 Wind、 Water 和 Forecast 都只有两种可能值,则:
不同实例: 3×2×2×2×2×2=96
语法不同:5×4×4×4×4×4=5120
语义不同:1+4×3×3×3×3×3=973
语法不同和语义不同对于每个属性包括?和∅,而在语义不同条件下,但凡每个属性出现∅的假设都只视为一种,这就是1的来源。

假设的一般到特殊序

为说明一般到特殊序,考虑以下两个假设:
h 1 = < S u n n y , ? , ? , S t r o n g , ? , ? > h 2 = < S u n n y , ? , ? , ? , ? , ? > h_1=<Sunny, ?, ?, Strong, ?, ?>\\ h_2=<Sunny, ?, ?, ?, ?, ?> h1=<Sunny,?,?,Strong,?,?>h2=<Sunny,?,?,?,?,?>
由于 h 2 h_2 h2的包含的实例约束条件更少,他划分出正例也较多,所以,我们说 h 2 h_2 h2 h 1 h_1 h1更一般。
也就是说含括更多样本的集合,就更一般,因为一般人会比特殊的人更多。
首先,对 X X X中任意实例 x x x H H H中任意假设 h h h,我们说 x x x 满足 h h h 当且仅当 h ( x ) = 1 h(x)=1 h(x)=1。现在以实例集合的形式定义一个more-general-than-or-equal-to 的关系:
给定假设 h j h_j hj h k h_k hk h j h_j hj more-general-than-or-equal-to h k h_k hk,当且仅当任意一个满足 h k h_k hk的实例同时也满足 h j h_j hj
数学定义
定义逆向关系:“比…更特殊 ” more_specific_than

Find-S 寻找极大特殊假设

算法:
FindS算法
为说明这一算法,假定给予学习器的一系列训练样例如表 2-1 所示。 Find-S 的第一步是将 h 初始化为 H 中最特殊假设:
在这里插入图片描述
在扫描到表 2-1 中第一个训练样例时,它刚好是个正例。很清楚,这时的 h 太特殊了。h 中的每一个∅约束都不被该样例满足,因此,每个属性都被替换成能拟合该例的紧邻的更一般的值约束,也就是这一样例的属性值本身:
Step1
这个 h 仍旧太特殊了,它把除了第一个样例以外的所有实例都划分为反例。下一步,第2个训练样例(仍然为正例)迫使该算法进一步将 h 泛化。这次使用“?”代替 h 中不能满足新样例的属性值。之后的假设变为:
Step2
然后处理第三个训练样例,这里是一个反例, h 不变。实际上, Find-S 算法简单地忽略每一个反例!
大致流程就是如上

变型空间和候选消除算法

候选消除算法优势:它能解决 Find-S 中的若干不足之处。 Find-S 输出的假设只是 H 中能够拟合训练样例的多个假设中的一个。 而在候选消除算法中, 输出的是与训练样例一致的所有假设的集合。

表示

一致的定义:
在这里插入图片描述
h是训练样例,c是假设结果。
变型空间:候选消除算法能够表示与训练样例一致的所有假设。 在假设空间中的这一子集被称为关于假设空间 H 和训练样例 D 的变型空间(version space)。
算法:
候选消除算法

更简明的表示

再一次考虑表 2-2 中描述的 EnjoySport 概念学习问题。对于表 2-1 中给定的 4 个训练样例, Find-S 输出假设:
h = < S u n n y , W a r m , ? , S t r o n g , ? , ? > h=<Sunny, Warm, ?, Strong, ?, ?> h<Sunny,Warm,?,Strong,?,?>
实际上,这只是 H 中与训练样例一致的所有 6个假设之一。
6个假设
可以直观地看出,使用最一般和最特殊集合表示变型空间的作法是合理的。下面我们精确地定义 S 和 G 这两个边界集合,并且证明它们确实代表了变型空间。
定义

一般边界就是确定条件比较少,“?”比较多的假设,从全“?”开始,慢慢消去“?”。特殊边界就是条件比较多,从全空开始。

算法过程:
候选消除算法过程
候选消除算法过程

样例:
例子Step1
例子Step2
可以发现:

  1. G和S都是要把样例划分为正的假设,只不过不满足G的样例一定是负,而S不一定。
  2. 如何理解G和S,G=general代表了这个假设更一般,S=special代表这个假设更特别,所以满足S假设的样例一定要满足G假设,所以S假设是G假设的上界。
  3. 遇到第一个反例时要去找样例中与S假设中不同的属性,这些属性就是G的改变属性。为什么?因为只能做一步的小调整,所以只能改变一个属性,而且G要满足正样例,所以只能改变负样例中与当前S不同的属性,将该属性置为负样例属性的相反值。
    说明
    结果
    图中的红X是第4个样例改变的。

关于变型空间和候选消除的说明

候选消除算法是否会收敛到正确的假设

由候选消除算法得到的变型空间能够收敛到描述目标概念的假设的条件是:
(1)在训练样例中没有错误
(2)在 H 中确实包含描述目标概念的正确假设。
如果训练数据中包含错误会怎样?
这种情况下,很不幸,算法肯定会从变型空间中删除正确的目标概念。
当然,如果给定足够的训练数据,最终,我们会发现 S 和 G 边界收敛得到一个空的变型空间,从而得知训练数据有误。空的变型空间表示 H 中没有假设能够与样例一致。

归纳偏置

无偏的学习器
思路:提供一个假设空间H, 能表达所有的可教授概念, 换言之, 它能够表达实例集X的所有可能的子集, 称之为X的幂集P(X)。
无偏形式
假设的并。
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

概念学习—机器学习 的相关文章

随机推荐

  • java代码大全及详解(Java 常用代码汇总)

    1 字符串有整型的相互转换 String a String valueOf 2 integer to numeric string int i Integer parseInt a numeric string to an int 2 向文
  • 高德谷歌腾讯天地图地图瓦片url

    以下是各地图的瓦片地图地址 可以在QGIS中加载 也可以在openlayer或leaflet前端页面中加载 腾讯 百度 高德 加上谷歌和天地图应该足够用了 腾讯 高德是GCJ02坐标系 百度是BD09坐标系 谷歌 必应是WGS84坐标系 天
  • 【程序猿历程】一个三年工作经验和月薪16k的java程序员应该要具备什么样的技能?

  • Qt学习之路(48): 自定义委托

    好久没有来写文章了 由于家里面宽带断了 所以一直没能更新 今天现在写上一篇 还是继续前面的内容 前面我们分三次把自定义model说完了 其实主要还是那三个实例 在 model view 架构中 与model同等重要的就是 view 我们知道
  • 【数据结构】多叉树的深度优先遍历DFS和广度优先遍历BFS(含C++递归和非递归方式实现)

    文章目录 前言 1 深度优先遍历 1 2 先序遍历 1 2 1 C 递归实现 1 2 2 C 非递归实现 1 2 后序遍历 1 2 1 C 递归实现 1 2 2 C 非递归实现 2 广度优先遍历 2 1 C 递归实现 2 2 C 非递归实现
  • Ubuntu安装Eigen3

    从官网下载 http eigen tuxfamily org index php title Main Page 比如在cd git clone https gitlab com libeigen eigen git cd Eigen mk
  • 【Python】cryptography和pycryptodome库使用

    题目 1 使用cryptography模块 编写完整的AES CBC加解密函数 函数接口为 def encrypt CBC key plaintext iv def decrypt CBC key ciphertext iv 2 使用pyc
  • Java多线程程序:多线程模拟抢票

    public class BuyTicket extends Thread public static int tickets 20 Override public void run while sale synchronized publ
  • 【精华】经典的图像数据集介绍

    目录 1 经典的数据集介绍 1 1 ImageNet 1 2 PASCAL VOC 1 3 Labelme 1 4 COCO 1 5 SUN 1 6 Caltech 1 7 Corel5k 1 8 CIFAR Canada Institud
  • angular学习之路(一)开山篇

    1 ng app 定义angularJS的使用范围 2 ng init 变量 值 变量 值 初始化变量的值 有多个变量时 中间用分号隔开 3 ng model 变量 定义变量名 4 ng bind 变量 绑定变量名 获取该变量的数据 这里的
  • underlay和overlay? & 传统网络和数据中心网络 ?

    underlay和overlay 百度 Underlay 和 Overlay 是网络架构中两个常用的概念 用于描述不同层次或视角下的网络结构和通信方式 1 Underlay 底层网络 Underlay 是指基础网络层 即物理网络或基础网络架
  • B站马士兵python入门基础版详细笔记(5)

    前言 这是这篇文章是B站学习python入门基础班的视频的第五章内容 主要讲述的是循环结构 主要包括while语句和for in语句 一 range函数 这个函数生成的是一个整数序列 他的返回值是一个迭代器对象 所以直接print它是没有用
  • java gc 次数_JVM的分区+查看GC对象是否存活+3种GC算法+7种垃圾收集器+如何减少GC次数...

    一 JVM的分区 1 程序计数器 私有 程序计数器是一块较小的内存分区 你可以把它看做当前线程所执行的字节码的指示器 在虚拟机的概念模型里 字节码解释器工作时 就是通过改变计数器的值来选择下一条需要执行的字节码指令 程序技术器为线程私有 每
  • UNet3+详解

    目录 1 UNet3 解决的问题 1 UNet 2 UNet 2 UNet3 的创新点 3 UNet3 的结构体 1 编码层 2 解码层 a 跳跃连接 b 分类引导模块 CGM c 特征聚合机制 d 深监督 e 混合损失函数 4 UNet3
  • Supervisor使用备忘

    为什么要用Supervisor 从这里说起 服务器端要将程序以daemon运行 其目的是摆脱控制终端的信号影响 以免进程退出 Daemon化流程 int daemonize pid t pid fork if pid 0 exit 0 if
  • 更改Ansys Workbench的语言的方法

    如果没有学过日文 安装Ansys Workbench后出现如下界面 一定会感到很无助 如何把它改为英文界面呢 按下面步骤来 1 点击第三个菜单 2 再点击下拉菜单中的最后一个菜单 如下 3 在弹出对话框中 点击左边的第三项 图中红色矩形框框
  • 零基础学Java,最开始应该学什么?

    Java的知识面太广了 这里整理了一个思维导图 不是很全面 但足够硬核 先学最重要的 从浅到深 能够让你快速地学好Java 一 两个学习阶段 在介绍如何学好Java前 我们先把学习路线定一下 我把这个过程分成两个阶段 第一阶段 打好基础 先
  • MarkDown 高级操作

    目录 1 图片处理 2 插入音乐 3 插入视频 4 在页面内跳转 5 插入跳转链接 用新的窗口打开 6 设置不同的字体颜色 7 设置不同类型的字体 8 使用标准字体 9 添加背景色 10 多种矩阵形式输入 10 1 不带括号的 10 2 带
  • ue4中Pak文件中挂载的资源名称获取

    在pak文件中 会挂接很多资源 api也在变化 废话不多说 上代码 FPakPlatformFile GetPakPlatformFile FPakPlatformFile pakPlatformFile nullptr auto plat
  • 概念学习—机器学习

    概念学习 介绍 概念学习 假设的一般到特殊序 Find S 寻找极大特殊假设 变型空间和候选消除算法 表示 更简明的表示 关于变型空间和候选消除的说明 候选消除算法是否会收敛到正确的假设 归纳偏置 介绍 定义 概念学习是指从有关某个布尔函数