西瓜书学习笔记——(1)绪论

2023-11-19

这里写图片描述

前言

之前由于机器学习,人工智能,数据分析大火,为了顺应时代,于是找了几个国外的视频网站看了点相关的讲解,但由于本人英语水平有限,看起来太吃力,而且当时也没有Python的基础,听得晕头转向的。然后就买了两本书,打算进行系统性的学习。其中一本就是这本被大力推荐的西瓜书。刚拿到书,翻了一下,全是数学公式,好吧,这西瓜有点难啃,丢一边先学python。

现在python马马虎虎了,打算啃西瓜了。

引言

机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

这里写图片描述

经验就是数据,而机器学习就是让计算机从数据中产生出模型的算法,即学习算法。有了学习算法,我们就可以基于这些数据产生相应的模型。

基本术语

要进行机器学习,就先要有数据。

这里写图片描述

  • 数据集(data set):记录的集合
  • 示例(instance)或样本(sample):每一条记录都是关于一个事件或对象的描述
  • 属性(attribute)或特征(feature):反映事件或对象在某方面的表现或性质的事项,例如色泽,根蒂
  • 属性值(attribute value):属性上的取值,例如浅白

这里写图片描述

  • 样本空间(sample space)或属性空间(attribute space)或输入空间:属性张成的空间。如色泽、根蒂、敲声张成的用于描述西瓜的三维空间,每个西瓜都能在这个空间找到自己的坐标位置。
  • 特征向量(feature vector):空间中的每个示例

这里写图片描述

D={x1,x2,...,xm} 表示包含 m 个示例的数据集

这里写图片描述

每个示例有d个属性描述(如上面西瓜数据使用了3个属性),则每个示例 xi=(xi1;xi2;....;xid) d 维样本空间X中的一个向量, xiX ,其中 xij xi 在第 j 个属性上的取值

这里写图片描述

  • 学习(learning)或训练(training):从数据中学得模型的过程,这个过程通过执行每个学习算法来完成
  • 训练数据(training data):训练过程中使用的数据
  • 训练样本(training sample):训练数据中的每一个样本
  • 训练集(traing set):训练样本的集合
  • 假设(hypothesis):学得模型对应了关于数据的某种潜在规律
  • 真相(ground-truth):数据的潜在规律

为了建立预测的模型,光有前面的示例数据是不行的,还需要得到训练样本的结果信息。

这里写图片描述

  • 标记(label):示例的结果信息
  • 样例(example):拥有标记信息的示例

(xi,yi)表示第 i 个样例,其中yiY是示例 xi 的标记

  • 标记空间(label space)或输出空间:所有标记的集合, Y

  • 分类(classification)学习任务:预测的是离散值,如好瓜,坏瓜

    • 二分类(binary classification)任务:任务只有两个分类,通常另Y={1,+1}
      • 正类(positive class)
      • 反类(negative class)
    • 多分类(multi-class classfication)任务:任务有多个类别, |Y|>2
    • 回归(regression)学习任务:预测的是连续值,如西瓜成熟度0.95, 9.37, Y=R,R
    • 测试(testing):学得模型后,使用其进行预测的过程
    • 测试样本(testing sample):被测试的样本
    • 这里写图片描述

      • 聚类(clustering):对训练集中的数据进行分组
      • 簇(cluster):聚类所分的组
      • 测试(testing):学得模型后,使用其进行预测的过程
      • 测试样本(testing sample):被测试的样本
      • 监督学习(supervised learning):训练数据拥有标记信息的学习任务,回归、分类
      • 无监督学习(unsupervised learning):训练数据无标记信息的学习任务,聚类
      • 泛化(generalization):学得模型适用于新样本的能力

      假设空间

      • 归纳(induction):从特殊到一般的泛化过程,即从具体的事实归结出一般性规律
      • 演绎(deduction):从一般到特殊的特化过程,即从基础原理推演出具体状况

      我们可以把学习过程看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的瓜正确判断正确的假设。假设的表示一旦确定,假设空间极其规模大小就确定了。

      显示问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合,我们称之为版本空间(version space)。

      归纳偏好

      归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必须有其归纳偏好,否则它将被假设空间中刊社在训练集上等效的假设所迷惑,而无法产生确定的学习结果。

      归纳偏好可看作是学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。

      奥卡姆剃刀(Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。

      无论学习算法 La 多聪明、学习算法 Lb 多笨拙,他们的期望性能相同。

      学习算法自身的归纳偏好与问题是否相配,往往会起到决定性作用。

      发展历程

      机器学习是人工智能研究发展到一定阶段的必然产物。

      年代 时期 理论 代表作
      1950~1970 推理期 赋予机器逻辑推理能力,机器就具有智能 “逻辑理论家”程序
      1970 知识期 要使机器具有智能,就必须设法使机器拥有知识 知识工程
      1980 学习期 机器自己学习知识 归纳逻辑程序设计(ILP)

      机器学习分类:

      • 从样例中学习
      • 在问题求解和规划中学习
      • 通过观察和发现学习
      • 从指令中学习

      从样例中学习主流:

      • 符号主义学习
        • 决策树:以信息论为基础,以信息熵的最小化为目标,直接模拟了人类对概念进行判定的树形流程。
        • 基于逻辑的学习:著名代表是归纳逻辑程序设计(ILP),可看做机器学习与逻辑程序设计的交叉,它使用一阶逻辑(谓词逻辑)来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。
      • 基于神经网络的连接主义学习
        • 深度学习,狭义的说就是“很多层”的神经网络
      • 统计学习
        • 支持向量机(Support Vector Machine,简称SVM)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

西瓜书学习笔记——(1)绪论 的相关文章

  • stream流常用

    从一个List中获得每个object的对象的id组成一个list List
  • 卓越性能代码_「Win」被隐藏起来的卓越性能模式,为何不想让人发现?

    前言 众所周知 电脑电源管理中包含三大模式 分别是 节能模式 平衡模式 高性能模式 其对电脑的性能影响还是比较大的 但是今天所说的 卓越性能模式 应该很多人都没听说过 又是何方神圣 其为何要隐藏起来不想被人发现 如何开启 卓越性能 模式 右
  • LLaMA微调记录

    本文基于开源代码https github com Lightning AI lit llama tree main执行微调 其他参考链接 Accelerating LLaMA with Fabric A Comprehensive Guid

随机推荐

  • 实验二:使用KMP算法实现字符串的匹配

    1 实验目的 熟练的掌握数据结构中串这种数据类型 学会使用相较于朴素的模式识别算法更加先进的KMP算法进行识别和匹配 同时 在数据结构试验之中熟悉和了解串的性质和使用方法 2 实验要求 输入 通过命令行参数输入原字符串和模式字符串 输出 1
  • 全排列问题

    问题描述 给定一个由不同的小写字母组成的字符串 输出这个字符串的所有全排列 我们假设对于小写字母有 a lt b lt lt y lt z 而且给定的字符串中的字母已经按照从小到大的顺序排列 输入 输入只有一行 是一个由不同的小写字母组成的
  • 超详细Vue Devtools的下载和安装——Vue的调试工具

    在使用 Vue 时 我们推荐在浏览器上安装 Vue Devtools Vue Devtools 是 Vue 官方发布的调试浏览器插件 可以安装在 Chrome 和 Firefox 等浏览器上 直接内嵌在开发者工具中 使用体验流畅 Vue D
  • 哪些行业是离散制造?哪些是流程制造?他们有什么区别?

    一 离散制造业 定义 产品往往由多个零件经过一系列并不连续的工序的加工最终装配而成 典型的离散制造行业主要包括机械制造 电子电器 航空制造 汽车制造等行业 大批量生产 如 汽车 多品种小批次 如 航空 95 企业属于多品种小批次 客户需求多
  • C# .NET万能数据库访问封装类(ACCESS、SQLServer、Oracle)

    在app config文件中写上数据库中连接信息
  • 2023年华为笔试面试机考真题100道(C/C++语言)

    1 字符串比较 给定字符串A B和正整数V A的长度与B的长度相等 请计算A中满足如下条件的最大连续子串的长度 1 该连续子串在A和B中的位置和长度均相等 2 该连续子串 A i B i 之和小于等于V 其中 A i B i 表示两个字母A
  • CTF BugKu平台——Crypto篇刷题记录(后续更新)

    CTF BugKu平台 Crypto篇 前言 抄错的字符 聪明的小羊 ok lt gt 把猪困在猪圈里 你喜欢下棋吗 小山丘的秘密 EN 气泡 你以为是md5吗 Math English easy crypto 黄道十二官 一段新闻 7 1
  • FPGA project : water_led

    module water led parameter MAX CNT 25 d25 000 000 input wire sys clk input wire sys rst n output wire 03 00 led signal r
  • “getaddrinfo failed: 在数据库查找中出现一个不可恢复的错误”的解决方法

    原因是winsock损坏了 使用命令 netsh winsock reset 然后重启即可修复 参考资料 http support microsoft com kb 811259
  • 正大国际:正确的交易与趋势无关只与系统的入场信号有关对吗?

    趋势的方向根本就和你的成功无任何关联 什么看外盘 听消息 问专家 这些除了使自己更加焦虑以外 对我们的成功交易没有丝毫的帮助 只要系统显示的是做空信号 哪怕全世界的人都看多 我们也只能做空 严格的按照系统操作才能保证亏损最小化 利润最大化
  • pip命令-Fatal error in launcher: Unable to create process using ...迁移虚拟环境后出错如何解决?

    目录 一 背景 二 解决问题日志 搜索历程 三 因迁移环境造成的该异常 之解决思路 一 背景 python版本3 8 因为作者刚开始学python时不懂虚拟环境 所以将虚拟环境安装在了一个临时文件夹中 现在 我想要把这个已经下载了大量包库的
  • python 爬虫 报错 求救

    raise JSONDecodeError Expecting value s err value from None json decoder JSONDecodeError Expecting value line 1 column 1
  • window server 2019环境下将nginx配置为开机自启动服务

    公司window服务器上面有个nginx在跑 重启服务器后没有自动启动 需要手动运行nginx 如果是非正常重启业务可能就中断了1 下载WinSW window service wraper 地址 https github com kohs
  • MATLAB实现函数拟合

    目录 一 理论知识 1 拟合与插值的区别 2 几何意义 3 误差分析 二 操作实现 1 数据准备 2 使用cftool 拟合工具箱 三 函数拟合典例 四 代码扩展 一 理论知识 1 拟合与插值的区别 通俗的说 插值的本质是根据现有离散点的信
  • Unity 动画系统 Animation 和 Animator 联系与区别

    返回目录 引言 在unity的老版本中我们只有Animation组件 在4 6版本以后则增添了Animator组件 如果只是控制一个动画的播放我们则用Animaton组件 如果是很多动画之间相互转换则使用Animator组件 它们两者的区别
  • 传统优化算法VS智能优化算法

    传统优化算法VS智能优化算法 传统优化算法优点 传统优化算法缺点 遗传算法的优点 遗传算法的缺点 特点的比较 传统优化算法优点 1 利用了解空间的特性 如可微等 2 理论较为完善 计算量小 3 收敛速度快 4 具有确定的终止准则 传统优化算
  • 高德地图逆地理编码Geocoder的getlocation获取不到位置信息

    问题 原生定位接口定位失败 则status返回error事件或回调error信息 获取不到位置信息 产生原因 逆编码方法使用不了原因是使用的高德地图的应用方向web服务 而Geocoder属于web端 var geocoder new AM
  • CATCTF wife原型链污染

    CATCTF wife原型链污染 原型链污染原理 https drun1baby github io 2022 12 29 JavaScript E5 8E 9F E5 9E 8B E9 93 BE E6 B1 A1 E6 9F 93 如下
  • Java-API简析_java.net.Inet4Address类(基于 Latest JDK)(浅析源码)

    版权声明 未经博主同意 谢绝转载 请尊重原创 博主保留追究权 https blog csdn net m0 69908381 article details 132643590 出自 进步 于辰的博客 因为我发现目前 我对Java API的
  • 西瓜书学习笔记——(1)绪论

    前言 之前由于机器学习 人工智能 数据分析大火 为了顺应时代 于是找了几个国外的视频网站看了点相关的讲解 但由于本人英语水平有限 看起来太吃力 而且当时也没有Python的基础 听得晕头转向的 然后就买了两本书 打算进行系统性的学习 其中一