前言
之前由于机器学习,人工智能,数据分析大火,为了顺应时代,于是找了几个国外的视频网站看了点相关的讲解,但由于本人英语水平有限,看起来太吃力,而且当时也没有Python的基础,听得晕头转向的。然后就买了两本书,打算进行系统性的学习。其中一本就是这本被大力推荐的西瓜书。刚拿到书,翻了一下,全是数学公式,好吧,这西瓜有点难啃,丢一边先学python。
现在python马马虎虎了,打算啃西瓜了。
引言
机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
经验就是数据,而机器学习就是让计算机从数据中产生出模型的算法,即学习算法。有了学习算法,我们就可以基于这些数据产生相应的模型。
基本术语
要进行机器学习,就先要有数据。
- 数据集(data set):记录的集合
- 示例(instance)或样本(sample):每一条记录都是关于一个事件或对象的描述
- 属性(attribute)或特征(feature):反映事件或对象在某方面的表现或性质的事项,例如色泽,根蒂
- 属性值(attribute value):属性上的取值,例如浅白
- 样本空间(sample space)或属性空间(attribute space)或输入空间:属性张成的空间。如色泽、根蒂、敲声张成的用于描述西瓜的三维空间,每个西瓜都能在这个空间找到自己的坐标位置。
- 特征向量(feature vector):空间中的每个示例
D={x1,x2,...,xm}
表示包含
m
个示例的数据集
每个示例有d个属性描述(如上面西瓜数据使用了3个属性),则每个示例
xi=(xi1;xi2;....;xid)
是
d
维样本空间X中的一个向量,
xi∈X
,其中
xij
是
xi
在第
j
个属性上的取值
- 学习(learning)或训练(training):从数据中学得模型的过程,这个过程通过执行每个学习算法来完成
- 训练数据(training data):训练过程中使用的数据
- 训练样本(training sample):训练数据中的每一个样本
- 训练集(traing set):训练样本的集合
- 假设(hypothesis):学得模型对应了关于数据的某种潜在规律
- 真相(ground-truth):数据的潜在规律
为了建立预测的模型,光有前面的示例数据是不行的,还需要得到训练样本的结果信息。
- 标记(label):示例的结果信息
- 样例(example):拥有标记信息的示例
(xi,yi)表示第
i
个样例,其中yi∈Y是示例
xi
的标记