1、监督学习(supervised learning)
训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签,即生成合适的函数将输入映射到输出。
2、无监督学习(unsupervised learning)
训练样本的标记信息未知,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering)
3、半监督学习(Semi-Supervised learning,SSL)
训练集同时包含有标记样本数据和未标记样本数据,不需要人工干预,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。
3.1、自训练模型(纯半监督学习和直推学习的区别)
纯半监督学习与直推学习主要的区别在于学习后要取得好的泛化能力的范围不同。
对其进行数学化,假设我们有如下的数据集:其中训练集为X1+X2,其中X1是已标记的训练数据,而X2是未标记的训练数据,Xtesxt是未知的测试集,对于归纳学习而言,是可以在训练数据中进行学习,然后对Xtesxt进行测试的,而对于直推学习而言,是不能够在Xtesxt中进行测试,也就是只能在训练数据中使得在训练数据中的泛化能力达到最大,却不具有迁移的能力。
在直推学习中,知道测试数据是什么,也就是训练数据中的未标注的数据是最终用于测试的数据,学习的目的是在这些数据中取得最佳的泛化能力。在归纳学习中,不清楚自己的测试数据是什么,是具有可替换性的。
4、主动学习(active learning)
学习器能够主动选择包含信息量大的未标注的样例并将其交由专家进行标注,然后置入训练集进行训练,从而在训练集较小的情况下获得较高的分类正确率,这样可以有效的降低构建高性能分类器的代价。
学习器能够主动的提出一些标注请求,将一些经过筛选的数据交给专家进行标注。这个过程中最重要的是如何筛选数据进行标注。
4.1、主动学习的模型如下:
A=(C,Q,S,L,U)
其中C指的是一个或者多个分类器,Q指的是一些查询函数,也就是一些查询算法,S指的是监督者,通常指的是专家,L是少量标记的样本,U指的是大量未被标记的额样本。学习者利用少量标记的样本L,通过一些基本的机器学习算法学习一个或者多个机器学习模型C,然后通过查询算法,按照查询算法查询出一批最有用的样本,交给专家,让专家进行标记,最后将新学到的标记数据加入到少量样本中,继续训练模型。一直循环,直到达到一个准则为止。流程如下所示:
4.2、主动学习与半监督学习的联系
二者都利用到了未标注的数据和已标注的数据,然后提高学习能力。只是二者的学习思想不同。
4.3、主动学习与半监督学习的区别
主动学习,在利用未标注数据的时候,是从未标注数据中找到最容易判断错误的样例来交由专家进行标注,这个过程是一个筛选差数据的过程,也是一个互动交互的过程,引入了额外的专家的知识。
半监督学习,尤其是对于自学习模型,对于未标注数据而言,是选择最不容易判断错误的样例来加入到已标注数据中,这个过程,是一个自动的过程,是筛选最好的数据的过程,然后不需要互动,不需要人工干预,基于自身对于未标记数据加以利用,来提高学习模型的泛化性能。