一、简介
接续上一节我们对无监督学习的介绍,接下来我们将对其中的两大模块展开介绍,在介绍之前会对流行数据让大家有一定的了解。
二、无监督学习
数据流形:
流形学习的目标是在保持特征特性的同时,将原来位于高维空间中的数据嵌入到低维空间中。这是可能的,因为要使任何高维数据有趣,它必须本质上是低维的。例如,人脸图像可能被表示为高维空间中的点(假设您的相机具有5MP,因此考虑到每个像素由三个值[r,g,b]组成,您的图像位于15M维空间中),但并非每张5MP图像都是一张脸。在此高维空间中,人脸位于子流形上。
子流形是局部欧几里得,即,如果您获得两个非常相似的点,例如,两个相同的双胞胎图像,它们将在欧氏空间上接近。
例如,在上面的数据集中,我们有一个高维流形,但是这些面位于一个低维空间(几乎是欧几里得)上。因此,在这个子空间上,距离之类的东西具有意义。
随着更多功能的增加,数据分布将不再是线性的,因此,更简单的线性技术(例如PCA)将无法用于降维。在这些情况下,我们需要其他东西,例如T-Sne,自动编码器等。
顺便说一下,非线性流形上的降维有时也称为流形学习。
主成分分析:
这是一种用于减少维数的工具。 这很有用,因为它可以使分类器的工作更加简便,或有助于数据可视化。
那么主要成分是什么呢? 它们是数据中的基础结构。 它们是数据差异最大的方向,数据分布最多的方向。
该算法的唯一限制是它只有在具有线性流形时才能更好地工作。PCA算法将尝试拟合最小化投影误差(所有红线尺寸之和)的平面想象一下,PCA会尝试旋转数据以寻找更多差异的角度。
如前所述,当数据具有线性数据流形时,可以使用PCA。
但是对于非线性流形,我们将有很多投影误差。
生成模型:
生成模型的思想是能够学习训练集的概率分布。 这个重要的想法可能具有以下用例:
1)超级数据集扩充系统。 (能够从原始数据创建更多数据)
2)强化学习系统,其中生成器可以作为环境的模拟器,在计划决策和推理时模拟可能的未来。
如果您能够生成数据分布,则可能捕获了潜在的因果因素。 现在,原则上,您已处于最佳位置,可以回答有关该数据的任何问题。基本上,这是通过让两个神经网络相互竞争来完成的。