摘抄文章:打破“维度的诅咒”,机器学习降维大法好
为什么数据需要降维
机器模型用来帮忙预测一个目标变量,但是不一定输入图像的每一个特征都对应目标变量,这会使模型变得复杂。
这里所说的降维的纬度,就是图像的特征,对于图像分类模型来说,一个像素点就是一个特征
降维技术
1 特征选择
实用python的 scikit-learn库,使用散点图和热图来可视化不同特征的协方差,如果有高度相同的特征,就只留一个。
你可能会发现,在你的数据集的25个特征中,有7个对目标变量的影响占到了95%。所以能够删除18个特征,使机器学习模型变得更简单,而不会对模型的准确性产生太大影响。
2 投影技术
投影技术也被称为特征提取
这是在没有办法删除特征的时候使用的技术
这个技术现在也是看得似懂非懂
这是一堆围绕三维焦点的像“瑞士卷”的数据点集,可以采”用局部线性嵌入”(LLE)的方法来降维,降维完如下所示
这样就可以使用最简单的机器学习算法(线性回归)建模。
还可以使用主成分分析PCA来降维
投影技术存在两个缺点:
-
一旦你开发了投影技术,就必须先将新数据点转换到低维空间,然后再通过机器学习模型运行它们。但如果这个预处理步骤的成本太大,最后模型的收益太小的话,可能不太值。
-
转换后的数据点可能不能直接代表其原始特征,如果将它们再转换回原始空间可能很麻烦,某些情况下也不太可行,因此这可能会很难解释模型的推论。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)