我知道特征选择可以帮助我删除贡献度较低的特征。我知道 PCA 有助于将可能相关的特征减少为一个,从而减少维度。我知道标准化会将特征转换为相同的尺度。
但这三个步骤有推荐的顺序吗?从逻辑上讲,我认为我应该首先通过特征选择来剔除不好的特征,然后对它们进行归一化,最后使用PCA来降低维度,使特征尽可能相互独立。
这个逻辑正确吗?
额外问题 - 还有什么事情要做(预处理或转换)
在将特征输入估计器之前?
如果我正在做某种分类器,我个人会使用这个顺序
- 正常化
- PCA
- 特征选择
标准化:您将首先进行标准化以使数据处于合理的范围内。如果你有数据 (x,y) 和范围x is from -1000 to +1000
and y is from -1 to +1
您可以看到任何距离度量都会自动表明 y 的变化不如 X 的变化显着。我们还不知道情况是否如此。所以我们想要标准化我们的数据。
PCA:使用数据的特征值分解来查找描述数据点方差的正交基集。如果您有 4 个特征,PCA 可以向您展示只有 2 个特征真正区分数据点,这使我们进入最后一步
特征选择:一旦有了可以更好地描述数据的坐标空间,您就可以选择哪些特征是显着的。通常,您会使用 PCA 中的最大特征值 (EV) 及其相应的特征向量来表示。由于较大的 EV 意味着该数据方向上存在更大的方差,因此您可以在隔离特征时获得更精细的粒度。这是减少问题维度的好方法。
当然,这可能会因问题而异,但这只是一个通用指南。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)