(清风数学建模笔记)(可用python或者matlab实现)
主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,且能反映出原始数据的大部分信息。
一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可以考虑使用主成分分析的方法对数据进行简化。(用较少的新变量替换原来较多的旧变量,并且使这些较少的新变量尽可能多的保留原来变量所反映的信息)
1.数据降维的作用
降维是将高维度的数据(指标太多)保留下来最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。
在实际的生产应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间成本。
降维也成为了应用非常广泛的数据预处理方法。
2.主成分分析(PCA)的思想
(详细的证明过程需要参考教材《应用多元统计分析》——王学民)
证明过程需要一定的多元统计基础和较强的线性代数基础
3.主成分分析(PCA)计算步骤
(可以将其写在论文中)
对数据进行标准化—>计算标准化样本的协方差矩阵—>计算R的特征值和特征向量—>计算主成分贡献率以及累计贡献率——>写出主成分——>根据系数分析主成分代表的意义
4.主成分分析的应用一
通过计算特征值、特征向量以及贡献率:
写出主成分并简要分析:
5.主成分分析的应用二
6.主成分分析的应用三
7.主成分分析的说明
在主成分分析中,我们首先应该保证所提取的前几个主成分的累计贡献率达到一个比较高的水平;
其次应对这些被提取的主成分必须能够给出符合实际背景和意义的解释。
主成分的解释其含义一般带有模糊性,不像原始变量的含义那么确切、清楚,这是变量降维过程中不得不付出的代价。
主成分分析的困难之处主要在于要能够给出主成分较好的解释,所以提取的主成分中如果有一个主成分解释不了,整个主成分分析也就失败了。(主成分分析是变量降维的一个重要、常用的方法,简单的说该方法要想应用成功,一是靠原始变量的合理选取,二是靠“运气”)
数学建模中的补充:
主成分是降维算法,既然已经有数据为什么不把数据的信息全部用上?
主成分只有标准化过程,没有正向化的过程
8.主成分分析的滥用:主成分得分
在作主成分分析时,国内近年来流行一种通过建立综合评价函数来对各样品进行综合排名的方法,这种在综合评价函数中对各种主成分使用的贡献率加权是错误的。
9.主成分分析后用于聚类
10.主成分分析后用于回归