数据降维之因子分析

2023-05-16

之前学习的时候大略看了一下,不记得什么,重新学习学习

因子分析(factor analysis

是主成分分析的推广和发展,与主成分分析 一样,它也是一种”降维”的统计分析方法。是一种用来分析隐藏在表面现象背后的因子作用的一类统计模型。

因子分析是研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的关系。

因子分析的主要应用有两个方面:一是寻求基本结构,简化观测系统, 将具有错综复杂关系的对象(变量或样本)综合为少数几个因子(不 可观测的随机变量),以再现因子与原始变量之间的内在联系;二是 用于分类,对于p个变量或n个样本进行分类

因子分析根据研究对象的不同可以分为R型和Q型因子分析。

R型因子分析研究变量(指标)之间的相关关系,通过对变量的相关阵或 协方差阵内部结构的研究,找出控制所有变量的几个公共因子(或称主 因子、潜在因子),用以对变量或样本进行分类。

Q型因子分析研究样本之间的相关关系,通过对样本的相似矩阵内部结

构的研究找出控制样本的几个主要因素(或称为主因子)。

这两种因子分析的处理方法是一样的,只是出发点不同。R型从变量的

相关阵出发,Q型从样本的相似矩阵出发。

因子的特点:

1) 因子变量的数量远远少于原始变量的个数;

2) 因子变量并非原始变量的取舍,而是一种新的综合;

3) 因子变量之间没有线性关系;

4) 因子变量具有明确的解释性,可以最大限度地发挥专业分析的作用。

因子分析就是以最小的信息损失,将众多的原始变量浓缩成为少数几个

因子变量,使得变量具有更高的可解释性的一种数据缩减方法。

因子分析的核心问题有两个:一是如何构造因子变量,二是如何对因子 变量进行命名解释。

因子分析常常有以下四个基本步骤:

1) 确定待分析的原变量是否适合做因子分析。

2) 构造因子变量。

3) 利用旋转方法使因子变量更具有可解释性。

4) 计算因子变量得分。

 

1) 将原始数据标准化,以消除变量间在数量级和量纲上的不同。

2) 求标准化数据的相关矩阵。

3) 求相关矩阵的特征值和特征向量。

4) 计算方差贡献率与累积方差贡献率。

5) 确定因子:设F1、F2、…,Fp为p个因子,其中前m个因子包含的数据信 息总量(即其累积贡献率)不低于80%,可取前m个因子来反映原评价指标。

6) 因子旋转:若所得的m个因子无法确定或其实际意义不是很明显,这时

需要因子进行旋转以获得较为明显的实际含义。

7) 用原指标的线性组合来求各因子得分:采用回归估计法、Bartlett估计法

计算因子得分。

8) 综合得分:以各因子的方差贡献率为权,由各因子的线性组合得到综合

评价指标函数:

9) 得分排序:利用综合得分可以得到得分名次。

R中自带的因子分析函factanal()用极似然计方估计子载,适

用于大样本量的数据分,其用格

factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA, subset, na.action, start = NULL, scores = c("none", "regression", "Bartlett"), rotation = "varimax", control = NULL, ...)

x是公式或用于因子析的据,以是(为一)或数框; factors要生的因个数data定数集;x公式使用; covmat是样本协方矩阵相关数矩,使这个x忽略; scores表示计子得分的方rotation因子转的法,认 为”varimax方差大旋

例:洛杉矶街区数据(LA.Neighborhoods.csv),这美国局2000年的数据。一共有110个街区,15量。

 

w=read.csv("LA.Neighborhoods.csv") #读入数据 
w$density=w$Population/w$Area	#增加人口密度变量
u=w[,-c(12:15)] #去掉人口、面积、经纬度变量
(a=factanal(factors=2,scale(u[,-1]),scores="regression"))

plot(a$scores[,1:2],type="n",ylim=c(-2,1.5),xlim=c(-2.5,2.5),
xlab="Factor 1",ylab="Factor 2",main="Factor Scores")
abline(h=0);abline(v=0)
text(a$scores[,1],a$scores[,2],labels=u[,1],cex=0.7)

 

因子得分图各个点是用街区名字代表的, 从图中可以看出各种街区所在的位置, 也可以识别一些特别突出的街区。

对应分析把R型因子分析和Q型因分析一起,通R型因分析直 接得到Q型因子分析的结果,同把变(指标)和样反映相同 标轴(因子)的一张图上,以此来明变(指标)与样品之间关系。

对应分析应用于分类变量而不是连变量传统义上用于联表, 但由于其实描述的,其表格也以应用所有数都应该非负的, 并且行和列是平等的。

眼睛和头发颜色数据(caith.txt) 该数据是关于苏格兰Caithness方人 的眼睛颜色(变量eye)和头发(量hair)的列表。地引关注是 因为那里混居着北欧日耳曼(Nordic)尔特(Celtic)盎格鲁撒拉 逊人(Anglo-Saxon)

数据见下表:

library(MASS)

v=caith	#数据来源
colnames(v)=paste(colnames(v),"hair") rownames(v)=paste(rownames(v),"eye") (cc=corresp(v,nf=2)) #对应分析集结果输出

 

 

输出的是典型相关系 数,行计分和列计分

颜色深的眼睛和颜色深头发近,之亦

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据降维之因子分析 的相关文章

随机推荐