一文彻底搞懂PCA

2023-10-27

简介

PCA(Principal Component Analysis),即主成分分析,是一种基于线性代数的维归约技术,常用于数据挖掘中对数据的预处理,主要用于解决“维灾难”问题。
在阅读本文前,先介绍下文章会涉及到的一些数学理论,这些理论都是PCA技术所依赖的工具或理论基础。

  • 向量相关,如转置、内积、正交
  • 矩阵相关,如矩阵的乘法、对称矩阵及其对角化
  • 数理统计相关,如方差、协方差、相关性

PCA利用线性代数技术,将数据由高维空间投影到低维空间。通俗来讲,是从原数据中,找到新的属性(主成分),这些属性是原属性的线性组合,是相互正交的(文中会解释为何是正交的)。

约定几个符号

  • n表示数据的特征数量,一个n维向量表示一条具有n个特征的数据
  • m表示数据的数量
  • m*n表示一个具有n个特征的、m行数据的矩阵
  • 右上角大写的T表示转置

PCA的应用场景

在实际工作中,我们面对的数据具有大量的特征,但现在我们不妨以少数几个特征为例,足以展开研究。假如我们有一组房价的数据如下

面积(平方英尺) 面积(平方米) 卧室数量 浴室数量 阳台数量
1291 120 4 2 3
947 88 2 1 1

假如我们现在面临的“维灾难”问题是,我们的计算资源仅足够计算3个特征,而现在有5个特征。
必须承认,前两个表示面积的特征是线性相关的,即1 平方米=10.7639104 平方英尺。对于这种线性相关的特征,我们可以任取其一(不妨去掉第一个特征),于是5个特征还有4个。
再看后面三个特征,不难相信,通常越大的房屋面积,也将具有越多的卧室、浴室、阳台数量,但显然后三者和房屋面积不具有直接的线性关系。也就是说,我们知道这几个特征是相关,但又不是线性相关,无法简单的替换或删除。
我们应该如何做,能够从4个特征中保留3个,而不丢失信息?此时,就轮到PCA上场了。

PCA的数学原理

现在,为了由浅入深的理解PCA,不妨抛开PCA,先了解以下几个内容:

数据的向量表示

上文中的(第一行)数据,在去掉第一个特征后,通常用列向量表示为:
( 120 , 4 , 2 , 3 ) T (120,4,2,3)^T (120,4,2,3)T
这里使用了转置,主要是因为横着书写一个行向量比较方便,而行向量的转置就是列向量。
现在不妨设两个向量A、B。我们知道,两个(列)向量的内积
[ A , B ] = A T B = ( a 1 , a 2 , . . . , a n ) T ∗ ( b 1 , b 2 , . . . , b n ) = a 1 b 1 + a 2 b 2 + . . . + a n b n [A,B]=A^TB=(a_1,a_2,...,a_n)^T*(b_1,b_2,...,b_n)=a_1b_1+a_2b_2+...+a_nb_n [A,B]=ATB=(a1,a2,...,an)T(b1,b2,...,bn)=a1b1+a2b2+...+anbn
内积运算的结果为一个实数,其计算方式虽然简单,但意义并不明显。我们知道n维向量可以等价表示为n维空间中的一条从原点发射的有向线段,为了便于理解,我们不妨以二维的向量为例:
A = ( x 1 , y 1 ) , B = ( x 2 , y 2 ) A=(x_1,y_1),B=(x_2,y_2) A=(x1,y1)B=(x2,y2)
在这里插入图片描述
则[A,B]的几何直观解释是A在B上的投影乘以B的长度,几何公式为
∣ A ∣ ∗ ∣ B ∣ ∗ c o s ( a ) |A|*|B|*cos(a) ABcos(a),其中|A|表示A的模,即标量长度;代数公式为 ∣ ∣ A ∣ ∣ ∗ ∣ ∣ B ∣ ∣ ∗ c o s ( a ) ||A|| * ||B||*cos(a) ABcos(a),其中||A||为A的范数。

现在,不妨我们让向量B的模始终为1,就有
A ⋅ B = ∣ A ∣ ∗ ∣ B ∣ c o s ( a ) = = ∣ A ∣ c o s ( a ) A⋅B=|A|*|B|cos(a)==|A|cos(a) AB=ABcos(a)==Acos(a)
也就是说,设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度,后文中我们将会继续用到这个工具。

向量的基

通常我们将一个二维向量描述成从原点出发的有向线段,并且直接使用线段终点的点坐标来表示。
在这里插入图片描述

现在,我们不妨换一种理解方式,首先要引入的概念,或者说是单位向量。
在二维直角坐标系中,我们引入两个模为1的向量i(1,0)、j(0,1),这样一对特殊的向量也被成为单位向量,也就是二维空间中的一组基。
在这里插入图片描述
此时的向量,则理解成为两个方向的基的缩放,即
( 3 , − 2 ) = 3 ∗ i + ( − 2 ) ∗ j (3,-2)=3*i+(-2)*j (3,2)=3i+(2)j
在这里插入图片描述
不难证明,对任意向量(x,y),都有 ( x , y ) = x ∗ i + y ∗ j (x,y)=x*i+y*j (x,y)=xi+yj。而x、y,正是向量分别在两个基上的缩放值。
值得注意的是,例子中给出的基是正交的(即内积为0,或直观说相互垂直)单位向量,但可以成为一组基的唯一要求就是线性无关,任意长度、非正交的基也是可以的(如下图)。不过因为正交基有较好的性质,所以一般使用的基都是正交单位向量。
在这里插入图片描述
上图中的v和w同样更够表达二维空间中的任意向量,也可以作为一组基。因此,当我们将一组标量(x,y)作用到不同的基上,显然会得到不一样的向量。

基变换的矩阵表示

下面我们找一种简便的方式来表示基变换。还是拿上面的例子,想一下,将(3,2)变换为新基上的坐标,就是用(3,2)与第一个基做内积运算,作为第一个新的坐标分量,然后用(3,2)与第二个基做内积运算,作为第二个新坐标的分量。实际上,我们可以用矩阵相乘的形式简洁的表示这个变换:

( 1 / 2 1 / 2 − 1 / 2 1 / 2 ) ( 3 2 ) = ( 5 / 2 − 1 / 2 ) \begin{pmatrix}1/\sqrt{2}&1/\sqrt{2} \\-1/\sqrt{2}&1/\sqrt{2}\end{pmatrix}\begin{pmatrix}3\\2\end{pmatrix}=\begin{pmatrix} 5/\sqrt{2}\\-1/\sqrt{2}\end{pmatrix} (1/2 1/2 1/2 1/2 )(32)=(5/2 1/2 )

太漂亮了!其中矩阵的两行分别为两个基,乘以原向量,其结果刚好为新基的坐标。可以稍微推广一下,如果我们有m个二维向量,只要将二维向量按列排成一个两行m列矩阵,然后用“基矩阵”乘以这个矩阵,就得到了所有这些向量在新基下的值。例如(1,1),(2,2),(3,3),想变换到刚才那组基上,则可以这样表示:

( 1 / 2 1 / 2 − 1 / 2 1 / 2 ) ( 1 2 3 1 2 3 ) = ( 2 / 2 4 / 2 6 / 2 0 0 0 ) \begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} &1/\sqrt{2}\end{pmatrix}\begin{pmatrix} 1 & 2 & 3 \\ 1 & 2 & 3\end{pmatrix} =\begin{pmatrix} 2/\sqrt{2} & 4/\sqrt{2} & 6/\sqrt{2} \\0&0&0\end{pmatrix} (1/2 1/2 1/2 1/2 )(112233)=(2/2 04/2 06/2 0)
于是一组向量的基变换被干净的表示为矩阵的相乘。

一般的,如果我们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R个基按行组成矩阵A,然后将向量按列组成矩阵B,那么两矩阵的乘积AB就是变换结果,其中AB的第m列为A中第m列变换后的结果。

数学表示为:
( p 1 p 2 ⋮ p R ) ( a 1 a 2 ⋯ a M ) = ( p 1 a 1 p 1 a 2 ⋯ p 1 a M p 2 a 1 p 2 a 2 ⋯ p 2 a M ⋮ ⋮ ⋱ ⋮ p R a 1 p R a 2 ⋯ p R a M ) \begin{pmatrix} p_1 \\ p_2 \\ \vdots \\ p_R \end{pmatrix} \begin{pmatrix} a_1 & a_2 & \cdots & a_M\end{pmatrix}=\begin{pmatrix} p_1a_1 & p_1a_2 & \cdots & p_1a_M \\ p_2a_1 & p_2a_2 & \cdots & p_2a_M \\ \vdots & \vdots & \ddots & \vdots \\ p_Ra_1 & p_Ra_2 & \cdots & p_Ra_M \end{pmatrix} p1p2pR(a1a2aM)=p1a1p2a1pRa1p1a2p2a2pRa2p1aMp2aMpRaM

其中pi是一个行向量,表示第i个基,aj是一个列向量,表示第j个原始数据记录。

特别要注意的是,这里R可以小于N,而R决定了变换后数据的维数。也就是说,我们可以将一N维数据变换到更低维度的空间中去,变换后的维度取决于基的数量。因此这种矩阵相乘的表示也可以表示降维变换。

最后,上述分析同时给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。更抽象的说,一个矩阵可以表示一种线性变换。很多同学在学线性代数时对矩阵相乘的方法感到奇怪,但是如果明白了矩阵相乘的物理意义,其合理性就一目了然了。

协方差矩阵及优化目标

上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,而且如果基的数量少于向量本身的维数,则可以达到降维的效果。但是我们还没有回答一个最最关键的问题:如何选择基才是最优的。或者说,如果我们有一组N维向量,现在要将其降到K维(K小于N),那么我们应该如何选择K个基才能最大程度保留原有的信息?

要完全数学化这个问题非常繁杂,这里我们用一种非形式化的直观方法来看这个问题。

为了避免过于抽象的讨论,我们仍以一个具体的例子展开。假设我们的数据由五条记录组成,将它们表示成矩阵形式:

( 1 1 2 4 2 1 3 3 4 4 ) \begin{pmatrix} 1 & 1 & 2 & 4 & 2 \\ 1 & 3 & 3 & 4 & 4 \end{pmatrix} (1113234424)

其中每一列为一条数据记录,而一行为一个字段。为了后续处理方便,我们首先将每个字段内所有值都减去字段均值,其结果是将每个字段都变为均值为0(这样做的道理和好处后面会看到)。

我们看上面的数据,第一个字段均值为2,第二个字段均值为3,所以变换后:

( − 1 − 1 0 2 0 − 2 0 0 1 1 ) \begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix} (1210002101)

我们可以看下五条数据在平面直角坐标系内的样子:

在这里插入图片描述

现在问题来了:如果我们必须使用一维来表示这些数据,又希望尽量保留原始的信息,你要如何选择?

通过上一节对基变换的讨论我们知道,这个问题实际上是要在二维平面中选择一个方向,将所有数据都投影到这个方向所在直线上,用投影值表示原始记录。这是一个实际的二维降到一维的问题。

那么如何选择这个方向(或者说基)才能尽量保留最多的原始信息呢?一种直观的看法是:希望投影后的投影值尽可能分散。

以上图为例,可以看出如果向x轴投影,那么最左边的两个点会重叠在一起,中间的两个点也会重叠在一起,于是本身四个各不相同的二维点投影后只剩下两个不同的值了,这是一种严重的信息丢失,同理,如果向y轴投影最上面的两个点和分布在x轴上的两个点也会重叠。所以看来x和y轴都不是最好的投影选择。我们直观目测,如果向通过第一象限和第三象限的斜线投影,则五个点在投影后还是可以区分的。

下面,我们用数学方法表述这个问题。

方差

上文说到,我们希望投影后投影值尽可能分散,而这种分散程度,可以用数学上的方差来表述。此处,一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值,即:
V a r ( a ) = 1 m ∑ i = 1 m ( a i − μ ) 2 Var(a)=\frac{1}{m}\sum_{i=1}^m{(a_i-\mu)^2} Var(a)=m1i=1m(aiμ)2
由于上面我们已经将每个字段的均值都化为0了,因此方差可以直接用每个元素的平方和除以元素个数表示:
V a r ( a ) = 1 m ∑ i = 1 m a i 2 Var(a)=\frac{1}{m}\sum_{i=1}^m{a_i^2} Var(a)=m1i=1mai2
于是上面的问题被形式化表述为:寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大。

协方差

对于上面二维降成一维的问题来说,找到那个使得方差最大的方向就可以了。不过对于更高维,还有一个问题需要解决。考虑三维降到二维问题。与之前相同,首先我们希望找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而我们选择第二个投影方向。

如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是没有用的,因此,应该有其他约束条件。从直观上说,让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的,因为相关性意味着两个字段不是完全独立,必然存在重复表示的信息。

数学上可以用两个字段的协方差表示其相关性,由于已经让每个字段均值为0,则:

C o v ( a , b ) = 1 m ∑ i = 1 m a i b i Cov(a,b)=\frac{1}{m}\sum_{i=1}^m{a_ib_i} Cov(a,b)=m1i=1maibi
可以看到,在字段均值为0的情况下,两个字段的协方差简洁的表示为其内积除以元素数m。

当协方差为0时,表示两个字段完全独立。为了让协方差为0,我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。

至此,我们得到了降维问题的优化目标:将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最大的K个方差)。

协方差矩阵

上面我们导出了优化目标,但是这个目标似乎不能直接作为操作指南(或者说算法),因为它只说要什么,但根本没有说怎么做。所以我们要继续在数学上研究计算方案。

我们看到,最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示,仔细观察发现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。于是我们来了灵感:

假设我们只有a和b两个字段,那么我们将它们按行组成矩阵X:

X = ( a 1 a 2 ⋯ a m b 1 b 2 ⋯ b m ) X=\begin{pmatrix} a_1 & a_2 & \cdots & a_m \\ b_1 & b_2 & \cdots & b_m \end{pmatrix} X=(a1b1a2b2ambm)

然后我们用X乘以X的转置,并乘上系数1/m:

1 m X X T = ( 1 m ∑ i = 1 m a i 2 1 m ∑ i = 1 m a i b i 1 m ∑ i = 1 m a i b i 1 m ∑ i = 1 m b i 2 ) \frac{1}{m}XX^\mathsf{T}=\begin{pmatrix} \frac{1}{m}\sum_{i=1}^m{a_i^2} & \frac{1}{m}\sum_{i=1}^m{a_ib_i} \\ \frac{1}{m}\sum_{i=1}^m{a_ib_i} & \frac{1}{m}\sum_{i=1}^m{b_i^2} \end{pmatrix} m1XXT=(m1i=1mai2m1i=1maibim1i=1maibim1i=1mbi2)

奇迹出现了!这个矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a和b的协方差。两者被统一到了一个矩阵的。

根据矩阵相乘的运算法则,这个结论很容易被推广到一般情况:

设我们有m个n维数据记录,将其按列排成n乘m的矩阵X,设 C = 1 m X X T C=\frac{1}{m}XX^\mathsf{T} C=m1XXT,则C是一个对称矩阵,其对角线分别个各个字段的方差,而第i行j列和j行i列元素相同,表示i和j两个字段的协方差。

协方差矩阵对角化

根据上述推导,我们发现要达到优化目前,等价于将协方差矩阵对角化:即除对角线外的其它元素化为0,并且在对角线上将元素按大小从上到下排列,这样我们就达到了优化目的。这样说可能还不是很明晰,我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系:

设原始数据矩阵X对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为X对P做基变换后的数据。设Y的协方差矩阵为D,我们推导一下D与C的关系:

D = 1 m Y Y T = 1 m ( P X ) ( P X ) T = 1 m P X X T P T = P ( 1 m X X T ) P T = P C P T \begin{array}{l l l} D & = & \frac{1}{m}YY^\mathsf{T} \\ & = & \frac{1}{m}(PX)(PX)^\mathsf{T} \\ & = & \frac{1}{m}PXX^\mathsf{T}P^\mathsf{T} \\ & = & P(\frac{1}{m}XX^\mathsf{T})P^\mathsf{T} \\ & = & PCP^\mathsf{T} \end{array} D=====m1YYTm1(PX)(PX)Tm1PXXTPTP(m1XXT)PTPCPT

现在事情很明白了!我们要找的P不是别的,而是能让原始协方差矩阵对角化的P。换句话说,优化目标变成了寻找一个矩阵P,满足 P C P T PCP^\mathsf{T} PCPT是一个对角矩阵,并且对角元素按从大到小依次排列,那么P的前K行就是要寻找的基,用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。

至此,我们离“发明”PCA还有仅一步之遥!

现在所有焦点都聚焦在了协方差矩阵对角化问题上,有时,我们真应该感谢数学家的先行,因为矩阵对角化在线性代数领域已经属于被玩烂了的东西,所以这在数学上根本不是问题。

由上文知道,协方差矩阵C是一个是对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质:

1)实对称矩阵不同特征值对应的特征向量必然正交。

2)设特征向量λ重数为r,则必然存在r个线性无关的特征向量对应于λ,因此可以将这r个特征向量单位正交化。

由上面两条可知,一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量,设这n个特征向量为 e 1 , e 2 , ⋯ , e n e1,e2,⋯,en e1,e2,,en,我们将其按列组成矩阵:

E = ( e 1 e 2 ⋯ e n ) E=\begin{pmatrix} e_1 & e_2 & \cdots & e_n \end{pmatrix} E=(e1e2en)
则对协方差矩阵C有如下结论:

E T C E = Λ = ( λ 1 λ 2 ⋱ λ n ) E^\mathsf{T}CE=\Lambda=\begin{pmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots & \\ & & & \lambda_n \end{pmatrix} ETCE=Λ=λ1λ2λn

其中Λ为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。

以上结论不再给出严格的数学证明,对证明感兴趣的朋友可以参考线性代数书籍关于“实对称矩阵对角化”的内容。

到这里,我们发现我们已经找到了需要的矩阵P:

P = E T P=E^\mathsf{T} P=ET

P是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是C的一个特征向量。如果设P按照Λ中特征值的从大到小,将特征向量从上到下排列,则用P的前K行组成的矩阵乘以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y。

至此我们完成了整个PCA的数学原理讨论。在下面的一节,我们将给出PCA的一个实例。

算法及实例

为了巩固上面的理论,我们在这一节给出一个具体的PCA实例。

PCA算法
总结一下PCA的算法步骤:

设有m条n维数据。

1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵 C = 1 m X X T C=\frac{1}{m}XX^\mathsf{T} C=m1XXT
4)求出协方差矩阵的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P

6) Y = P X Y=PX Y=PX即为降维到k维后的数据

实例

这里以上文提到的

( − 1 − 1 0 2 0 − 2 0 0 1 1 ) \begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix} (1210002101)
为例,我们用PCA方法将这组二维数据其降到一维。

因为这个矩阵的每行已经是零均值,这里我们直接求协方差矩阵:

C = 1 5 ( − 1 − 1 0 2 0 − 2 0 0 1 1 ) ( − 1 − 2 − 1 0 0 0 2 1 0 1 ) = ( 6 5 4 5 4 5 6 5 ) C=\frac{1}{5}\begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}\begin{pmatrix} -1 & -2 \\ -1 & 0 \\ 0 & 0 \\ 2 & 1 \\ 0 & 1 \end{pmatrix}=\begin{pmatrix} \frac{6}{5} & \frac{4}{5} \\ \frac{4}{5} & \frac{6}{5} \end{pmatrix} C=51(1210002101)1102020011=(56545456)
然后求其特征值和特征向量,具体求解方法不再详述,可以参考相关资料。求解后特征值为:

λ 1 = 2 , λ 2 = 2 / 5 \lambda_1=2,\lambda_2=2/5 λ1=2,λ2=2/5
其对应的特征向量分别是:

c 1 ( 1 1 ) , c 2 ( − 1 1 ) c_1\begin{pmatrix} 1 \\ 1 \end{pmatrix},c_2\begin{pmatrix} -1 \\ 1 \end{pmatrix} c1(11),c2(11)

其中对应的特征向量分别是一个通解, c 1 c1 c1 c 2 c2 c2可取任意实数。那么标准化后的特征向量为:
( 1 / 2 1 / 2 ) , ( − 1 / 2 1 / 2 ) \begin{pmatrix} 1/\sqrt{2} \\ 1/\sqrt{2} \end{pmatrix},\begin{pmatrix} -1/\sqrt{2} \\ 1/\sqrt{2} \end{pmatrix} (1/2 1/2 ),(1/2 1/2 )
因此我们的矩阵P是:

P = ( 1 / 2 1 / 2 − 1 / 2 1 / 2 ) P=\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix} P=(1/2 1/2 1/2 1/2 )

可以验证协方差矩阵C的对角化:

P C P T = ( 1 / 2 1 / 2 − 1 / 2 1 / 2 ) ( 6 / 5 4 / 5 4 / 5 6 / 5 ) ( 1 / 2 − 1 / 2 1 / 2 1 / 2 ) = ( 2 0 0 2 / 5 ) PCP^\mathsf{T}=\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}\begin{pmatrix} 6/5 & 4/5 \\ 4/5 & 6/5 \end{pmatrix}\begin{pmatrix} 1/\sqrt{2} & -1/\sqrt{2} \\ 1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}=\begin{pmatrix} 2 & 0 \\ 0 & 2/5 \end{pmatrix} PCPT=(1/2 1/2 1/2 1/2 )(6/54/54/56/5)(1/2 1/2 1/2 1/2 )=(2002/5)

最后我们用P的第一行乘以数据矩阵,就得到了降维后的表示:

Y = ( 1 / 2 1 / 2 ) ( − 1 − 1 0 2 0 − 2 0 0 1 1 ) = ( − 3 / 2 − 1 / 2 0 3 / 2 − 1 / 2 ) Y=\begin{pmatrix} 1/\sqrt{2} & 1/\sqrt{2} \end{pmatrix}\begin{pmatrix} -1 & -1 & 0 & 2 & 0 \\ -2 & 0 & 0 & 1 & 1 \end{pmatrix}=\begin{pmatrix} -3/\sqrt{2} & -1/\sqrt{2} & 0 & 3/\sqrt{2} & -1/\sqrt{2} \end{pmatrix} Y=(1/2 1/2 )(1210002101)=(3/2 1/2 03/2 1/2 )

降维投影结果如下图:

在这里插入图片描述

进一步讨论

根据上面对PCA的数学原理的解释,我们可以了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向作为主要特征,并且在各个正交方向上将数据“离相关”,也就是让它们在不同正交方向上没有相关性。

因此,PCA也存在一些限制,例如它可以很好的解除线性相关,但是对于高阶相关性就没有办法了,对于存在高阶相关性的数据,可以考虑Kernel PCA,通过Kernel函数将非线性相关转为线性相关,关于这点就不展开讨论了。另外,PCA假设数据各主特征是分布在正交方向上,如果在非正交方向上存在几个方差较大的方向,PCA的效果就大打折扣了。

最后需要说明的是,PCA是一种无参数技术,也就是说面对同样的数据,如果不考虑清洗,谁来做结果都一样,没有主观参数的介入,所以PCA便于通用实现,但是本身无法个性化的优化。

希望这篇文章能帮助朋友们了解PCA的数学理论基础和实现原理,借此了解PCA的适用场景和限制,从而更好的使用这个算法。

记得关注我的微信公众号菜鸟想超神

注:部分内容引用其他文章或视频截图,侵删。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

一文彻底搞懂PCA 的相关文章

  • 隐私计算FATE-----离线预测

    一 说明 Fate 的模型预测有 离线预测 和 在线预测 两种方式 两者的效果是一样的 主要是使用方式 适用场景 高可用 性能等方面有很大差别 本文分享使用 Fate 基于 纵向逻辑回归 算法训练出来的模型进行离线预测实践 基于上文 隐私计
  • 使用Implement.js在JavaScript中实现接口

    在这篇博客文章中 我将介绍接口的概念以及它们在动态语言中的用法 我还将使用库Implement js将概念引入JavaScript 并向您展示如何从接口中获取一些额外的实用程序 什么是接口 Google将界面定义为 两个系统 主题 组织等相
  • c ++中的Sort函数

    简介 c 标准库里的Sort 函数是 c 自带的一种排序函数 可替换以前的冒泡排序和选择排序 1 Sort函数包含在头文件 include

随机推荐

  • mybatis 项目配置 xml文件时 报错提示(The reference to entity "useSSL" must end with the ';'

    最近在配置mybatis项目的xml配置文件的时候 出现错误提示 The reference to entity useSSL must end with the delimiter 报错行为
  • 使用pandas从mysql中导出数据

    import pandas as pd import MySQLdb handle MySQLdb connect host xxx xxx xxx xxx user root port xxxx passwd xxxxxx db xxxx
  • 区块链技术与应用实验报告(实验七)

    文章目录 区块链技术与应用实验报告 实验七 关于作者 作者介绍 一 实验目的及要求 二 实验原理简介 三 实验环境 四 实验步骤 1 运行Goland界面 2 编译Go的Hello World程序 3 实现区块的结构 4 区块组成链式结构
  • 世上最全Spring全家桶学习笔记,Spring永远的神

    前言 Spring 框架自诞生以来一直备受开发者青睐 还有人亲切的称之为 Spring 全家桶 毋庸置疑 Spring 早已成为 Java 后端开发的行业标准 许多公司选择 Spring 作为基础的开发框架 大部分Java 后端程序员在日常
  • 中国光刻机行业供需前景与十四五发展态势研究报告2022版

    中国光刻机行业供需前景与十四五发展态势研究报告2022版 HS HS HS HS HS HS HS HS HS HS HS HS 修订日期 2021年11月 搜索鸿晟信合研究院查看官网更多内容 第一章 光刻机行业相关概述 1 1 光刻机的基
  • 手写promise加载图片

    div div
  • 如何开发高质量的软件 - 通过测试集中型的软件开发方法来提高软件质量

    构建技术系统所要做的工作是非常繁重的 同时还需要专业知识 语言和协议 编码与调试 测试与重构 James Garrett 概述 每年各个企业都在努力实现企业的主要目标 通常 这都是通过实现基于度量指标的性能目标 可能包括质量目标 以及利用最
  • 八字精批API接口

    接口平台 https api yuanfenju com 开发文档 https doc yuanfenju com 支持格式 JSON 请求方式 HTTP POST
  • 【QT开发笔记-基础篇】

    本节对应的视频讲解 B 站 视 频 https www bilibili com video BV11G411x7hN Qt 中的单选按钮类是 QRadioButton 它是一个可以切换选中 checked 或未选中 unchecked 状
  • Docker基础(八)—容器卷

    什么是数据卷 数据卷 Data Volumes 是一个可供容器使用的特殊目录 它将主机操作系统目录直接映射进容器 类似于 Linux 中的 mount 行为 数据卷可以提供很多有用的特性 数据卷可以在容器之间共事和重用 容器间传递数据将变得
  • 简单版的数组实现哈希表

    package com wei mybatisflex import java util ArrayList import java util List 用数组实现哈希表 public class ArrayToHash 键值对定义 cla
  • [C++]观察者模式

    当对象间存在一对多关系时 则使用观察者模式 Observer Pattern 比如 当一个对象被修改时 则会自动通知它的依赖对象 观察者模式属于行为型模式 C 代码如下 此文件包含 main 函数 程序执行将在此处开始并结束 参考大话设计模
  • 【Xilinx】如何自动格式化Verilog代码

    开发环境Vivado VSCode Xilinx 自动格式化Verilog代码 前言 一 安装VSCode并修改Vivado的默认编辑器 二 安装Verilog插件 1 语法插件 2 格式化插件 三 演示 如何代码格式化 1 插件演示 2
  • 基于SSM框架的教务管理系统

    前言 教务管理系统是一种基于计算机技术的信息管理系统 主要用于学校 教育机构等管理教务事务 其功能包括但不限于 主要分为三类角色 管理员 教师和学生 系统管理 包括用户管理 角色管理 权限管理 通知管理等 信息管理 包括学生信息 教师信息
  • 2019秋招:460道Java后端面试高频题答案版【模块五:计算机网络】

    点击上方蓝字关注我吧 写在前面 计算机网络 计算机操作系统这两个 兄弟 是所有开发岗位都需要 结拜 的 不管你是 Java C 还是测试 对于后端开发的童鞋来说 计算机网络
  • 12-数据结构-数组、矩阵、广义表

    数组 矩阵 广义表 目录 数组 矩阵 广义表 一 数组 二 矩阵 三 广义表 一 数组 这一章节理解基本概念即可 数组要看清其实下标是多少 并且二维数组 存取数据 要先看清楚是按照行存还是按列存 按行则是正常一行一行的去读写 按列则是 从左
  • LA@相似对角化判定定理和计算方法

    文章目录 方阵相似对角化 引言 相似对角化变换矩阵的性质 构造对角化变换矩阵 方阵可对角化判定定理 推论 无重根特征值的方阵可以对角化 含重根特征值的方阵的对角化判定定理 总结 综合 对角化步骤归纳 例 特征值计算 构造相似变换阵 下结论
  • 51单片机串口通信(UART)

    项目描述 1 串口工作方式为1 8位UART 波特率可变 无校验位 2 通信数据格式为 1位起始位 8位数据位 1位停止位 3 上电后MCU给上位机发送问候语 之后等待上位机的信息 MCU和上位机的通信为收发交替进行 MCU接收到的信息会实
  • 1.k-近邻算法(KNN)

    概念 根据你的 邻居 判断你的类别 流程 KNN api 初步使用 机器学习流程 Scikit learn工具 安装 pip3 install scikit learn 0 19 1 注 需要Numpy Scipy等库的支持 Python
  • 一文彻底搞懂PCA

    一文彻底搞懂PCA 简介 约定几个符号 PCA的应用场景 PCA的数学原理 数据的向量表示 向量的基 基变换的矩阵表示 协方差矩阵及优化目标 方差 协方差 协方差矩阵 协方差矩阵对角化 算法及实例 实例 进一步讨论 简介 PCA Princ