如何理解协方差矩阵（散布矩阵）

2023-10-27

这学期开了模式识别的学习课程，经常提到概率论与数理统计的一个概念：协方差矩阵（在模式识别中又叫散布矩阵）。理解这个矩阵严格意义上来说其实不需要太多先导知识，我们只需要了解一些线性代数基本的概念。但是你如果不了解协方差矩阵，听模式识别的课程就会云里雾里（就像我一样）。

那么在学习协方差矩阵之前

首先你需要知道一些统计学的基本概念

1.均值：

在这里插入图片描述

2.样本标准差：

[公式]

均值很好理解，是描述样本集合中的中间点，是所有信息的平均。而标准差描述的是一种散布度，比如[0,10,11]和[6,7,8]的均值是一样的都是7，但是很明显[0,10,11]看起来会更加分散一点，这就是散布程度更大一点。

这里从我的角度提一嘴为什么样本标准差中的分母是 x − 1 x-1 x−1 。我们知道 x ˉ \bar{x} xˉ是样本中的均值，均值反映的信息和样本整体有关，也就是和样本中的每个值都有关系，因此其实我们可以把均值理解为包含样本中n种信息，而 x i x_i xi这个值本身表示样本中的一个信息（这个应该很好理解），那么 x i − x ˉ x_i - \bar{x} xi−xˉ就可以理解为包含 n − 1 n-1 n−1 种信息，那么对于方差来说，这就达到了估计的目的，这也被称为样本的无偏估计。而如果分母为 n n n 的话，很明显就变成了样本的有偏估计。

这个理解方式的启发其实是机器学习中的卷积层，卷积层这一层的作用就是将图像信息压缩：图像经过卷积以后，虽然经过降维，但是图像包含的信息仍然是原有经过降维处理后信息。

下面对于协方差的理解引用了部分其他博主的理解，我觉得理解起来相对会轻松一点

协方差可以说是在标准差的基础上延申出来的，我们面对多维数据，无法用一个固定的值描述样本的离散程度，协方差就是度量两个随机变量关系的统计量。

首先我们看方差的定义：
在这里插入图片描述

这是度量单维度偏离均值程度的式子，接着就是协方差：

[公式]

可以看出来，协方差矩阵可以写成对于每一维来说的方差，只不过是以矩阵形式写出来的方差，举一个三维的最简单的例子

[公式]

从这个例子可以看出来，首先 cov ⁡ ( x ) \operatorname{cov}(x) cov(x) 代表在 x x x 变量中的方差，可以看作是 var ⁡ ( X ) = ∑ i = 1 n ( X i − X ˉ ) ∗ ( X i − X ˉ ) n − 1 \operatorname{var}(X)=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right) *\left(X_{i}-\bar{X}\right)}{n-1} var(X)=n−1∑i=1n(Xi−Xˉ)∗(Xi−Xˉ)单独的样本方差，而更重要的是 cov ⁡ ( x , y ) \operatorname{cov}(x,y) cov(x,y) 表示 cov ⁡ ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ∗ ( Y i − Y ˉ ) n − 1 \operatorname{cov}(X, Y)=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right) *\left(Y_{i}-\bar{Y}\right)}{n-1} cov(X,Y)=n−1∑i=1n(Xi−Xˉ)∗(Yi−Yˉ)，这样以此类推。从这种定义角度可以发现，这就是多维变量之间的完全图关系，而这种关系从某种意义上来说就是他们的互相之间的离散程度，但更准确的说是相关系数。如果这种结果为正值就说明他们是正相关的，结果为负值说明他们之间是负相关的。

在这里，也给出协方差矩阵的计算方式：先让样本矩阵中心化，即每一维度减去该维度的均值得到矩阵 X X X ，使每一维度上的均值为0，直接用矩阵 X X X 乘上它的转置 X T X^T XT ，然后除以 n − 1 n-1 n−1 即可。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

数学