典型相关分析（CCA）

2023-05-16

CCA是数据挖掘中重要的算法，可以挖掘出数据间的关联关系的算法。

基础知识

如何衡量两个变量之间的相关性呢？我们有相关系数，如下所示：

$\rho(X, Y) = \frac{cov(X,Y)}{\sqrt{DX}\sqrt{DY}}$

值 $\rho(X, Y)$ 的绝对值越接近1，说明X与Y的线性相关性越高

值 $\rho(X, Y)$ 的绝对值越接近0，说明X与Y的线性相关性越低

算法思想

CCA将多维数据 $X,Y$ 利用线性变换投影为1维的数据 $X',Y'$ ，然后计算 $X',Y'$ 的相关系数，进而得到二者的相关性。

那么我们的投影标准就是：

投影后，两组数据的相关系数最大。（这样我们就能挖掘出最相关的特征了。）

算法推导

假设投影向量分别为 $a,b$ , 则投影后的数据为：

$X' = a^TX ,Y' = b^TY$

则：

$arg_{a,b} max \rho (X',Y') = arg_{a,b} max \frac{cov(x', Y')}{\sqrt{DX'}\sqrt{DY'}}$

假设我们的原始数据是标准化的，即均值为0，方差为1，则：

$cov(X',Y') = cov(a^TX,b^TY) = a^TE(XY^T)b$

$DX' = D(a^TX) = a^TDXa = a^TE(XX^T)a$

$DY' = D(a^TY) = a^TDYa = a^TE(YY^T)a$

因为均值为0，有：

$DX = E(XX^T) , DY = E(YY^T)$

$cov(X,Y) = E(XY^T) , cov(Y,X) = E(YX^T)$

令 $S_{XY} = cov(X,Y)$

我们的问题就转化为：

$arg_{a,b} max \rho (X',Y') = arg_{a,b} max \frac{a^TS_{XY}b}{\sqrt{a^TS_{XX}a}\sqrt{b^TS_{YY}b}}$

问题转化为：

$arg_{a,b} max \rho (X',Y') = arg_{a,b} max \ a^TS_{XY}b$

$s.t. a^TS_{XX}a=1 , b^TS_{YY}b =1$

则根据拉格朗日乘子法，有：

$J(a,b) = a^TS_{XY}b - \lambda_0(a^TS_{XX}a - 1) - \lambda_1(b^TS_{YY}b - 1)$

求导有：

$S_{XY}b = \lambda_0 S_{XX}a$

$S_{YX}a = \lambda_1 S_{YY}b$

所以有：

$a^TS_{XY}b = \lambda_0 a^TS_{XX}a = \lambda_0$

$b^TS_{YX}a = \lambda_1 b^TS_{YY}b = \lambda_1$

所以有：

$\lambda_0 = \lambda_1^T = \lambda_1 = a^TS_{XY}b = \lambda$

可以推出：

$S_{XX}^{-1}S_{XY}b = \lambda a$

$S_{YY}^{-1}S_{YX}a = \lambda b$

因此有：

$S_{XX}^{-1}S_{XY}S_{YY}^{-1}S_{YX}a = \lambda^2 a$

对上面的式子进行特征值分解，那么特征值的平方根的最大值的特征向量就是我们求得的向量a

同理可以求得向量b

$S_{YY}^{-1}S_{YX}S_{XX}^{-1}S_{XY}b = \lambda^2 b$

基于SVD的推导

其实算法也可以通过svd分解的算法求得，如下所示：

$arg_{a,b} max \rho (X',Y') = arg_{a,b} max \ a^TS_{XY}b$

$s.t. a^TS_{XX}a=1 , b^TS_{YY}b =1$

令：

$a=S_{XX}^{-\frac{1}{2}} \mu, b=S_{YY}^{-\frac{1}{2}} v$

则问题转化为：

$arg_{a,b} max \rho (X',Y') = arg_{a,b} max \ \mu^TS_{XX}^{-\frac{1}{2}} S_{XY}TS_{YY}^{-\frac{1}{2}}v$

$s.t. \ \mu^T \mu=1 , v^Tv =1$

这里 $\mu, v$ 都是单位正交基。

令：

$M = S_{XX}^{-\frac{1}{2}} S_{XY}TS_{YY}^{-\frac{1}{2}}$

对M进行奇异值分解,有：

$M =U \Sigma V^T$

因此有：

$\mu^TMv = \mu^T U \Sigma V^T v = \sigma_{\mu v}$

因为 $U, V$ 都是单位正交基矩阵，且 $\mu, v$ 都是单位正交基。

所以有 $\mu^TU, V^Tv$ 是只有一个标量值为1，其他值为0的向量。

所以 $\sigma_{\mu v}$ 只要是最大的奇异值即可。

因此问题转换为对 $M = S_{XX}^{-\frac{1}{2}} S_{XY}TS_{YY}^{-\frac{1}{2}}$ 做奇异值分解，得到 $U, V$ ，进而得到 $\mu, v$

进而得到：

$a=S_{XX}^{-\frac{1}{2}} \mu$

$b=S_{YY}^{-\frac{1}{2}} v$

后记

我们看到CCA可以用作分析向量的相关性，一定意义上，也可以用作降维。

但是CCA最重要的一个应用还是特征融合，即根据两组特征找到相关性最大的特征，这样可以利用较好的特征来从较差的特征中进行进一步的特征抽取，提高分类效果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)