典型相关分析（canonical correlation analysis，CCA）

一、什么是典型相关分析通常情况下，为了研究两组变量{X=(x1,x2,⋯ ,xp)Y=(y1,y2,⋯ ,yq)\left\{ \begin{array}{l}X=\left( x_1,x_2,\cdots ,x_p \right)\\\\Y=\left( y_1,y_2,\cdots ,y_q \right)\\\end{array} \right.⎩⎨⎧X=(x1,...

卖山楂啦prss

16978人浏览 · 2020-05-07 10:44:57

卖山楂啦prss · 2020-05-07 10:44:57 发布

一、什么是典型相关分析

通常情况下，为了研究两组变量
$\left\{ \begin{array}{l} X=\left( x_1,x_2,\cdots ,x_p \right)\\ \\ Y=\left( y_1,y_2,\cdots ,y_q \right)\\ \end{array} \right.$

的相关关系，可以用最原始的方法，分别计算两组变量之间的全部相关系数，一共有 $p\times q$ 个简单相关系数，这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想，分别找出两组变量的各自的某个线性组合，讨论线性组合之间的相关关系，则更简捷。

因此，典型相关分析是分析两组变量之间的相关性的一种统计方法，它包含了简单的Pearson相关分析（两组均只含一个变量）和复相关（一组只含一个变量，另一个组含多个变量）这两种特殊情况。

典型相关分析的基本思想和主成分分析的基本思想相似，它将一组变量与另一组变量之间单变量的多重线性相关性研究，转换为少数几对综合变量之间的简单线性相关性的研究，并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

二、典型相关分析的思想

假设所研究的两组变量为X组和Y组，其中X组有p个变量
$X=\left( x_1,x_2,\cdots ,x_p \right)$
Y组有q个变量

$\begin{array}{l} Y=\left( y_1,y_2,\cdots ,y_q \right)\\ \end{array}$

则分别对这两组变量做线性组合后，再计算它们的加权和的简单相关系数，以这个简单相关系数当做这两组变量之间相关性的度量指标，即

$\left\{ \begin{array}{l} u=a_1x_1+a_2x_2+\cdots +a_px_p\\ \\ v=b_1y_1+b_2y_2+\cdots +b_qy_q\\ \end{array} \right.$

其中，u 和 v 分别是由 x 变量和 y 变量的线性组合产生的综合逐步变量。显然，对任意的一组系数 $\left( a_1,a_2,\cdots ,a_p \right) \text{,}\left( b_1,b_2,\cdots ,b_q \right)$ ，都可以通过上式求出一对典型变量 u 和 v，在典型相关分析中称之为典型变量。进而可以求出典型变量 u 和 v 的简单相关系数，称之为典型相关系数。

那么，问题来了，怎么进行组合呢？

首先，分别在每组变量中找出第一对线性组合

$\left\{ \begin{array}{l} u_1=a_{11}x_1+a_{21}x_2+\cdots +a_{p1}x_p\\ \\ v_1=b_{11}y_1+b_{21}y_2+\cdots +b_{q1}y_q\\ \end{array} \right.$

使其具有最大相关性，即使得对应的典型变量 $u_1$ 和 $v_1$ 的相关系数为最大。假设这个最大的相关系数是 $p_1=p\left( u_1,v_1 \right)$
则称 $p_1$ 为第1典型相关系数，且称具有最大相关系数的这对典型变量 $u_1$ 和 $v_1$ 为第1典型变量。

然后再次估计组合系数，在每组变量中找出第二对线性组合，使其分别与本组内的第一线性组合不相关，第二对本身具有次大的相关性
$\left\{ \begin{array}{l} u_2=a_{12}x_1+a_{22}x_2+\cdots +a_{p2}x_p\\ \\ v_2=b_{12}y_1+b_{22}y_2+\cdots +b_{q2}y_q\\ \end{array} \right.$

假设这个次大的相关系数是 $p_2=p\left( u_2,v_2 \right)$
则称 $p_2$ 为第2典型相关系数，且称这对典型变量 $u_2$ 和 $v_2$ 为第2典型变量。

其中， $u_2$ 和 $v_2$ 与 $u_1$ 和 $v_1$ 相互独立，但 $u_2$ 和 $v_2$ 相关。如此继续下去，直至进行到 r 步，两组变量的相关性被提取完为止。
$r\le min\left( p,q \right)$
可以得到 r 组变量。

从上述分析的过程可以看出，第1对典型变量的第1典型相关系数 $p_1$ 描述了两个组中变量之间的相关程度，且它提取的有关这两组变量相关性的信息景最多。

第2对典型变量的第2典型相关系数 $p_2$ 也描述了两个组中变量之间的相关程度，但它提取的有关这两组变量相关性的信总量次多。

依次类推，可以得知，由上述方法得到的一系列典型变量的典型相关系数，所包含的有关原变量组之间相关程度的信息一个比一个少，如果少数几对典型变量就能够解释原数据的主要信息，特别是如果一对典型变量就能够反映出原数据的主要信息，那么，对两个变量组之间相关程度的分析就可以转化为对少数几对或者是一对典型变量的简单相关分析，这就是典型相关分析的主要目的。

三、典型相关分析的理论以及基本假设

考虑两组变量的向量
$\left\{ \begin{array}{l} x=\left( x_1,x_2,\cdots ,x_p \right) ^T\\ \\ y=\left( y_1,y_2,\cdots ,y_q \right) ^T\\ \end{array} \right.$

典型相关分析就是寻找 x 组的线性组合 $u_1=a_{11}x_1+a_{21}x_2+\cdots +a_{p1}x_p$
与 y 组的线性组合 $v_1=b_{11}y_1+b_{21}y_2+\cdots +b_{q1}y_q$ ，使得 $u_1$ 和 $v_1$ 之间的简单相关系数为最大，其中

$a_1=\left\{ \begin{array}{l} \begin{array}{c} a_{11}\\ a_{12}\\ \end{array}\\ \begin{array}{c} \vdots\\ a_{1p}\\ \end{array}\\ \end{array} \right. \ \ \ \ \ \ \ b_1=\left\{ \begin{array}{l} \begin{array}{c} b_{11}\\ b_{12}\\ \end{array}\\ \begin{array}{c} \vdots\\ b_{1q}\\ \end{array}\\ \end{array} \right.$

设，x 组与 y 组的协方差阵为
$\Sigma =\left[ \begin{matrix} \varSigma _{xx}& \varSigma _{xy}\\ \varSigma _{yx}& \varSigma _{yy}\\ \end{matrix} \right]$
其中 $\varSigma _{xx}$ 是 x 组的协方差矩阵； $\varSigma _{yy}$ 是 y 组变量的协方差矩阵； $\Sigma _{xy}=\Sigma '_{yx}$ 是 x 组和 y 组的协方差矩阵。

则 $u_1$ 的方差为
$Var\left( u_1 \right) =Var\left( a_1'x \right) =a_1'\varSigma _{xx}a_1$
$v_1$ 的方差为
$Var\left( v_1 \right) =Var\left( b_1'y \right) =b_1'\varSigma _{yy}b_1$

$u_1$ 和 $v_1$ 的协方差为
$Cov\left( u_1,v_1 \right) =Cov\left( a_1'x,b_1'y \right) =a_1'\varSigma _{xy}b_1$

$u_1$ 和 $v_1$ 的简单相关系数（pearson）为
$p\left( u_1,v_1 \right) =\frac{Cov\left( u_1,v_1 \right)}{\sqrt{Var\left( u_1 \right) \times Var\left( v_1 \right)}}=\frac{a_1'\varSigma _{xy}b_1}{\sqrt{a_1'\varSigma _{xx}a_1b_1'\varSigma _{yy}b_1}}$
典型相关问题就是使得 $u_1$ 和 $v_1$ 的简单相关系数最大，故：
在 $Var\left( u_1 \right) =1$ 和 $Var\left( v_1 \right)=1$ 的条件下，求取使 $Cov\left( u_1,v_1 \right)$ 最大的 $a_1$ 和 $b_1$ 。

然后再次估计组合系数，直至进行到 r 步，两组变量的相关性被提取完为止。
$r\le min\left( p,q \right)$
可以得到 r 组变量。求出每一组特征值，满足
$\lambda _1\ge \lambda _2\ge \cdots \ge \lambda _r$
$a_i$ 和 $b_i$ 分别是 $\lambda _i$ 的特征向量，则 $u_i=a_i'x$ 和 $v_i=b_i'y$ ，称为第 i 组典型变量， $u_i$ 和 $v_i$ 的第 i 典型相关为 $\sqrt{\lambda _i}\text{，}i=1,2,\cdots ,r$

因为， $\varSigma _{xx},\varSigma _{yy},\varSigma _{xy}$ 未知，改以 $S_{xx},S_{yy},S_{xy}$ 取代之，而得到
$\hat{\lambda}_1\ge \hat{\lambda}_2\ge \cdots \ge \hat{\lambda}_r$

典型变量的系数称为典型权重，权重越大，表示此变量对此典型变量的贡献越大。在以上的计算中，此权重为标准后的资源所得的，故 k 个资料的第 i 典型变量得点为
$\sum_{}{a_{ij}\frac{\left( x_{jk}-\bar{x}_j \right)}{s_j}}$

四、冗余分析

冗余分析是通过原始变量与典型变量之间的相关性。分析引起原始变量变异的原因。以原始变量为因变量，以典型变量为自变量，建立线性回归模型，则相应的确定系数（判定系数 $R^2$ ）等于因变量与典型变量间的相关系数的平方，它描述了由于因变量与典型变量的线性关系引起的因变量变异在因变量的总变异中比例。

典型负荷为变量与典型变量的相关系数，可由相关系数的平方了解此典型变量解释了此变量多少比例的变异数。

五、典型相关系数的假设检验

那么，要选择多少组典型变量呢？

在做两组变量 X，Y 的典型相关分析之前，首先应该检验两组变量是否相关，如果不相关，则讨论两组变量的典型相关就毫无意义.

最多可以选取 r = min(p,q) 组，可经由卡方检验决定要选取多少组典型变量。先检验最大的典型根，然后再一个接一个对各个根进行检验，只保留有统计显著性（就是拒绝原假设）的根。

（1）提出假设
$H_0\text{：}\lambda _1=\lambda _2=\lambda _3=\cdots =\lambda _r=0\leftrightarrow H_1\text{：}\lambda _1,\lambda _2,\lambda _3,\cdots ,\lambda _r\text{至少有一个不为}0$

检验统计量

$\chi ^2=-\left[ \left( n-1 \right) -\frac{p+q+1}{2} \right] \ln \left( 1-\hat{\lambda}_1 \right) \left( 1-\hat{\lambda}_2 \right) \left( 1-\hat{\lambda}_3 \right) \cdots \left( 1-\hat{\lambda}_r \right)$
其中， r = min(p,q)，若 $\chi ^2>\chi _{\alpha}^2\left( pq \right)$ ，则拒绝原假设，则认为至少第一对典型变量 $u_1$ 和 $v_1$ 具有相关性，得出第一对典型变量 $u_1$ 和 $v_1$ 可能已经提取了两组变量X 和 Y相关关系的绝大部分信息， $\lambda _1$ 是显著的，是具有价值的，那么，接下来将它移除，再检验剩余 r -1 组的显著性，否则接受原假设，认为两组变量之间的相关性没有意义。

（2）当上述原假设 $H_0$ 被拒绝时，接着做

$H_0\text{：}\lambda _2=\lambda _3=\cdots =\lambda _r=0$

检验统计量

$\chi ^2=-\left[ \left( n-1 \right) -\frac{p+q+1}{2} \right] \ln \left( 1-\hat{\lambda}_2 \right) \left( 1-\hat{\lambda}_3 \right) \cdots \left( 1-\hat{\lambda}_r \right)$