典型相关分析（CCA）——快速分析多变量的相关关系-文章-SPSSPRO社区

前言：

我们先来看一组数据~

1）发现问题

通过上表我们来探究大学生学术得分和心理得分之间存在着什么关系，其中学术得分来自语文、数学、英语和才艺四种，他们形成第一组变量；而心理得分来自包控制情绪、自我调节和自我激励三种，形成第二组变量。

我们直接对这些变量的相关进行两两分析，很难得到关于这两组变量之间关系的一个清楚的印象

2）解决思路

因此，我们需要把多个变量与多个变量之间的相关化为两个具有代表性的变量之间的相关

3）选出代表

代表：能较为综合、全面的衡量所在组的内在规律

一组变量最简单的综合形式就是该组变量的线性组合

1 典型相关分析

1.1 定义

典型相关分析是研究两个多变量（向量）之间之间的线性相关关系，能够揭示出两组变量之间的内在联系。

在一元统计分析中，用相关系数来衡量两个随机变量的线性相关关系，用复相关系数研究一个随机变量与多个随机变量的线性相关关系。然而，这些方法均无法用于研究两组变量之间的相关关系，于是提出了CCA

一般有两个典型的目的：

数据简化：用少量的线性组合来解释两组变量之间的相关作用。
数据解释：寻找特征值，这些特征值对于解释两个变量集合之间的相互作用十分关键。

与主成分分析（PCA）之间的关系：

典型相关分析的基本思想和主成分分析的基本思想相似，它将一组变量与另一组变量之间单变量的多重线性相关性研究，转换为少数几对综合变量之间的简单线性相关性的研究，并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

联系：无论是典型相关分析还是主成分分析，都是线性分析的范畴，一组变量的典型变量和其主成分都是经过线性变换，通过计算矩阵的特征值与特征向量得出的。

区别：主成分分析中只涉及一组变量的相互依赖关系，而典型相关则扩展到了两组变量之间的相互依赖的关系之中，度量了这两组变量之间联系的强度。

1.2 分析步骤

首先在每组变量中找到变量的线性组合，使得两组的线性组合之间具有最大的相关系数。
然后选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的那一组。
如此继续配对，直到两组变量之间的相关性被提取完。

1.3 典型相关系数的假设检验

在做两组变量 X，Y 的典型相关分析之前，首先应该检验两组变量是否相关，如果不相关，则讨论两组变量的典型相关就毫无意义。

最多可以选取 r = min(p,q) 组，可经由卡方检验决定要选取多少组典型变量。先检验最大的典型根，然后再一个接一个对各个根进行检验，只保留有统计显著性（就是拒绝原假设）的根。

1.4 冗余分析

在进行样本典型相关分析时，分析每组变量提取出的典型变量所能解释的该组样本总方差的比例，称为冗余分析。冗余分析包括组内代表比例和交叉解释比例，是典型相关分析中很重要的部分。

组内代表比例是指本组所有观测变量的总标准方差中由本组形成的各个典型变量所分别代表的比例；

交叉解释比例是指一组变量形成的典型变量对另一组观测变量的总标准方差所解释的比例，是一种组间交叉共享比例。

冗余分析可以定量地测度典型变量所包含的原始信息量的大小。

2 具体操作

实际上，只需要掌握典型相关分析的基本原理，基本思想就可以了，具体实际操作并不难，不需要通过公式进行计算，目前基本上是使用SPSS进行分析。

2.1 案例介绍

研究 200 名大学生四个学术得分变量与三个心理得分变量之间的关系

2.2 操作步骤

2.3 结果解读

1）典型相关系数

由上表可知，前 3 对典型变量通过显著性检验，认为前 3 对典型变量之间的相关性显著，第 1 对典型变量的相关系数为 0.994；第 2 对典型变量的相关系数为 0.878；第 3 对典型变量的相关系数为 0.384。

第一对典型变量贡献率为 0.989/（0.989+0.771+0.147）=51.9%，第二对典型变量贡献率为 0.771/（0.989+0.771+0.147）=40.4%，所以第一对和第二对典型变量的总贡献率达到 92.3%，因此后续分析重点关注第一对和第二对典型变量。

注意：这里 p 值显著与典型相关系数大小没有必然的联系，p 值显著，说明典型变量间不相关的概率很小，即典型变量间大概率是相关的，至于多大的相关程度是不能判断的。

2）典型变量系数

可根据典型变量的系数，得到典型变量的组成公式。

例如：集合Y的第1典型变量的计算公式：Y1=0.062×控制情绪+0.021×自我调节+0.078×自我激励

集合X的第1典型变量的计算公式：X1=0.07×语文+0.031×数学+0.09×英语+0.063×才艺

3）典型负荷系数和交叉负荷系数

典型载荷系数绝对值越大说明该项与典型变量之间的相关关系越强。

● 典型载荷系数是指一个典型变量与本组所有变量的简单相关系数。

● 交叉载荷系数是指一个典型变量与另一组变量各个变量的简单相关系数。

4）载荷矩阵热力图

以上是集合 Y 典型载荷矩阵热力图，由图可知，典型变量 Y1 与集合 Y 里面的三个心理得分变量（自我激励、自我调节、控制情绪）的相关性较高，说明典型变量 1 就能很好地解释集合 Y 中心理得分的三个变量。典型变量 2 更多解释了“自我调节”这个变量。右上角可以进行热力图的切换，

5）方差解释比例

典型变量 X1 解释了集合 Y 中指标的 91.05%信息量，解释了集合 X 中指标的 55.944%信息量，以此类推

这一步主要是为了进行冗余分析，如果一个变量可以由另一个变量的方差来解释或者预测，那么就说这个方差部分与另一变量方差冗余。可以计算求出典型变量对的共享方差

例如第一典型变量的共享方差：（0.559440.92063）100%=51.50%

3 总结

CCA利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是：为了从总体上把握两组指标之间的相关关系，分别在两组变量中提取有代表性的两个综合变量U1和V1（分别为两个变量组中各变量的线性组合），利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

CCA的实质就是在两组随机变量中选取若干个有代表性的综合指标（变量的线性组合）, 用这些指标的相关关系来表示原来的两组变量的相关关系。这在两组变量的相关性分析中, 可以起到合理的简化变量的作用; 当典型相关系数足够大时, 可以像回归分析那样, 由- 组变量的数值预测另一组变量的线性组合的数值。