数据降维大法--主成分分析法经典案例讲解（入门必看）-文章-SPSSPRO社区

前言废话篇：

什么，老板既然让我一天内分析完今年公司的经营状态？？

光是公司财务数据就已经包含20+个变量，固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、等等，何况公司还有其他的部门！

老板虐我千百遍，我待老板如初恋，再见了，我也该去寻找真正属于我的幸福了。可是工作做不完，晚上就没时间去寻找幸福了，作为一名专业首席财务官（公司唯一的会计），偷懒这件事情上我还没有输过谁，既然那么多变量，那我就把20个变量偷偷的变成5个变量，四舍五入我只要分析5个变量的数据，是时候打开微信约妹子了。

废话结束，开启正文模式

那哪些才是可选择的重要指标呢？这就是我们所说的数据降维，将原来20多个变量降到用3个或者5个变量来解释，并且这几个变量可以解释原数据的大部分信息（比如85%以上），且各个指标保持独立。

达到降维目的的方法有：主成分分析法和因子分析法，并且可以认为主成分分析法是因子分析的一个特例。

那么今天我们来详细讲解一下主成分分析法，包含原理+案例+操作，不想看原理的宝宝可直接跳到后面看案例。

1.1 主成分分析法(PCA)的原理

主成分分析法是运用“降维”思想，把多个指标变换成少数综合指标的多元统计方法，这里的综合指标就是主成分。每个主成分都是原始变量的线性组合，彼此相互独立，并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性，寻求相关变量的综合替代对象，并且保证了转化过程中的信息损失最小。

主成分与原始变量之间的关系：

主成分是原始变量的线性组合
主成分的数量相对于原始数量更少
主成分保留了原始变量的大部分信息
主成分之间相互独立

1.2 主成分分析法的应用步骤

1.21 根据标准化后的数据集计算协方差矩阵Z:

相关系数程度区分列如下面两个表所示：

1.22 计算R的特征值及对应特征向量

主成分分析的一个关键问题是：主成分的个数选多少个比较合适？

有3个主要的衡量标准：

保留的主成分使得方差贡献率达到85%以上
保留的主成分的方差（特征值）大于1
碎石图绘制了关于各主成分及其特征值的图形，我们只需要保留图形中变化最大之处以上的主成分即可

2 主成分分析法应用实例

2.1 背景介绍

某金融服务公司为了了解贷款客户的信用程度，评价客户的信用等级，采用信用评级常用的 5C(能力，品格，担保，资本，环境)方法对15名客户进行打分，由此判断客户违约的可能性。

品格:指客户的名誉；
能力:指客户的偿还能力；
资本:指客户的财务实力和财务状况；
担保:指对申请贷款项担保的覆盖程度；
环境:指外部经济政策环境对客户的影响；

由于各项指标的难易程度不同，因此需要对5项指标进行赋权，以便能够更加合理的对15名客户进行评价。

2.2 数据处理

2.21 计算每一列的平均值

2.22 计算每一列的标准差

例如能力该指标，我们计算其标准差

2.23 数据标准化处理

例如客户1的能力该项指标，使用公式:

2.24 计算相关系数矩阵

例如品格与能力的相关系数，使用公式 :

2.25 计算特征值

2.26 计算特征向量

2.27 计算贡献率

例如能力，我们使用公式

2.28 计算累积贡献率

3、案例工具实现

3.1使用工具

3.11 SPSSPRO—>【统计建模—>主成分分析（PCA）】

3.12案例操作

Step1：新建项目；

Step2：上传数据；

Step3：选择对应数据打开后进行预览，确认无误后点击开始分析；

step4：选择【主成分分析】；

step5：查看对应的数据数据格式，【主成分分析】要求输入数据为放入 [定量] 自变量 X（变量数 ≥2）。

step6：选择主成分个数（注意：主成分个数的选择，依赖于个人能接受的最大主成分个数，而特征根选择则是根据设定的阈值为界限，以大于该界限对应的主成分个数作为选取的主成分个数，默认为 1。）

step7：点击【开始分析】，完成全部操作。

3.13 分析结果解读

以下生成的结果来源于SPSSPRO软件的分析结果导出

输出结果1：KMO检验和Bartlett的检验

*这两项检验是用来判断是否可以进行主成分分析。对于KMO值：0.8上非常合适做主成分分析，0.7-0.8之间一般适合，0.6-0.7之间不太适合，0.5-0.6之间表示差，0.5下表示极不适合，对于 Bartlett的检验（p < 0.05,严格来说p < 0.01），若显著性小于0.05或0.01，拒绝原假设，则说明可以做主成分分析

KMO检验的结果显示，KMO的值为0.713，同时，Bartlett球形检验的结果显示，显著性P值为0.000***，水平上呈现显著性，拒绝原假设，各变量间具有相关性，主成分分析有效，程度为一般。

**输出结果2：方差解释表格***

方差解释表中，在主成分3时，总方差解释的特征根低于1.0，变量解释的贡献率达到97.1%，所以我们选择三个主成分是有效的。

在这里，特征根的值是按照从大到小进行排序。

**输出结果3：碎石图***

碎石图是根据特征值下降的坡度来确认需要选择的主成分个数，当曲线变得平缓时，对应的因子数就可以作为参考因子数。由图可知，从第三个主成分开始，主成分的特征根值开始缓慢的下降，且在满足主成分累积解释的贡献率达到 90%的情况下，我们可以选择三个主成分。

输出结果4：因子载荷系数表

上表可以分析到每个主成分中隐变量的重要性。第一个主成分与能力、品格、资本、担保这四个变量的相关程度较大，可以概括为“个人信用品质”；第二个主成分主与环境这一个变量的相关程度较大，可以概括为“外部政策影响”。

输出结果5：因子载荷矩阵热力图

上图可以分析到每个主成分中隐变量的重要性，热力图颜色越深说明相关性越大。第一个主成分与能力、品格、资本、担保这四个变量的相关程度较大，第二个主成分主与环境这一个变量的相关程度较大。

输出结果6：因子载荷象限分析

因子载荷图通过将多因子降维成双主成分或者三主成分，通过象限图的方式呈现主成分的空间分布。如果提取 3 个主成分时，则呈现三维载荷因子散点图。（二维图三维图可以自行选择）

输出结果7：成分矩阵表

由上表可得到主成分分析降维后的计算公式：

F1=0.259×能力+0.276×品格+0.244×担保+0.276×资本+0.102×环境

F2=-0.301×能力-0.12×品格+0.355×担保-0.185×资本+0.743×环境

F3=1.004×能力+0.254×品格-1.724×担保-0.128×资本+1.238×环境

由上可以得到： F=(0.691/0.971)×F1+(0.245/0.971)×F2+(0.036/0.971)×F3

**输出结果8：因子权重分析***

主成分分析的权重计算结果显示，主成分1的权重为71.126%、主成分2的权重为25.192%、主成分3的权重为3.681%。

输出结果9：综合得分表

由图可知，其中第10位客户的综合得分最高，也就是他的信用等级最高，其次是第15位客户。

注：

主成分要求变量之间的共线性或相关关系比较强，否则不能通过 KMO 检验和 Bartlett 球形检验；主成分分析倾向于降维，从而达到简化系统结构，抓住问题实质的目的。（可侧重于输出结果 2、输出结果 3、输出结果 8）；主成分分析时通常需要综合自己的专业知识，以及软件结果进行综合判断，即使是特征根值小于 1，也一样可以提取主成分； KMO 值为 null 不存在可能导致的原因为：1）样本量过少容易导致相关系数过高，一般希望分析样本量大于 5 倍分析项个数；（2）各个分析项之间的相关关系过高或过低。

4.结论

主成分分析作为一个非监督学习的降维方法，它只需要特征值分解，就可以对数据进行压缩，去噪。因此在实际场景应用很广泛。通过对原始变量进行综合与简化，可以客观地确定各个指标的权重，避免主观判断的随意性。并且不要求数据呈正态分布，其就是按数据离散程度最大的方向对基组进行旋转，这特性扩展了其应用范围，比如，用于人脸识别。但同时，其适用于变量间有较强相关性的数据，若原始数据相关性弱，则起不到很好的降维作用（必须通过KMO和Bartlett的检验），并且降维后，存在少量信息丢失，不可能包含100%原始数据，原始数据经过标准化处理之后，含义会发生变化，且主成分的解释含义较原始数据比较模糊。

5.参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com. [2]何晓群.多元统计分析.北京：中国人民大学出版社，2012. [3] 王伟，赵明.主成分分析法在航材分类指标体系构建中的应用[J].舰船电子工程，2019，39 (1): 118-120. [4]丁敬国,郭锦华. 基于主成分分析协同随机森林算法的热连轧带钢宽度预测[J]. 东北大学学报（自然科学版）2021,42(9):1268-1274,1289.