数据降维大法--主成分分析法经典案例讲解(入门必看)
案例库 https://www.spsspro.com/ · 7607浏览 · 2022-03-03 01:53
主成分分析法是运用“降维”思想,把多个指标变换成少数综合指标的多元统计方法,这里的综合指标就是主成分。每个主成分都是原始变量的线性组合,彼此相互独立,并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性,寻求相关变量的综合替代对象,并且保证了转化过程中的信息损失最小 。

前言废话篇:

什么,老板既然让我一天内分析完今年公司的经营状态??

光是公司财务数据就已经包含20+个变量,固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、等等,何况公司还有其他的部门!

image.png

老板虐我千百遍,我待老板如初恋,再见了,我也该去寻找真正属于我的幸福了。可是工作做不完,晚上就没时间去寻找幸福了,作为一名专业首席财务官(公司唯一的会计),偷懒这件事情上我还没有输过谁,既然那么多变量,那我就把20个变量偷偷的变成5个变量,四舍五入我只要分析5个变量的数据,是时候打开微信约妹子了。

废话结束,开启正文模式

那哪些才是可选择的重要指标呢?这就是我们所说的数据降维,将原来20多个变量降到用3个或者5个变量来解释,并且这几个变量可以解释原数据的大部分信息(比如85%以上),且各个指标保持独立。

达到降维目的的方法有:主成分分析法和因子分析法,并且可以认为主成分分析法是因子分析的一个特例。

那么今天我们来详细讲解一下主成分分析法,包含原理+案例+操作,不想看原理的宝宝可直接跳到后面看案例。

1.1 主成分分析法(PCA)的原理

主成分分析法是运用“降维”思想,把多个指标变换成少数综合指标的多元统计方法,这里的综合指标就是主成分。每个主成分都是原始变量的线性组合,彼此相互独立,并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性,寻求相关变量的综合替代对象,并且保证了转化过程中的信息损失最小 。

主成分与原始变量之间的关系:

  1. 主成分是原始变量的线性组合
  2. 主成分的数量相对于原始数量更少
  3. 主成分保留了原始变量的大部分信息
  4. 主成分之间相互独立

1.2 主成分分析法的应用步骤

1.21 根据标准化后的数据集计算协方差矩阵Z:

image.png image.png

相关系数程度区分列如下面两个表所示:

image.png

1.22 计算R的特征值及对应特征向量

image.png

主成分分析的一个关键问题是:主成分的个数选多少个比较合适?

有3个主要的衡量标准:

  1. 保留的主成分使得方差贡献率达到85%以上
  2. 保留的主成分的方差(特征值)大于1
  3. 碎石图绘制了关于各主成分及其特征值的图形,我们只需要保留图形中变化最大之处以上的主成分即可

2 主成分分析法应用实例

2.1 背景介绍

某金融服务公司为了了解贷款客户的信用程度,评价客户的信用等级,采用信用评级常用的 5C(能力,品格 ,担保 ,资本,环境)方法对15名客户进行打分, 由此判断客户违约的可能性。

  • 品格:指客户的名誉;
  • 能力:指客户的偿还能力;
  • 资本:指客户的财务实力和财务状况;
  • 担保:指对申请贷款项担保的覆盖程度;
  • 环境:指外部经济政策环境对客户的影响;

image.png 由于各项指标的难易程度不同,因此需要对5项指标进行赋权,以便能够更加合理的对15名客户进行评价。

2.2 数据处理

2.21 计算每一列的平均值

image.png

2.22 计算每一列的标准差

image.png

例如能力该指标,我们计算其标准差

image.png

2.23 数据标准化处理

image.png

例如客户1的能力该项指标,使用公式:

image.png

2.24 计算相关系数矩阵

image.png

例如品格与能力的相关系数,使用公式 :

image.png

2.25 计算特征值

image.png

2.26 计算特征向量

image.png

2.27 计算贡献率

image.png

例如能力,我们使用公式

image.png

2.28 计算累积贡献率

image.png

3、案例工具实现

3.1使用工具

3.11 SPSSPRO—>【统计建模—>主成分分析(PCA)】

3.12案例操作

image.png

Step1:新建项目;

Step2:上传数据;

Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;

image.png

step4:选择【主成分分析】;

step5:查看对应的数据数据格式,【主成分分析】要求输入数据为放入 [定量] 自变量 X(变量数 ≥2)。

step6:选择主成分个数(注意:主成分个数的选择,依赖于个人能接受的最大主成分个数,而特征根选择则是根据设定的阈值为界限,以大于该界限对应的主成分个数作为选取的主成分个数,默认为 1。)

step7:点击【开始分析】,完成全部操作。

3.13 分析结果解读

以下生成的结果来源于SPSSPRO软件的分析结果导出

输出结果1:KMO检验和Bartlett的检验

image.png

*这两项检验是用来判断是否可以进行主成分分析。 对于KMO值:0.8上非常合适做主成分分析,0.7-0.8之间一般适合,0.6-0.7之间不太适合,0.5-0.6之间表示差,0.5下表示极不适合,对于 Bartlett的检验(p < 0.05,严格来说p < 0.01),若显著性小于0.05或0.01,拒绝原假设,则说明可以做主成分分析

KMO检验的结果显示,KMO的值为0.713,同时,Bartlett球形检验的结果显示,显著性P值为0.000***,水平上呈现显著性,拒绝原假设,各变量间具有相关性,主成分分析有效,程度为一般。

**输出结果2:方差解释表格***

image.png

方差解释表中,在主成分3时,总方差解释的特征根低于1.0,变量解释的贡献率达到97.1%,所以我们选择三个主成分是有效的。

在这里,特征根的值是按照从大到小进行排序。

**输出结果3:碎石图***

image.png

碎石图是根据特征值下降的坡度来确认需要选择的主成分个数,当曲线变得平缓时,对应的因子数就可以作为参考因子数。由图可知,从第三个主成分开始,主成分的特征根值开始缓慢的下降,且在满足主成分累积解释的贡献率达到 90%的情况下,我们可以选择三个主成分。

​​输出结果4:因子载荷系数表

image.png

上表可以分析到每个主成分中隐变量的重要性。 第一个主成分与能力、品格、资本、担保这四个变量的相关程度较大,可以概括为“个人信用品质”;第二个主成分主与环境这一个变量的相关程度较大,可以概括为“外部政策影响”。

输出结果5:因子载荷矩阵热力图

image.png

上图可以分析到每个主成分中隐变量的重要性,热力图颜色越深说明相关性越大。第一个主成分与能力、品格、资本、担保这四个变量的相关程度较大,第二个主成分主与环境这一个变量的相关程度较大。

输出结果6:因子载荷象限分析

image.png

因子载荷图通过将多因子降维成双主成分或者三主成分,通过象限图的方式呈现主成分的空间分布。如果提取 3 个主成分时,则呈现三维载荷因子散点图。(二维图三维图可以自行选择)

输出结果7:成分矩阵表

image.png

由上表可得到主成分分析降维后的计算公式:

F1=0.259×能力+0.276×品格+0.244×担保+0.276×资本+0.102×环境

F2=-0.301×能力-0.12×品格+0.355×担保-0.185×资本+0.743×环境

F3=1.004×能力+0.254×品格-1.724×担保-0.128×资本+1.238×环境

由上可以得到: F=(0.691/0.971)×F1+(0.245/0.971)×F2+(0.036/0.971)×F3

**输出结果8:因子权重分析***

image.png

主成分分析的权重计算结果显示,主成分1的权重为71.126%、主成分2的权重为25.192%、主成分3的权重为3.681%。

输出结果9:综合得分表

image.png

由图可知,其中第10位客户的综合得分最高,也就是他的信用等级最高,其次是第15位客户。

注:

主成分要求变量之间的共线性或相关关系比较强,否则不能通过 KMO 检验和 Bartlett 球形检验; 主成分分析倾向于降维,从而达到简化系统结构,抓住问题实质的目的。(可侧重于输出结果 2、输出结果 3、输出结果 8); 主成分分析时通常需要综合自己的专业知识,以及软件结果进行综合判断,即使是特征根值小于 1,也一样可以提取主成分; KMO 值为 null 不存在可能导致的原因为:1)样本量过少容易导致相关系数过高,一般希望分析样本量大于 5 倍分析项个数; (2)各个分析项之间的相关关系过高或过低。

4.结论

主成分分析作为一个非监督学习的降维方法,它只需要特征值分解,就可以对数据进行压缩,去噪。因此在实际场景应用很广泛。通过对原始变量进行综合与简化,可以客观地确定各个指标的权重,避免主观判断的随意性。并且不要求数据呈正态分布,其就是按数据离散程度最大的方向对基组进行旋转,这特性扩展了其应用范围,比如,用于人脸识别。但同时,其适用于变量间有较强相关性的数据,若原始数据相关性弱,则起不到很好的降维作用(必须通过KMO和Bartlett的检验),并且降维后,存在少量信息丢失,不可能包含100%原始数据,原始数据经过标准化处理之后,含义会发生变化,且主成分的解释含义较原始数据比较模糊。

5.参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com. [2]何晓群.多元统计分析.北京:中国人民大学出版社,2012. [3] 王 伟,赵 明.主成分分析法在航材分类指标体系构建中的应用[J].舰船电子工程,2019,39 (1): 118-120. [4]丁敬国,郭锦华. 基于主成分分析协同随机森林算法的热连轧带钢宽度预测[J]. 东北大学学报(自然科学版)2021,42(9):1268-1274,1289.

相关推荐

默认标签 数据分析达人
2024年全国大学生数据分析实践赛获奖名单(初稿)公示

# 2024年全国大学生数据分析实践赛获奖名单(初稿)公示 2024年全国大学生数据分析实践赛自2024年8月16日开启,共计吸引了来自

知识竞赛 原创 · 430浏览 · 09-04 08:07
2024数据分析实践赛A、B赛题公布!

**2024数据分析实践赛已于8月16日 18:00正式公布题目!** 完整题目、数据及论文提交格式下载方式: 一、直接通过赛氪网公告下

知识竞赛 原创 · 1980浏览 · 08-16 10:07
深入理解标准正态分布的峰度与偏度

本文阐述了峰度与偏度在统计学中的意义,及其对管理决策的影响。峰度反映数据分布尖锐度,偏度衡量对称性。理解两者有助于风险评估、市场预测和策略规划,促进更精准的决策,增强管理效能。通过有效利用这些统计概念,管理者能提升数据分析技能,优化决策流程。

其他 原创 · 573浏览 · 07-08 04:40
0 条评论
    某人
    可输入 255
    SPSSPRO社区 扫码访问移动端