前言废话篇:
什么,老板既然让我一天内分析完今年公司的经营状态??
光是公司财务数据就已经包含20+个变量,固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、等等,何况公司还有其他的部门!
老板虐我千百遍,我待老板如初恋,再见了,我也该去寻找真正属于我的幸福了。可是工作做不完,晚上就没时间去寻找幸福了,作为一名专业首席财务官(公司唯一的会计),偷懒这件事情上我还没有输过谁,既然那么多变量,那我就把20个变量偷偷的变成5个变量,四舍五入我只要分析5个变量的数据,是时候打开微信约妹子了。
废话结束,开启正文模式
那哪些才是可选择的重要指标呢?这就是我们所说的数据降维,将原来20多个变量降到用3个或者5个变量来解释,并且这几个变量可以解释原数据的大部分信息(比如85%以上),且各个指标保持独立。
达到降维目的的方法有:主成分分析法和因子分析法,并且可以认为主成分分析法是因子分析的一个特例。
那么今天我们来详细讲解一下主成分分析法,包含原理+案例+操作,不想看原理的宝宝可直接跳到后面看案例。
1.1 主成分分析法(PCA)的原理
主成分分析法是运用“降维”思想,把多个指标变换成少数综合指标的多元统计方法,这里的综合指标就是主成分。每个主成分都是原始变量的线性组合,彼此相互独立,并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性,寻求相关变量的综合替代对象,并且保证了转化过程中的信息损失最小 。
主成分与原始变量之间的关系:
- 主成分是原始变量的线性组合
- 主成分的数量相对于原始数量更少
- 主成分保留了原始变量的大部分信息
- 主成分之间相互独立
1.2 主成分分析法的应用步骤
1.21 根据标准化后的数据集计算协方差矩阵Z:
相关系数程度区分列如下面两个表所示:
1.22 计算R的特征值及对应特征向量
主成分分析的一个关键问题是:主成分的个数选多少个比较合适?
有3个主要的衡量标准:
- 保留的主成分使得方差贡献率达到85%以上
- 保留的主成分的方差(特征值)大于1
- 碎石图绘制了关于各主成分及其特征值的图形,我们只需要保留图形中变化最大之处以上的主成分即可
2 主成分分析法应用实例
2.1 背景介绍
某金融服务公司为了了解贷款客户的信用程度,评价客户的信用等级,采用信用评级常用的 5C(能力,品格 ,担保 ,资本,环境)方法对15名客户进行打分, 由此判断客户违约的可能性。
- 品格:指客户的名誉;
- 能力:指客户的偿还能力;
- 资本:指客户的财务实力和财务状况;
- 担保:指对申请贷款项担保的覆盖程度;
- 环境:指外部经济政策环境对客户的影响;
由于各项指标的难易程度不同,因此需要对5项指标进行赋权,以便能够更加合理的对15名客户进行评价。
2.2 数据处理
2.21 计算每一列的平均值
2.22 计算每一列的标准差
例如能力该指标,我们计算其标准差
2.23 数据标准化处理
例如客户1的能力该项指标,使用公式:
2.24 计算相关系数矩阵
例如品格与能力的相关系数,使用公式 :
2.25 计算特征值
2.26 计算特征向量
2.27 计算贡献率
例如能力,我们使用公式
2.28 计算累积贡献率
3、案例工具实现
3.1使用工具
3.11 SPSSPRO—>【统计建模—>主成分分析(PCA)】
3.12案例操作
Step1:新建项目;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【主成分分析】;
step5:查看对应的数据数据格式,【主成分分析】要求输入数据为放入 [定量] 自变量 X(变量数 ≥2)。
step6:选择主成分个数(注意:主成分个数的选择,依赖于个人能接受的最大主成分个数,而特征根选择则是根据设定的阈值为界限,以大于该界限对应的主成分个数作为选取的主成分个数,默认为 1。)
step7:点击【开始分析】,完成全部操作。
3.13 分析结果解读
以下生成的结果来源于SPSSPRO软件的分析结果导出
输出结果1:KMO检验和Bartlett的检验
*这两项检验是用来判断是否可以进行主成分分析。 对于KMO值:0.8上非常合适做主成分分析,0.7-0.8之间一般适合,0.6-0.7之间不太适合,0.5-0.6之间表示差,0.5下表示极不适合,对于 Bartlett的检验(p < 0.05,严格来说p < 0.01),若显著性小于0.05或0.01,拒绝原假设,则说明可以做主成分分析
KMO检验的结果显示,KMO的值为0.713,同时,Bartlett球形检验的结果显示,显著性P值为0.000***,水平上呈现显著性,拒绝原假设,各变量间具有相关性,主成分分析有效,程度为一般。
**输出结果2:方差解释表格***
方差解释表中,在主成分3时,总方差解释的特征根低于1.0,变量解释的贡献率达到97.1%,所以我们选择三个主成分是有效的。
在这里,特征根的值是按照从大到小进行排序。
**输出结果3:碎石图***
碎石图是根据特征值下降的坡度来确认需要选择的主成分个数,当曲线变得平缓时,对应的因子数就可以作为参考因子数。由图可知,从第三个主成分开始,主成分的特征根值开始缓慢的下降,且在满足主成分累积解释的贡献率达到 90%的情况下,我们可以选择三个主成分。
输出结果4:因子载荷系数表
上表可以分析到每个主成分中隐变量的重要性。 第一个主成分与能力、品格、资本、担保这四个变量的相关程度较大,可以概括为“个人信用品质”;第二个主成分主与环境这一个变量的相关程度较大,可以概括为“外部政策影响”。
输出结果5:因子载荷矩阵热力图
上图可以分析到每个主成分中隐变量的重要性,热力图颜色越深说明相关性越大。第一个主成分与能力、品格、资本、担保这四个变量的相关程度较大,第二个主成分主与环境这一个变量的相关程度较大。
输出结果6:因子载荷象限分析
因子载荷图通过将多因子降维成双主成分或者三主成分,通过象限图的方式呈现主成分的空间分布。如果提取 3 个主成分时,则呈现三维载荷因子散点图。(二维图三维图可以自行选择)
输出结果7:成分矩阵表
由上表可得到主成分分析降维后的计算公式:
F1=0.259×能力+0.276×品格+0.244×担保+0.276×资本+0.102×环境
F2=-0.301×能力-0.12×品格+0.355×担保-0.185×资本+0.743×环境
F3=1.004×能力+0.254×品格-1.724×担保-0.128×资本+1.238×环境
由上可以得到: F=(0.691/0.971)×F1+(0.245/0.971)×F2+(0.036/0.971)×F3
**输出结果8:因子权重分析***
主成分分析的权重计算结果显示,主成分1的权重为71.126%、主成分2的权重为25.192%、主成分3的权重为3.681%。
输出结果9:综合得分表
由图可知,其中第10位客户的综合得分最高,也就是他的信用等级最高,其次是第15位客户。
注:
主成分要求变量之间的共线性或相关关系比较强,否则不能通过 KMO 检验和 Bartlett 球形检验; 主成分分析倾向于降维,从而达到简化系统结构,抓住问题实质的目的。(可侧重于输出结果 2、输出结果 3、输出结果 8); 主成分分析时通常需要综合自己的专业知识,以及软件结果进行综合判断,即使是特征根值小于 1,也一样可以提取主成分; KMO 值为 null 不存在可能导致的原因为:1)样本量过少容易导致相关系数过高,一般希望分析样本量大于 5 倍分析项个数; (2)各个分析项之间的相关关系过高或过低。
4.结论
主成分分析作为一个非监督学习的降维方法,它只需要特征值分解,就可以对数据进行压缩,去噪。因此在实际场景应用很广泛。通过对原始变量进行综合与简化,可以客观地确定各个指标的权重,避免主观判断的随意性。并且不要求数据呈正态分布,其就是按数据离散程度最大的方向对基组进行旋转,这特性扩展了其应用范围,比如,用于人脸识别。但同时,其适用于变量间有较强相关性的数据,若原始数据相关性弱,则起不到很好的降维作用(必须通过KMO和Bartlett的检验),并且降维后,存在少量信息丢失,不可能包含100%原始数据,原始数据经过标准化处理之后,含义会发生变化,且主成分的解释含义较原始数据比较模糊。
5.参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com. [2]何晓群.多元统计分析.北京:中国人民大学出版社,2012. [3] 王 伟,赵 明.主成分分析法在航材分类指标体系构建中的应用[J].舰船电子工程,2019,39 (1): 118-120. [4]丁敬国,郭锦华. 基于主成分分析协同随机森林算法的热连轧带钢宽度预测[J]. 东北大学学报(自然科学版)2021,42(9):1268-1274,1289.
相关推荐
# 2024年全国大学生数据分析实践赛获奖名单(初稿)公示 2024年全国大学生数据分析实践赛自2024年8月16日开启,共计吸引了来自
**2024数据分析实践赛已于8月16日 18:00正式公布题目!** 完整题目、数据及论文提交格式下载方式: 一、直接通过赛氪网公告下