很多同学在学习降维方法时分不清楚因子分析与主成分分析,两者都是数据降维,那么在使用情景以及结果上会有什么区别呢?今天我们就来详细的介绍一下因子分析,并与主成分分析方法进行对比。
1、因子分析的模型理论
因子分析是一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法
1.1 因子的特点
因子个数远远少于原始变量个数
因子并非原始变量的简单取舍,而是一种新的综合
因子之间没有线性关系
因子具有明确解释性,可以最大限度地发挥专业分析的作用
1.2 因子分析的数学模型
1.3 因子分析的类型
根据分析目的的不同,我们可以将因子分析分为探索性因子分析和验证性因子分析。
探索性因子分析:不确定在现有的自变量背后到底有几个因子在起作用,我们通过需要这种方法试图寻找到这几个因子
验证性因子分析:已经假设自变量背后有几个因子,试图通过这种方法去验证一下这种假设是否正确。
本文主要讨论探索性因子分析。
1.4 因子分析的步骤
1.41 将原始数据进行标准化
1.42 确定待分析的原有若干变量是否适合于因子分析
因子分析的变量要求为连续型变量,分类变量不适合直接进行因子分析。
做因子分析的变量还必须具备相关性,因此需要对所分析的变量做相关性分析。相关性分析主要关注两个观测值:
(1)相关系数:大于0
(2)KMO检验和Bartiett的球度检验:KMO值越接近1越适合做因子分析,0.8以上也比较适合,0.6则较一般,0.5以下则不适合做因子分析;Bartiett球度检验的概率值小于显著性水平(0.05)就可以拒绝零假设,拒绝零假设说明有相关性可以做因子分析。
1.43 构造因子变量
常用主成分分析法来提取公共因子变量,特征值>1、方差贡献率>90%时即可提取公共因子变量。但当指标比较多时,提取的因子可能不是很明显,因此这时候就需要旋转因子。
如何决定提取因子个数(参考):
(1)初始特征值大于1的因子个数
(2)累积方差贡献率达到一定水平(一般为90%以上)的因子个数
(3)碎石图中处于陡峭斜率所对应的因子个数
(4)根据对研究对象的理解指定因子个数
1.44 利用旋转使得因子变量更具有可解释性
为什么需要因子旋转?
更有利于用现实语言来描述所得因子。通过改变坐标轴位置,重新分配各个因子所解释方差比例,使其载荷系数更接近1或0,能更好地解释和命名变量。旋转后的因子不改变模型对数据的拟合程度,也不改变各个变量的公因子方差,使因子结构变得更简单。
正交旋转与斜交旋转的区别:
正交旋转:旋转后各因子仍保持线性不相关,通俗的讲就是因素与因素间呈90°的垂直关系。正交旋转法的优点是因素间提供的信息不会重叠,观察体在某一个因素的分数与在其它因素的分数,彼此独立不相关;而其缺点是研究者迫使因素间不相关,但在实际情境中,它们彼此有相关的可能性很高。因而直交转轴方法偏向较多人为操控方式,不需要正确响应现实世界中自然发生的事件
常见的正交旋转方法有:最大方差法(Varimax)、最大四次方值法(Quartimax)、最大平衡值法(equamax)。
当做了正交旋转后仍未能对公共因素作出满意的解释时或当因子间的相关系数>0.3时,可考虑做斜交旋转。
斜交旋转:要求在旋转时各个因子之间呈斜交的关系,表示允许该因子与因子之间有某种程度上的相关。要求在旋转时各个因子之间呈斜交的关系,表示允许该因子与因子之间有某种程度上的相关。
常见的斜交旋转方法有:直接斜交旋转(Direct Oblimin)、迫近最大方差斜交旋转(Promax)。
因子旋转方式:
1.最大方差法(Varimax):通过坐标变换使各个因子载荷的方差之和最大,就是:(a)任何一个变量只在一个因子上有高贡献率,而在其它因子上的载荷几乎为0;(b)任何一个因子只在少数变量上有高载荷,而在其它变量上的载荷几乎为0。直观意义是希望通过因子旋转后,使每个因子上的载荷尽量拉开距离,一部分的载荷趋于±1,另一部分趋于0。由此可见,最大方差法可以帮忙找出多个因子,以澄清概念的内容。这种方法对因子的解释较为简单,也是最常用的旋转方法。
2.最大四次方值法(Quartimax):最大四次方值法可以尽量弄清楚每个变量在各个因子上的负荷情况,让每个变量在某个因子上的负荷尽可能等于1,而在其它因子上则尽可能等于0。该方法可以增强第一因子的解释力,而使其它因子的效力减弱。可见Quartimax旋转法适合于找出一个最强效力的因子。
3.最大平衡值法(equamax):它是简化最大方差法与最大四次方值法的组合,是一种折中的做法,尽可能简化因子,也可弄清楚负荷情况,它可以使得高度依赖因子的变量的个数以及解释变量所需的因子的个数最少。其缺点是可能两方面都未照顾好。
4直接斜交方法(Direct Oblimin):必须指定Delta值,该值的取值范围在0~-1之间,0值产生最高相关因子,解是最斜交的。delta 负得越厉害,因子的斜交度越低,大的负数产生旋转的结果与直交接近。
5.迫近最大方差斜交旋转(Promax):它比直接斜交旋转更快,计算速度更快,因此适用于大数据集的因子分析。
1.45 计算因子变量的得分
因子得分可以用来评价每个个案在每个公共因子上的分值,该分值包含了原始变量的信息。需要注意的是,原始变量的数值是可以直接观测,但因子得分只能通过原始变量与因子之间的关系计算得到。
因子得分可以有两方面的作用:
(1)用来代替原始变量进行其他统计分析,比如回归分析(即将因子得分作为自变量,与对应的因变量进行回归)、聚类分析。
(2)进行综合评分。综合评分主要基于各公因子所对应的方差贡献率比例为权重来计算,公式为:综合得分=各因子方差百分比/总方差百分比*因子得分
2 因子分析法应用实例
2.1 背景介绍
某金融服务公司为了了解贷款客户的信用程度,评价客户的信用等级,采用信用评级常用的 5C(能力,品格 ,担保 ,资本,环境)方法对15名客户进行打分, 由此判断客户违约的可能性。
希望通过因子分析,用少量因子反映5个题目的信息,从而达到降低维度,便于分析的目的,并对因子命名用于后续分析。
品格:指客户的名誉;
能力:指客户的偿还能力;
资本:指客户的财务实力和财务状况;
担保:指对申请贷款项担保的覆盖程度;
环境:指外部经济政策环境对客户的影响;
2.2 数据处理
2.21 将原始数据进行标准化
数据进行标准化的步骤与前文主成分分析的数据标准化处理步骤一致
(1)计算每一列的平均值
(2) 计算每一列的标准差
例如能力该指标,我们计算其标准差
(3)数据标准化处理
例如客户1的能力该项指标,使用公式:
2.22 确定待分析的原有若干变量是否适合于因子分析
通过KMO检验和Bartlett的检验的结果可知,KMO的值为0.713>0.6,同时,Bartlett球形检验的结果显示,显著性P值<0.01,水平上呈现显著性,因此该数据适合做因子分析。
2.23 构造因子变量
该步骤也与前文主成分分析法的步骤一致
(1)计算特征值
(2)计算方差贡献率
特征值>1、方差贡献率>90%(仅供参考,不是绝对)时即可提取公共因子变量,两项相结合后,在这里选择提取三个公共因子变量。
2.24 因子旋转
在这里我们选择最大方差法,主成分个数选择3进行因子旋转,旋转后得到的方差解释率如下:
方差解释表中,在第三个主成分时,总方差解释的特征根低于0.731,比旋转前更加接近1,而变量解释的贡献率达到97.1%,所以旋转后的因子变量更具有可解释性
2.25 计算因子得分
综合得分=各因子方差百分比/总方差百分比*因子得分
由图可知,其中第10位客户的综合得分最高,也就是他的信用等级最高,其次是第4位客户。
3、案例工具实现
3.1使用工具
3.11 SPSSPRO—>【统计建模—>因子分析(探索性)】
3.12案例操作
Step1:新建项目;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
step4:选择【因子分析(探索性)】;
step5:查看对应的数据数据格式,【因子分析】要求输入数据为放入 [定量] 自变量 X(变量数 ≥2)。
step6:选择主成分个数、因子旋转方式(注意:在因子分析中倾向于描述原始变量之间的相关关系,所以一般情况下在因子分析选取的主成分个数也就是自变量 X 个数,而特征根选择则是根据设定的阈值为界限,以大于该界限对应的主成分个数作为选取的主成分个数,默认为 1。)
step7:点击【开始分析】,完成全部操作。
3.13 分析结果解读
以下生成的结果来源于SPSSPRO软件的分析结果导出,SPSSPRO输出的结果中会给出智能解读结果,直接查看智能分析:
输出结果1:KMO检验和Bartlett的检验
KMO检验的结果显示,KMO的值为0.713,同时,Bartlett球形检验的结果显示,显著性P值为0.000***,水平上呈现显著性,拒绝原假设,各变量间具有相关性,因子分析有效,程度为一般。
输出结果2:方差解释表格
旋转前的方差解释与主成分分析一致,这里主要看旋转后因子对于变量解释的贡献率。前三个因子累积解释的贡献率达到97.1%,说明使用三个因子能够很好地了解贷款客户的信用程度。
输出结果3:碎石图
当折线由陡峭突然变得平稳时,陡峭到平稳对应的主成分个数即为参考提取主成分个数。由图可知,从第三个主成分开始,主成分的特征根值开始缓慢的下降,在满足因子累计解释的贡献度达到 90%的情况下,我们可以选择保留三个主成分。
输出结果4:因子载荷系数表*
上表可以分析到每个主成分中隐变量的重要性。第一个主成分与能力、品格、资本这三个变量的相关程度较大,可以概括为“个人隐形品质”;第二个主成分主与环境这一个变量的相关程度较大,可以概括为“外部政策影响”,第三个主成分与担保这一变量的相关程度较大,可以概括为“个人信用程度”。
输出结果5:因子载荷矩阵热力图*
上图为载荷矩阵热力图,可以分析到每个因子中隐变量的重要性,热力图颜色越深说明相关性越大,与结果4对应,输出效果更直观
输出结果6:因子载荷象限分析*
因子载荷图通过将多因子降维成双因子或者三因子,通过象限图的方式呈现因子的空间分布。当保留两个因子时作出二维因子载荷象限。当保留三个因子时作出三维因子载荷象限。
输出结果7:成分矩阵表
由上表可得到因子分析降维后的计算公式:
F1=0.284×能力+0.262×品格+0.141×担保+0.267×资本+0.002×环境
F2=-0.003×能力+0.129×品格+0.415×担保+0.051×资本+0.806×环境
F3=0.526×能力+1.624×品格+3.958×担保+1.855×资本+0.93×环境
由上可以得到:
F=(0.573/0.971)×F1+(0.252/0.971)×F2+(0.146/0.971)×F3
输出结果8:因子权重分析
因子分析的权重计算结果显示,因子1的权重为59.021%、因子2的权重为25.922%、因子3的权重为15.057%,其中指标权重最大值为因子1(59.021%),最小值为因子3(15.057%)。
输出结果9:综合得分表
由图可知,其中第10位客户的综合得分最高,也就是他的信用等级最高,其次是第4位客户。
因子分析往往是预处理步骤,后续还需要结合具体研究目的进行分析,如回归分析、聚类分析等。
4 因子分析与主成分分析的比较
区别:
因子分析:
1.从分项指标几个公共因子去解释较多个要观测变量中存在的关系
2.需要构造因子模型,着重要求新变量具有实际的意义,能解释原始变量间的内在结构
3.倾向于描述原始变量之间的相关关系(可侧重分析输出结果 4、输出结果 5、输出结果 6)
主成分分析:
1.是对原始变量的重新组合
2.仅仅是变量变换,是原始变量的线性组合表示新的综合变量,强调新变量贡献了多大比例的方差,不关心新变量是否有明确的实际意义。
3.倾向于多组指标的数据降维,从而达到简化系统结构(可侧重于输出结果 2、输出结果 3、输出结果 8)
联系:
两者都是降维和信息浓缩的方法。
当因子分析提取公因子的方法是主成分(矩阵线性组合)时,因子分析结论的前半部分内容就是主成分分析的内容,而因子旋转是因子分析的专属(扩展),主成分分析是因子分析(提取公因子方法为主成分)的中间步骤。
生成的新变量均代表了原始变量的大部分信息且互相独立,都可以用于后续的回归分析、判别分析、聚类分析等等。
5 参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from spsspro.com.
[2]高惠璇.应用多元统计分析[M].北京:北京大学出版社,2005.
[3]文旭,王浩,黄刚,等. 基于因子分析的母线负荷异常数据辨识方法[J]. 重庆大学学报,2021,44(8):91-102.
相关推荐
# 2024年全国大学生数据分析实践赛获奖名单(初稿)公示 2024年全国大学生数据分析实践赛自2024年8月16日开启,共计吸引了来自
**2024数据分析实践赛已于8月16日 18:00正式公布题目!** 完整题目、数据及论文提交格式下载方式: 一、直接通过赛氪网公告下
本文阐述了峰度与偏度在统计学中的意义,及其对管理决策的影响。峰度反映数据分布尖锐度,偏度衡量对称性。理解两者有助于风险评估、市场预测和策略规划,促进更精准的决策,增强管理效能。通过有效利用这些统计概念,管理者能提升数据分析技能,优化决策流程。