相关性分析
1、作用
相关分析是对变量两两之间的相关程度进行分析。相关分析的计算方式有三种,分别是 Pearson 相关系数(适用于定量数据,且数据满足正态分布)、Spearman 相关系数(数据不满足正态分布时使用)。Kendall's tau -b 相关系数(有序定类变量)
2、输入输出描述
输入:两个或者两个以上的定量变量或有序定类变量
输出:两两定类变量之间是否呈现显著性相似以及相似的程度
3、案例示例
示例:人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题
4、案例数据
相关性分析案例数据
5、案例操作
Step1:新建分析;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
Step4:选中上传的数据或者之前上传过的数据进入分析页面进行分析;
step5:选择【线性分析】;
step6:查看对应的数据数据格式,【线线性分析】要求输入数据为定量变量,至少两项定量变量,选择对应分析类型;
step7:点击【开始分析】,完成全部操作
6、输出结果分析
输出结果 1:相关系数表
图表说明: 上表展示了模型检验的参数结果表,包括了相关系数、显著性 P 值。P 值呈现显著性(0.000<p<0.01),说明两变量之间存在相关性。
输出结果 2:相关系数热力图
图表说明: 上图展示了热力图的形式展示了相关系数的值,主要通过颜色深浅去表示值的大小。
7、注意事项
Pearson 相关系数适用于定量数据,且要求数据满足正态分布、Spearman 相关系数是数据不满足正态分布时使用,也可用于分析有序定类变量,Kendall's tau -b 相关系数用于分析有序定类变量
8、模型理论
皮尔逊相关系数
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,常用希腊小写字母ρ作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母r代表:
r亦可由 样本点的标准分数均值估计,得到与上式等价的表达式:
斯皮尔曼相关系数
斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数 ρ 为
原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。如下表所示:
实际应用中,变量间的连结是无关紧要的,于是可以通过简单的步骤计算 ρ.被观测的两个变量的等级的差值,则 ρ 为
公式
Kendall Tau-b 系数 Kendall's tau-b(肯德尔)等级相关系数,用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;定义为:
tau_b = (P - Q) / sqrt((P + Q + T) * (P + Q + U))
其中 P 是一致对的数量,Q 是不一致对的数量,T 是仅在 x 中的系数,U 是仅在 y 中的系数。如果同一分组在 x 和 y 中出现相同数量,则不将其添加到 T 或 U 中。
9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com. [2]张厚粲,徐建平.现代心理与教育统计学.北京:北京师范大学出版社,1988:112-115 [3]Fieller, E.C.; Hartley, H.O.; Pearson, E.S. (1957) Tests for rank correlation coefficients. I. Biometrika 44, pp. 470–481 [4]Piantadosi, J.; Howlett, P.; Boland, J. (2007) "Matching the grade correlation coefficient using a copula with maximum disorder", Journal of Industrial and Management Optimization, 3 (2), 305–312 [5]Maurice G. Kendall, “The treatment of ties in ranking problems”, Biometrika Vol. 33, No. 3, pp. 239-251. 1945.
相关推荐
校赛结束,省赛才是真正的淘汰赛。本文从国奖团队经验出发,给出五条冲刺建议:做两版PPT避免盲评失分;统一图表风格美化报告,SPSSPRO图表可直接复用;抽样方案要展示一手数据来源,增强信服力;补充实地调研和权威访谈,为报告增添故事感;结论建议别依赖AI,搜索行业报告提炼具体对策。降重达标只是入场券,这五件事帮你从省赛稳步走向国赛。
本文面向正大杯查重不通过的参赛者,提供一套经往届学长验证的降重方法。针对文字、表格、标题、句式、结论等不同类型标红内容,分别给出文字转图片、表格转图片、附录法、差异化改造、句式变化、加词减词、段落复述与数据植入、翻译法结合AI改写等具体操作方案,帮助参赛者高效降低查重率。作为正大杯官方指定查重系统,SPSSPRO提醒参赛者认准官方系统,避免免费查重网站带来的收录风险,安全、准确完成查重检测。
无需邀请好友,全国大学生数据分析知识科普竞赛纸质证书免费包邮寄送! 撰写小红书及知乎文章,推广第五届全国大学生数据分析科