我们在做差异性分析时,常用的t检验、方差分析都要求样本服从正态分布,但如果数据本来就不应该是正态的,例如房价、收入,满意度打分等,亦或者其它情况,如果没有满足前提条件就强行进行参数检验,分析结果会变得不科学严谨,分析结论会受到置疑。
所以不满足正态分布时应该如何处理呢?接下来会逐步说明并介绍常见的非参数检验。
根据数据是否符合正态分布,分为:
参数检验
对参数平均值、方差进行的统计检验。先由测得的样本数据计算检验统计量,若计算的统计量值落入约定显著性水平a 时的拒绝域内,说明被检参数之间在所约定的显著性水平a 下在统计上有显著性差异
分为平均值、单样本t检验、独立样本t检验、配对样本t检验、方差分析等等。
非参数检验
在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法,在推断过程中不涉及有关总体分布的参数
理论上满足正态分布,但现实情况不满足可能的原因:
- 抽样样本过少,导致总体是正态分布,但抽样样本不满足正态分布
- 绝对正态分布很难满足,可以结合正态分布直方图以及峰度(绝对值小于 10)、偏度(绝对值小于 3)进一步分析,如果数据分布基本满足“钟形曲线”特征,可以描述为基本符合正态分布。
小样本(小于50)时建议使用S-W检验,大样本(大于50)时建议使用K-S检验
常见的非参数检验方法:
- 1个样本:单样本Wilcoxon符号秩检验
- 2个独立样本:独立样本MannWhitney检验
- 2个相关样本:配对样本Wilcoxon符号秩检验
- 3个及以上独立样本:多独立样本Kruskal-Wallis检验
- 3个及以上相关样本:多配对样本Friedman检验
差异性分析方法汇总如下:
下面我们针对上面列出的几个常用的非参数检验逐一进行分析。
1、单样本Wilcoxon符号秩检验
用于比较样本数据中位数与一个特定数值之间的差异情况
示例:如研究一家食品生产企业的罐装食品标准重量是不是 100g(数据非正态分布)
操作过程
检验结果
P<0.05,水平上呈现显著性,拒绝原假设,因此重量和检验值 100 存在差异性。
故可认为这家食品生产企业的罐装食品标准重量不是 100g
2、配对样本Wilcoxon符号秩检验
用于比较配对的连续变量 X1 与连续变量 X2 之间的差异情况
示例:检验某医院 300 个病人注射某药剂前后血压是否一致(差值非正态分布)
操作过程
检验结果
P<0.05,水平上呈现显著性,拒绝原假设,因此服药前血压配对服药后血压之间存在显著性差异。
其差异幅度Cohen's d值为:2.264,差异幅度非常大。
3、多配对样本Friedman检验
用于分析多组样本数一致的定量变量之间有无明显差异
示例:检验某医院 50 个病人注射某药剂第一、二、三、四周的血压是否一致
操作过程
检验结果
p<0.05,因此统计结果显著,说明注射药剂四周存在显著差异;差异幅度 Cohen's f 值为:0.229,差异幅度较小。
箱线图对比
可见四个样本差异很小,且每周服药后的血压有提升的趋势
事后多重比较
可用来进一步确定哪两个变量间有差异,哪两个变量间没有差异。
由于各周血压的 P 值均小于 0.01,故可以认为,每次注射了新药之后,血压都有差异性。从配对差值可以看出,差异性主要是上升,每次注射新药后,血压都会少量的上升。从 Cohen's d 值和配对差值可以看出,第三周到第四周的提升幅度是最大的。
4、独立样本MannWhitney检验
用于分析一个定类变量(二分类变量)与一个或者多个定量变量之间有无明显差异,各分类频数可以不相等。(三分类及以上使用 Kruskal-Wallis 检验)
示例:研究不同学校的学生成绩是否存在差异性
操作过程
检验结果
甲学校、乙学校在成绩上的中位数分别为:45.93/73.145,差异较大。标准差非常接近。p值<0.05,因此统计结果显著,甲学校、乙学校在成绩上存在显著差异。其差异幅度 Cohen's d 值为:2.328,差异幅度非常大。
MannWhitney U 检验频率直方图
由上图可以直观发现,甲学校成绩偏低,乙学校成绩偏高。
5、多独立样本Kruskal-Wallis检验
用于定类字段(X)与 1 个或 1 个以上的定量字段(Y)之间的差异性研究
示例:分析个人受教育程度(定类变量)是否给个人的经济收入(定量变量)带来显著性影响
操作过程
检验结果
p 值<0.05,因此统计结果显著,说明不同受教育程度在收入上存在显著差异。差异幅度 Cohen's f 值为:0.113,差异幅度非常小。
事后多重分析
除去硕博的差异幅度是中等以外,其他的差异幅度都相当的大,可见学历的重要性。
6、卡方拟合优度检验
基于卡方统计量用于判断期望频数与观察频数是否有显著差异,通常应用于问卷的多重响应频率分析里面的响应率与普及率分析。
示例:调查某行业从业人员学历水平程度,预计本科与硕士的学历比例为 9:1,实际收集到本科学历个数 87 人,硕士 13 人,判断收集的数据分布与预期是否呈显著性差异
操作过程
检验结果
显著性 P 值为 0.317,水平上不呈现显著性,不能拒绝原假设,因此数据的分布与预期相比无显著性差异。可认为本科生与研究生的比值为 9:1。
相关推荐
第三届数据分析科普竞赛优秀协办单位及校园大使名单公布!
# 2024年全国大学生数据分析实践赛获奖名单(初稿)公示 2024年全国大学生数据分析实践赛自2024年8月16日开启,共计吸引了来自
**2024数据分析实践赛已于8月16日 18:00正式公布题目!** 完整题目、数据及论文提交格式下载方式: 一、直接通过赛氪网公告下