

当检验多个总体的均值是否相等时,方差分析是更有效的统计方法。由于是通过对数据误差的分析来判断均值是否相等,故名方差分析,又称“变异数分析”或“F检验”,本质上它所研究的是分类自变量对数值因变量的影响。
方差分析用于定类字段(X)与 1 个或 1 个以上的定量字段(Y)之间的差异性研究。需要注意的是,一个定类字段称为单因素方差分析,两个定类字段及以上称为多因素方差分析。
下面是方差分析的基本流程:
方差分析的类型:
方差分析按照自变量(定类字段)个数的不同,可以分为单因素方差分析、双因素方差分析、以及多因素方差分析。
方差分析模型需要满足的条件:
- 独立性:各组数据相互独立、互不相关
- 正态性:对于偏态分布的变量通过对数、倒数、平方根变化等方法,变为正态分布或者近似正态分布再来进行方差分析
- 方差齐性
理论上方差分析的分析变量(定量变量)Y 需要满足正态性检验与方差齐检验,如果不满足,建议采用非参数多独立样本检验。
正态性检验
方差分析要求因变量Y满足正态分布,可以使用SPSSPRO描述性统计——正态性检验,也可以使用PRO绘图中的P-P图/Q-Q图/直方图进行检验。
理论上满足正态分布,但现实情况不满足可能的原因:
- 抽样样本过少,导致总体是正态分布,但抽样样本不满足正态分布
- 绝对正态分布很难满足,可以结合正态分布直方图以及峰度(绝对值小于 10)、偏度(绝对值小于 3)进一步分析,如果数据分布基本满足“钟形曲线”特征,可以描述为基本符合正态分布。
小样本(小于50)时建议使用S-W检验,大样本(大于50)时建议使用K-S检验
1 不同分析方法案例详解
1.1 单因素方差分析
在使用单因素方差分析时,需要每个选项的样本量大于30。比如研究不同年龄组样本对于研究变量的差异性态度时,年龄小于20岁的样本量仅为20个,那么需要将小于20岁的选项与另外一组(比如20~25岁)的组别合并为一组,然后再进行单因素方差分析。如果选项无法进行合并处理,可以考虑剔除样本量过少的组别。
输入:一个定类字段X(学历)、一个或多个定量字段Y(月收入)
输出:同一因素不同分组(如:不同的学历X)对定量变量(如:月收入 Y)产生/不产生显著性影响
案例:分析个人受教育程度(定类变量)是否给个人的经济收入(定量变量)带来显著性影响
1)正态性检验
根据定类变量(X)对定量变量(Y)进行分组,分别检验其正态性检验,查看数据的总体分布是否呈现正态性分布(P>0.05)。通常现实研究情况下很难满足检验,若其样本峰度绝对值小于10并且偏度绝对值小于3,结合正态分布图可以描述为基本符合正态分布
通常正态分布的检验方法有两种,一种是Shapiro-Wilk检验,适用于小样本资料(样本量≤5000);另一种是Kolmogorov–Smirnov检验,适用于大样本资料(样本量>5000)
月收入,样本采用Shapiro-Wilk检验,显著性P值为0.022**<0.05,水平上呈现显著性,拒绝原假设,理论上数据不满足正态分布,但是其峰度(-0.076)绝对值小于10并且偏度(-0.07)绝对值小于3,可以描述为基本符合正态分布。
2)方差齐性检验
根据定类变量(X)对定量变量(Y)进行分组,进行方差齐性检验,倘若P>0.05,使用方差分析。
方差齐性检验的结果显示,对于时间,显著性P值为0.202,水平上不呈现显著性,不能拒绝原假设,因此数据满足方差齐性。
3)方差分析结果
方差分析结果 p值为0.000***≤0.05,因此统计结果显著,说明不同的学历在月收入上存在显著差异。
摘要单因素方差分析:
一般进行单因素方差分析需要原始数据进行分析,但有时没有原始数据,如数据缺失或者验证论文时。此时只有样本量,平均值,标准差这样的汇总数据,可以使用摘要单因素方差分析检验差异是否显著。
1.2 双因素方差分析
单因素方差分析只考虑一个定类自变量对定量因变量的影响。但在现实研究中,一个变量的影响可能不足以说明差异效果,当方差分析中涉及两个定类自变量时,称为双因素方差分析,用于分析两个自变量对因变量带来的显著性影响。
双因素方差分析包括无交互作用和有交互作用两种:
- 无交互作用的双因素方差分析假定两个因素的效应之间相互独立,不存在相互关系;
- 有交互作用的双因素方差分析假定两个因素的结合会产生出一种新的效应。
比如我们大家所熟知的,牛奶和药是不可以一起吃的,如果单独喝牛奶有助于身体蛋白质的补充,如果单独吃药可以有助于治疗病症,但是牛奶和药同时吃就会把两者的作用抵消掉。这种两者之间的相互作用就可以理解成是交互作用,当然了,有的时候交互是正向呢,有的时候是负向的。
下面介绍的为无交互作用的双因素方差分析,有交互作用的方差分析需考虑交互作用项,系统提供了带有交互作用的双因素方差分析。
输入:两个定类变量(如电脑的品牌和生产地区)与一个定量变量(如电脑销量)。
输出:模型双因素方差分析的结果:变量一对定量变量产生/不产生显著性影响,变量二对定量变量产生/不产生显著性影响。
案例:分析品牌和地区两个定类自变量对电脑销量(定量因变量)的影响。
1) 双因素方差分析结果
对于变量品牌、地区,从F检验的结果分析可以得到,显著性P值为0.000***水平上呈现显著性,对结果有显著性影响,存在主效应,可以进一步分析事后多重分析结果。
2) 均值对比图
上图展示了双因素方差分析的均值的结果,通过比较不同分组变量的均值以及交叉情况(通常有交叉则有交互作用),可以挖掘其差异关系。
1.3 三因素方差分析
三因素方差分析是检验在三种因素影响下,三个以上总体的均值之间是否相等的一种统计方法。包括无交互影响和有交互影响的情况。
下面介绍为无交互影响的三因素方差分析,若需分析有有交互影响的情况,只需在上面案例操作 step6:进行相关设置即可。
输入:三个定类变量(如电脑的品牌、广告形式和生产地区)与一个定量变量(如电脑销量)
输出:模型三因素方差分析的结果:变量一对定量变量产生/不产生显著性影响,变量二对定量变量产生/不产生显著性影响,变量三对定量变量产生/不产生显著性影响,均值对比图。
案例:分析品牌、地区和广告形式三个定类自变量对电脑销量(定量因变量)的影响。
1)三因素方差分析结果
对于变量截距、品牌、地区,从F检验的结果分析可以得到,显著性P值为0.000***水平上呈现显著性,对结果有显著性影响,存在主效应。
对于变量广告形式,从F检验的结果分析可以得到,显著性P值为0.915水平上不呈现显著性,对结果没有显著性影响,不存在主效应。
2)均值对比图
上图展示了三因素方差分析的均值的结果,通过比较不同分组变量的均值以及交叉情况(通常有交叉则有交互作用),可以挖掘其差异关系,右上角可以进行对比切换。
多因素方差分析可使用SPSSPRO参数检验——多因素方差分析,这里就不进行案例展示了。
1.4 事后多重比较
方差分析的结果只能检验出三个以上的总体均值完全相同或不完全相同。当不完全相同时,至于是哪个或哪些总体均值与其它总体均值不同则是不能获知的。因此方差分析结束以后还需要做事后多重检验,分析出到底是哪个或哪些总体均值与众不同。
我们采用单因素方差分析的案例来进行事后多重比较的演示。
输入:一个定类字段X(学历)、一个或多个定量字段Y(月收入)
输出:同一因素不同分组(如:不同的学历X)对定量变量(如:月收入 Y)产生/不产生显著性影响
案例:分析个人受教育程度(定类变量)是否给个人的经济收入(定量变量)带来显著性影响
LSD法:最小显著性差异法,是最简单的比较方法之一
1)方差分析结果
方差分析的结果显示,对于变量月收入,显著性P值为0.000***,水平上呈现显著性,拒绝原假设,说明变量月收入在学历之间存在显著性差异,需要进行事后多重比较。
2)方差分析对比图
上图展示了方差分析的均值的结果,通过比较均值,可以挖掘其差异关系,一般结合输出结果三共同分析。
3)事后多重比较结果
使用LSD方法的事后多重比较的结果显示: 对于变量月收入,均值大小排序为:大学>高中>初中>无。其中初中与大学、初中与高中、大学与无、大学与高中存在显著性差异。
注意:
- 如果输入的定类变量仅两类,则一般不进行事后多重比较;
- 如果方差分析的结果P值大于0.05,说明各类之间没有差异性,则不需要进行事后多重比较;
- 尽量在方差齐性时进行方差分析甚至两两比较
相关推荐