毕业论文问卷分析之差异性分析对比
毕业论文 https://www.spsspro.com/ · 5633浏览 · 2022-03-11 02:13
差异研究的目的在于比较两组数据或多组数据之间的差异

在问卷分析类的毕业论文中,无论是影响关系类研究,还是实验类研究,亦或是现状政策类研究,都逃不开差异性分析。需要对比不同人群,比如性别,年龄等不同群体,他们对于量表题项在态度、行为上的差异情况等,都需要使用差异性分析,但是对于多种多样的差异性分析适用的场景又不尽相同,很多小白表示一头雾水。

image.png

今天这篇文章总结几个常用的毕业论文差异性分析的方法,分享怎么简单选择出合适的分析方法。

1 差异性分析简介

差异研究的目的在于比较两组数据或多组数据之间的差异,通常包括以下几类分析方法:

image.png

参数检验都基于共同的两个假设:

正态性假定 方差齐性假定

如果不满足上述两个条件,可以采用基于秩和的非参数检验,如Kruskal-Wallis检验,Friedman检验。

不同类型的差异性分析的应用场景

image.png

研究定类数据和定量数据之间的关系:

两组样本:T 检验 【性别(男、女)对于满意度的差异情况】

多组样本:方差分析 【不同学历(本科以下,本科,硕士及以上)对工作满意度的差异情况】

研究定类数据和定类数据之间的关系:

卡方检验:(性别和是否买彩票之间的关系)

2 不同分析方法案例详解

2.1 方差分析

方差分析用于定类字段(X)与 1 个或 1 个以上的定量字段(Y)之间的差异性研究。需要注意的是,一个定类字段称为单因素方差分析,两个定类字段及以上称为多因素方差分析。

2.11 单因素方差分析

在使用单因素方差分析时,需要每个选项的样本量大于30。比如研究不同年龄组样本对于研究变量的差异性态度时,年龄小于20岁的样本量仅为20个,那么需要将小于20岁的选项与另外一组(比如20~25岁)的组别合并为一组,然后再进行单因素方差分析。如果选项无法进行合并处理,可以考虑剔除样本量过少的组别。

输入:一个定类字段X(学历)、一个或多个定量字段Y(月收入)

输出:同一因素不同分组(如:不同的学历X)对定量变量(如:月收入 Y)产生/不产生显著性影响

案例:分析个人受教育程度(定类变量)是否给个人的经济收入(定量变量)带来显著性影响

image.png

image.png

1)正态性检验

image.png

根据定类变量(X)对定量变量(Y)进行分组,分别检验其正态性检验,查看数据的总体分布是否呈现正态性分布(P>0.05)。通常现实研究情况下很难满足检验,若其样本峰度绝对值小于10并且偏度绝对值小于3,结合正态分布图可以描述为基本符合正态分布

通常正态分布的检验方法有两种,一种是Shapiro-Wilk检验,适用于小样本资料(样本量≤5000);另一种是Kolmogorov–Smirnov检验,适用于大样本资料(样本量>5000)

月收入,样本采用Shapiro-Wilk检验,显著性P值为0.022**<0.05,水平上呈现显著性,拒绝原假设,理论上数据不满足正态分布,但是其峰度(-0.076)绝对值小于10并且偏度(-0.07)绝对值小于3,可以描述为基本符合正态分布。

2)方差齐性检验

根据定类变量(X)对定量变量(Y)进行分组,进行方差齐性检验,倘若P>0.05,使用方差分析。

image.png

方差齐性检验的结果显示,对于时间,显著性P值为0.202,水平上不呈现显著性,不能拒绝原假设,因此数据满足方差齐性。

3)方差分析结果

image.png

方差分析结果 p值为0.000***≤0.05,因此统计结果显著,说明不同的学历在月收入上存在显著差异。

2.12 多因素方差分析

变量 X 的个数>1,其他步骤一致,在这里就不演示啦~

2.2 T检验

T检验用于分析定类数据与定量数据之间的关系情况。

2.21 单样本T检验

单样本 T 检验用于比较样本数据与一个特定数值之间的差异情况,同时要求数据呈现正态性分布。此分析方法在问卷研究中较少使用。单样本 T 检验仅仅支持样本和一个值进行检验,如果两个样本之间检验,则采用独立样本 T 检验/配对样本 T 检验。

单样本 T 检验要求检验样本呈现正态分布,如果不呈现正态分布,应选择单样本 Wilcoxon 符号秩检验。

输入:设定的检验值。

输出:该定量变量数据是否与该特定数值分布呈现一致性。

案例:研究一家食品生产企业的罐装食品标准重量是不是 100g。

image.png

image.png

1)正态性检验

image.png

weight样本N=100<5000,采用S-W检验,显著性P值为0.949,水平上不呈现显著性,不能拒绝原假设,因此数据满足正态分布。其均值 101.383 相差检验值 100 不大。

2)单样本T检验结果

image.png

单样本T检验的结果显示,基于重量和输入的检验值 100,显著性P值为1.000>0.05,水平上不呈现显著性,不能拒绝原假设,因此weight和检验值101.38278不存在差异性。所以我们可以认为这家食品生产企业的罐装食品标准重量是 100g。

2.22 独立样本T检验

独立样本T检验和单因素方差分析功能上基本一致,但是独立样本T检验只能比较两组选项的差异。独立样本T检验两组样本个数可以不相等。

针对问卷研究,如果比较的类别为两组,独立样本T检验和单因素方差分析均可实现,研究者自行选择使用即可。

输入:一个二分类定类变量 X(学校字段:一中、二中)、一个或多个定量字段 Y(成绩)。

输出:模型检验的结果,如一中与二中的学生成绩存在/不存在显著性差异。

案例:如研究不同学校的学生(各学校学生数不一定相等)成绩是否存在差异性。

image.png

image.png

1)正态性检验

image.png

采用S-W检验,显著性P值为0.496>0.05,水平上不呈现显著性,不能拒绝原假设,因此数据满足正态分布。

2)方差齐性检验

image.png

方差齐性检验的结果显示, 对于成绩,显著性P值为0.393,水平上不呈现显著性,不能拒绝原假设,因此数据满足方差齐性。

3)独立样本T检验分析结果

image.png

F 检验结果 p 值为0.180>=0.05,因此统计结果不显著,说明一中,二中在成绩上不存在显著差异。

其差异幅度Cohen's d值为:0.389, 差异幅度较小(0.20,0.50和0.80分别对应小、中、大临界点)

2.23 配对样本T检验

适用于比较组别之间有配对关系时,配对关系是指类似实验组和对照组的这类关系。配对样本T检验的两组样本量需要完全相等。

输入:样本数相同,且差值呈现正态分布的两个定量变量。

输出:这两个定量变量是否存在差异性。

案例:检验某医院 300 个病人注射某药剂前后血压是否一致。

image.png

image.png

1)正态性检验

image.png

服药前血压配对服药后血压样本N<5000,采用S-W检验,显著性P值为0.554,水平上不呈现显著性,不能拒绝原假设,因此数据满足正态分布。

2)配对样本T检验结果

image.png

配对样本T检验的结果显示,基于字段服药前血压配对服药后血压,显著性P值为0.000***,水平上呈现显著性,拒绝原假设,因此病人注射某药剂前后血压可认为不一致。而且其差异幅度Cohen's d值为:2.308,可认为差异幅度非常大。

2.3 卡方检验

卡方检验用于分析定类数据与定类数据之间的关系情况。通过分析不同类别数据的相对选择频数和占比情况,进而进行差异判断,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小。单选题或多选题均可以使用卡方分析进行对比差异分析。

输入:一个定类变量 X(如月收入,包括甲学校、乙学校)与定类字段 Y(如甲学校 40 名学生与乙学校 60 名学生的体育成绩等级)

输出:模型检验的结果,如甲学校与乙学校的学生体育成绩等级存在/不存在显著性差异

案例:不同月收入的群体在某品牌的口味、价格上的满意度是否有显著差异

image.png

image.png

1)卡方检验分析结果

image.png

对于口味满意度,显著性P值为0.002***<0.05,水平上呈现显著性,拒绝原假设,因此不同月收入的群体在口味满意度上存在显著性差异

对于价格满意度,显著性P值为0.001***<0.05,水平上呈现显著性,拒绝原假设,因此不同月收入的群体在价格满意度上存在显著性差异。

2)卡方交叉热力图

image.png

image.png

颜色深浅去表示值的大小

3)效应量化分析

phi(2×2)、Crammer's V(若m≠n,建议使用Cramer's V )、列联系数(3×3或4×4),用于分析样本的相关程度。当系数小于0.3时,表示相关较弱;当系数大于0.6时,表示相关较强。

根据交叉类型的不同,可以选用不同的效应量指标。(交叉类型表示:交叉表横向格子数×纵向格子数)

lambda:用于反应自变量对因变量的预测效果,一般情况下,其值为1时表示自变量预测因变量效果较好,为0时表明自变量预测因变量较差

image.png

口味满意度 Cramer’s V值为0.141,因此口味满意度和月收入范围的差异程度为弱程度差异

价格满意度 Cramer’s V值为0.147,因此价格满意度和月收入范围的差异程度为弱程度差异

3 各差异性分析模型的使用场景总结

image.png

相关推荐

默认标签 数据分析达人
2024年全国大学生数据分析实践赛获奖名单(初稿)公示

# 2024年全国大学生数据分析实践赛获奖名单(初稿)公示 2024年全国大学生数据分析实践赛自2024年8月16日开启,共计吸引了来自

知识竞赛 原创 · 1822浏览 · 09-04 08:07
2024数据分析实践赛A、B赛题公布!

**2024数据分析实践赛已于8月16日 18:00正式公布题目!** 完整题目、数据及论文提交格式下载方式: 一、直接通过赛氪网公告下

知识竞赛 原创 · 4274浏览 · 08-16 10:07
深入理解标准正态分布的峰度与偏度

本文阐述了峰度与偏度在统计学中的意义,及其对管理决策的影响。峰度反映数据分布尖锐度,偏度衡量对称性。理解两者有助于风险评估、市场预测和策略规划,促进更精准的决策,增强管理效能。通过有效利用这些统计概念,管理者能提升数据分析技能,优化决策流程。

其他 原创 · 1939浏览 · 07-08 04:40
0 条评论
    某人
    可输入 255
    SPSSPRO社区 扫码访问移动端