

数据类型判别
计量资料:连续数据,通如身高、体重、血压、肺活量等。
计数资料:只研究数量的多少,不考虑某质量特征。如将研究人群按血型统计各型的人数。
一、计量资料
1、假设检验
假设检验的目的在于比较两组数据或多组数据之间的差异,通常包括两组样本数据的比较以及多组样本数据的比较。
1.1 两组样本数据
首先要进行正态分布检验,如果数据服从正态分布,可以使用参数检验: 1)比较样本数据与一个特定数值之间的差异情况时,适用单样本t检验。如研究一家食品生产企业的罐装食品标准重量是不是 100g。
2)比较配对的连续变量X1与连续变量X2之间的差异情况,可以用配对样本t检验。例如检验某医院30个病人注射某药剂前后血压是否一致
3)比较一个定类变量与一个或者多个定量变量之间有无明显差异,可以使用独立样本t检验(各分类频数可以不相等)。如研究不同学校的学生(各学校学生数不一定相等)成绩是否存在差异性。
如果数据不服从正态分布,只能用非参数检验: 1)比较样本数据中位数与一个特定数值之间的差异情况,用单样本Wilcoxon符号秩检验。
2)样本数据为完全随机资料时,用配对样本Wilcoxon符号秩检验。
3)样本数据为配对资料时,用独立样本MannWhitney检验。
1.2 多组样本数据
数据服从正态分布: 方差分析(F 检验):与独立样本 T 检验不同的是,方差分析可用于多分类定类字段数据的差异性分析,T 检验只能作用于二分类定类变量。
方差分析的结果只能检验出三个以上的总体均值完全相同或不完全相同。当不完全相同时,至于是哪个或哪些总体均值与其它总体均值不同则是不能获知的。因此方差分析结束以后还需要做事后多重检验,分析出到底是哪个或哪些总体均值与众不同。
数据不服从正态分布: 1)样本数据为完全随机资料时,用多独立样本Kruskal-Wallis检验。
2)样本数据为配对资料时,用多配对样本Friedman检验。
2、统计回归
回归分析是研究自变量与因变量之间数量变化关系的一种分析方法,它主要是通过因变量 Y 与影响它的自变量 X 之间的回归模型,衡量自变量 X 对因变量 Y 的影响能力的,进而可以用来预测因变量 Y 的发展趋势。
常用的还是线性直线回归和Logistic回归,当因变量Y为定量数据时使用线性回归,当因变量Y为定类数据时使用Logistic回归。
二、计数资料
当我们要比较两组或者多组之间的分类型变量是否有显著性差异,需要使用专门用于分类变量比较的卡方检验。
1、当 n(样本量) ≥40,T(理论频数) ≥ 5,用 Pearson卡方检验
可用于两种情境的变项比较:适配度检验和独立性检验。当提及卡方检验而没有特别指明类型时,通常即指皮尔森卡方检验。
独立性检验:验证从两个变量抽出的配对观察值组是否互相独立。 适配度检验:验证一组观察值的次数分配是否异于理论上的分配【卡方拟合优度检验】。
2、当 n≥40 时,如果某个格子出现 1≤ T ≤5,则需作Yates校正卡方检验
当用皮尔森卡方检验做独立性检验时,若任何一个字段的期望次数小于 5,会使“近似于卡方分配”的假设不可信,统计值会系统性地偏高,导致过度地拒绝虚无假设。此时可以做叶氏连续性校正。
校正的目的:是在小样本情况下,降低将离散型频数数据近似到连续性卡方统计量的过程中的误差。
3、当 n<40,或任何格子出现 T<1,或检验所得的 P 值接近于检验水准,采用 Fisher 精确检验
Fisher 精确检验没有统计量,更没有繁琐的统计量的表格,它算出来的就是 p 值,但是它在大样本情况下手算几乎是不可能的,因为它涉及到阶乘运算。
4、当想在卡方检验基础上进一步考虑分层项的干扰(混杂因素),可以使用分层卡方分析
主要用于分层或匹配分类数据的分析。比如想要调查某一地区接种疫苗(X) 对感染病毒 (Y) 的影响,由此来判断疫苗的有效性;但考虑到男性、女性体质的不同,疫苗可能会造成不一样的抵抗病毒能力,因此将性别 (Z) 作为混杂因素来进行分析。
5、想分析配对数据之间的差异性,可以使用配对卡方检验
即变量X1、X2是一个事物的同一属性,例如分别采用甲、乙两种方法对同一批病人进行检查,比较此两种方法的结果是否有本质不同。
需要满足的假设:
观测变量是二分类变量(互斥) 分组变量有两类(有三类及以上的用Cochran’s Q检验)
6、当想考察定类变量与有序定类变量之间的差异性,可以使用Ridit分析
如研究两三种药物对疗效的差异性。其中疗效分为(痊愈、显效、有效、无效),用卡方检验只能反映药物与疗效之间是否有差异,当出现差异性时,无法进一步比较各药物的疗效水平情况。
介绍了这么多种卡方检验,如果大家不知道该如何选择,可以使用SPSSPRO的卡方检验(自动选取最优求解器),根据输入的数据,自动选取合适的卡方检验方法。
三、生存分析
将终点时间的出现与否和达到终点所历经的时间结合起来分析的一类统计分析方法,需考虑每个研究对象出现某一结局所经历的时间长短,同时考虑时间的观察和随访时间。
1、寿命表
使用用于分段统计的资料,即将整个观察时间划分成很多小的时间段,然后统计各时间段内发生终点时间(如死亡)和失访的数目。
2、Kaplan-Meier曲线
Kaplan-Meier 曲线又称生存曲线,是一种生存分析的常用方法,主要分析单一因素对生存期的影响,用于估计患者生存率和绘制生存曲线。
3、Cox回归模型(比例风险模型)
该模型以最终结局和生存时间为因变量,同时分析众多因素对生存时间的影响,目前在医疗,金融和市场研究等专业领域中广泛使用。如医学研究中,药物 X 的使用是否增加或减少病人的存活时间等等。
相关推荐