你还不会做分层回归?来看案例详解
案例库 https://www.spsspro.com/ · 6717浏览 · 2022-03-03 02:36
分层回归是建立在回归分析基础上,用于研究多个回归模型之间的差异。

经常被问起分层回归是咋回事?是按照变量的水平数进行分割,然后进行分析嘛?还是用某个分类自变量将数据拆分后再做多组回归分析?这样理解的大有人在。

其实这把分层回归想复杂了,看到分层两个字,以为是个高大上的新方法,分层回归还是我们熟悉的回归分析,学过线性回归就一定能马上操作分层回归。

1 分层回归模型理论

1.1 定义

所谓的分层,是指逐个或逐层增加自变量后对回归模型的改变有无统计学意义的研究。自变量是一层一层叠加上去的,为的就是看每增加一个或多个自变量后模型的改变有没有统计学意义,本质上是专门研究后来居上的新增自变量的重要性。

分层回归是建立在回归分析基础上,用于研究多个回归模型之间的差异。分层回归将核心研究的变量放在最后一步进入模型,以考察在排除了其他变量的贡献的情况下,该变量对回归方程的贡献。如果变量仍然有明显的贡献,那么就可以做出该变量确实具有其他变量所不能替代的独特作用的结论。这种方法主要用于,当自变量之间有较高的相关,其中一个自变量的独特贡献难以确定的情况。常用于中介作用或者调节作用研究中。

1.2 分层回归适用条件

因变量是连续变量

自变量不少于2个(连续变量或分类变量都可以)

具有相互独立的观测值

自变量和因变量之间存在线性关系

等方差性

不存在多重共线性

不存在显著的异常值

残差近似正态分布

【注意】:进行分层回归时,仍然需要满足回归分析的假设条件,条件3-8的检验过程与多重线性回归基本一致。

1.3 各项指标的解释

● F值:用于判断模型是否有意义(p<0.05,说明模型有意义),F 值想计算得到p 值,需要提供两个自由度值df 1和df 2。一般情况下,df 1等于自变量数量;df 2等于样本量 - (自变量数量+1)。

● △F:模型变化时,F值的变化(该值不是直接F值相减),将第一个△F值修正为上个层次的变量数-本层次的变量数,如果对应P值小于0.05则说明模型变化有意义

● R²:代表模型的拟合程度,越接近1效果越好(比如R²为0.045,则说明所有X可以解释Y 4.5%的变化原因)

● △R²:模型变化,R²的变化情况

● 调整R²:模型的解释力度(用于惩罚自变量数量增加造成的R²的指标,一般依旧使用R²

2 背景介绍

肺活量是评价人体健康的关键指标,但因测量方法复杂,不易实现。某研究者拟通过一些方便、易得的指标建立受试者肺活量的预测模型。

目前,该研究者已知受试者的身高和体重与肺活量有关,但这种关联强度并不足以进行回归模型的预测。因此,该研究者拟增加运动时长(分钟)这一变量,并判断是否可以增强模型的预测能力。

本研究中,研究者共招募451位受试者,分别测量他们的肺活量,并收集身高、体重、运动时长变量信息,部分数据如下:

image.png

3 结果解释

3.1 比较不同的模型

image.png

从输出结果可以看出,本研究共有2个模型:控制层和层次1。

控制层是第一个模型,没有前序变量,因此该模型的自变量只有身高和体重。层次1比前一个模型增加了运动分钟变量

控制层和层次1中纳入的变量都是在上一个模型基础上的。比如,层次1是在控制层的基础上纳入运动分钟变量,即共纳入身高、体重、运动分钟三个变量,而不是运动分钟一个变量。

3.2 判断分层回归模型的拟合程度

3.21 变异的解释程度

image.png

R2是多层回归的重要指标,反映自变量解释因变量变异的程度。从上表可以看出,随着自变量数量的增加,模型1-2的R2逐渐增加,分别是0.653和0.747,提示层次1模型对因变量的预测能力加强。

3.22 R2值在各模型间的变化

image.png

控制层是初始模型,在空模型的基础上增加了身高和体重两个变量。该模型的△R²和R²值相同,均为0.653。△R²具有统计学意义,P<0.001。

层次1的△R²为0.094,即模型2的R²值(0.747)与模型1的R²值(0.653)的差,P<0.001,即模型2的△R²具有统计学意义。

在本研究中,层次1与控制层的差别仅在于运动分钟变量,提示在回归中纳入运动分钟变量后自变量对因变量变异的解释能力增加9.4%(P<0.001),即纳入运动分钟变量对受试者肺活量的预测改善有统计学意义。

解释:如果我们在层次1中增加了不止一个变量,那么R²值的改变就是所有新增变量共同作用的结果,而不是某一个变量的。

3.23 模型的统计学意义

image.png

分层回归模型主要关注的是最终模型,即最后一个完整的模型,本例中的层次1

层次1是全模型,纳入身高、体重、运动分钟三个变量。结果示,该模型具有统计学意义,F(3,450)=439.15,P<0.001,提示因变量和自变量之间存在线性相关,说明相较于空模型,纳入这三个自变量有助于预测因变量。

3.24 回归系数

image.png

我们可以按照多重线性回归的分析方法对分层回归系数进行解释。

模型的公式如下:y=-1921.98+20.546身高+13.136体重+11.226*运动分钟

4 案例工具实现

4.1使用工具

4.11 SPSSPRO—>【预测模型—>线性回归】

4.2 案例操作

image.png

Step1:新建分析;

Step2:上传数据;

Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;

image.png

step4:选择【分层回归】;

step5:查看对应的数据数据格式,【分层回归】要求输入定量变量 Y,控制层为定量或定类变量,各层次也为定量或定类变量。

step6:点击【开始分析】,完成全部操作

4.3 分析结果解读

以下生成的结果来源于SPSSPRO软件的分析结果导出,SPSSPRO输出的结果中会给出智能解读结果,直接查看智能分析:

输出结果1:分层回归一致性检验

image.png

分层检验的结果显示:

基于分层模型:控制层,包括字段常数、身高cm、体重kg,显著性P值为1.000,水平上呈现显著性,拒绝原假设,因此模型有效,同时模型的拟合优度R²为0.653,模型表现较为良好,因此模型满足基本满足要求。

基于分层模型:分层1,包括字段常数、身高cm、体重kg、运动分钟,显著性P值为1.000,水平上呈现显著性,拒绝原假设,因此模型有效,同时模型的拟合优度R²为0.747,模型表现较为良好,因此模型满足基本满足要求。

5 结论

分层回归其实是对两个或多个回归模型进行比较。我们可以根据两个模型所解释的变异量的差异来比较所建立的两个模型。一个模型解释了越多的变异,则它对数据的拟合就越好。分层回归相对来说建模更具备专业意义的指导,通常将专业认为重要的变量放在最后一层,以确定在控制其他变量之后,该自变量的意义大小。我们运行分层回归的主要目的是分析是否有必要增加新的自变量,而不是进行预测,回归系数不是我们主要关注的结果。

6 参考文献

[1]Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from spsspro.com.

[2]聂洪涛,韩欣悦. 我国有效专利区域发展"马太效应"困境及其调适——基于分层回归的实证研究[J]. 经济论坛,2021(8). DOI:10.3969/j.issn.1003-3580.2021.08.011.

相关推荐

默认标签 数据分析达人
2025年第四届全国大学生数据分析实践赛

2025全国大学生数据分析实践赛报名须知

知识竞赛 原创 · 5891浏览 · 04-16 08:25
2025年第四届大学生数据分析科普竞赛实施方案

第四届大学生数据分析科普竞赛实施方案

知识竞赛 2025年第四届全国大学生数据分析实践赛组委会 · 6239浏览 · 03-04 09:37
2025第四届大学生数据分析科普竞赛通知

第四届大学生数据分析科普竞赛通知

知识竞赛 2025年第三届全国大学生数据分析实践赛组委会 · 6296浏览 · 03-04 09:13
0 条评论
    某人
    可输入 255
    SPSSPRO社区 扫码访问移动端