多元线性回归中的逐步回归
案例库 https://www.spsspro.com/ · 3051浏览 · 2022-08-05 08:21
什么是逐步回归呢?就是字面意思,一步一步进行回归。

前面我们讲过了多元线性回归。本期跟大家一起交流一下多元线性回归分析的升级版——逐步回归。什么是逐步回归呢?就是字面意思,一步一步进行回归。

我们在进行多元回归是要考虑众多个自变量 x 中是否都对因变量 y 有作用。对于那些没有作用的变量最好是不让它加入到回归模型里面。我们把这个筛选起作用的变量或者剔除不起作用变量的过程叫做变量选择。这也是逐步回归的基本思想。

逐步回归是以线性回归为基础的方法。其思路是将变量一个接着一个引入,并在引入一个新变量后,对已入选回归模型的旧变量逐个进行检验,将认为没有意义的变量删除,直到没有新变量引入也没有旧变量删除,从而保证回归模型中每一个变量都有意义。

基本步骤如下如图所示:

image.png

逐步回归主要解决的是多变量共线性问题,也就是不是线性无关的关系,它是基于变量解释性来进行特征提取的一种回归方法。

逐步回归的主要做法有三种:

1、向前选择(Forward)

将自变量逐个引入模型,引入一个自变量后要查看该变量的引入是否使得模型发生显著性变化(F检验),如果发生了显著性变化,那么则将该变量引入模型中,否则忽略该变量,直至所有变量都进行了考虑。即将变量按照贡献度从大到小排列,依次加入。

特点:自变量一旦选入,则永远保存在模型中;不能反映自变量选进模型后的模型本身的变化情况。

2、向后选择(Backward)

与向前选择相反,在这个方法中,将所有变量放入模型,然后尝试将某一变量进行剔除,查看剔除后对整个模型是否有显著性变化(F检验),如果没有显著性变化则剔除,若有则保留,直到留下所有对模型有显著性变化的因素。即将自变量按贡献度从小到大,依次剔除。

特点:自变量一旦剔除,则不再进入模型;开始把全部自变量引入模型,计算量过大。

3、逐步筛选法(stepwise)

是向前选择和向后选择两种方法的结合,即一边选择,一边剔除。

当引入一个变量后,首先查看这个变量是否使得模型发生显著性变化(F检验),若发生显著性变化,再对所有变量进行t检验,当原来引入变量由于后面加入的变量的引入而不再显著变化时,则剔除此变量,确保每次引入新的变量之前回归方程中只包含显著性变量,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止,最终得到一个最优的变量集合。

案例介绍

上海每个月都会向化石燃料汽车购买者拍卖数量有限的车牌,在逐步回归方法中使用该月颁发的车牌数、最低价格和申请人总数预测下个月的平均价格。

image.png

软件操作

image.png

这里使用是常见的逐步法,以及进入和删除的概率值均使用默认值

结果解读

1)模型数据摘要

image.png

一般逐步回归是用作变量筛选的,这一步的结果给出了哪些变量被舍弃,哪些变量被保留,从而关注变量的重要性。

这里舍弃了申请人总数这一项变量

2)逐步回归模型结果表

image.png

这一步对构建好的模型进行F检验,检查模型构建情况,是否存在多重共线性问题,一般经过筛选后的逐步回归模型都能通过这个检验。

从F检验的结果分析可以得到,显著性P值为0.000***,水平呈现显著性,拒绝回归系数为0的原假设。

对于变量共线性表现,VIF全部小于10,因此模型没有多重共线性问题,模型构建良好。

可以得到模型的公式如下: y=1519.197+0.933最低价格+0.401颁发的车牌数

3)拟合效果图

image.png

展示了本次模型的原始数据图、模型拟合值、模型预测值。

4)模型路径图

image.png

以路径图形式展示了本次模型结果,主要包括模型的系数,用于分析X对于Y的影响关系情况。

5)模型结果预测

image.png

输入数据可实现对模型的预测。

注意事项

1、逐步回归一般有三种策略:正向、向后和逐步选择。一般采用默认的逐步选择即可。

2、逐步回归一般用于变量的筛选(哪些变量重要,且最终结果没有多重共线性),结果可以作为其他模型的输入。也可以对共线性严重的数据进行回归分析的预测或者解释。

3、如果输出“模型无显著变量”,说明可能所有的自变量均无太大意义

相关推荐

默认标签 数据分析达人
2024年全国大学生数据分析实践赛获奖名单(初稿)公示

# 2024年全国大学生数据分析实践赛获奖名单(初稿)公示 2024年全国大学生数据分析实践赛自2024年8月16日开启,共计吸引了来自

知识竞赛 原创 · 1825浏览 · 09-04 08:07
2024数据分析实践赛A、B赛题公布!

**2024数据分析实践赛已于8月16日 18:00正式公布题目!** 完整题目、数据及论文提交格式下载方式: 一、直接通过赛氪网公告下

知识竞赛 原创 · 4284浏览 · 08-16 10:07
深入理解标准正态分布的峰度与偏度

本文阐述了峰度与偏度在统计学中的意义,及其对管理决策的影响。峰度反映数据分布尖锐度,偏度衡量对称性。理解两者有助于风险评估、市场预测和策略规划,促进更精准的决策,增强管理效能。通过有效利用这些统计概念,管理者能提升数据分析技能,优化决策流程。

其他 原创 · 1942浏览 · 07-08 04:40
0 条评论
    某人
    可输入 255
    SPSSPRO社区 扫码访问移动端