一文搞懂线性回归——附案例
案例库 https://www.spsspro.com/ · 9816浏览 · 2022-03-03 02:32
回归分析是研究自变量与因变量之间数量变化关系的一种分析方法,它主要是通过因变量Y与影响它的自变量Xi(i1,2,3…)之间的回归模型,衡量自变量Xi对因变量Y的影响能力的,进而可以用来预测因变量Y的发展趋势。

在统计学中回归分析的重要性就不言而喻了。至少对于初学者而言,回归分析基本可以说占了半壁江山。在回归分析中不仅会涉及到多种回归分析方法(线性的、非线性的),同时还涉及到假设检验等各方面的内容,能够把统计学中大半的内容串联起来。

那么今天我们就先来介绍一下回归当中最简单的线性回归。

1 回归的定义

回归分析是研究自变量与因变量之间数量变化关系的一种分析方法,它主要是通过因变量Y与影响它的自变量Xi(i1,2,3…)之间的回归模型,衡量自变量Xi对因变量Y的影响能力的,进而可以用来预测因变量Y的发展趋势。

回归分析包括:线性回归和非线性回归

线性:两个变量之间的关系是一次函数关系——图像是直线,每个自变量的最高次项为1

线性回归又分为:一元线性回归、多元线性回归(自变量x的个数的不同)

2 线性回归

2.1 线性回归的适用条件

2.11 线性回归是一个回归问题

与回归相对的是分类问题,分类问题要预测的变量 y 输出集合是有限的,预测值只能是有限集合内的一个。当要预测的变量 y 输出集合是无限且连续,我们称之为回归。比如,天气预报预测明天是否下雨,是一个二分类问题;预测明天的降雨量多少,就是一个回归问题。

2.12 变量之间是线性关系

线性通常是指变量之间保持等比例的关系,从图形上来看,变量之间的形状为直线,斜率是常数。这是一个非常强的假设,数据点的分布呈现复杂的曲线,则不能使用线性回归来建模。

2.13 误差服从均值为零的正态分布

误差可以表示为误差 = 实际值 - 预测值。可以这样理解这个假设:线性回归允许预测值与真实值之间存在误差,随着数据量的增多,这些数据的误差平均值为0;从图形上来看,各个真实值可能在直线上方,也可能在直线下方,当数据足够多时,各个数据上上下下相互抵消。如果误差不服从均值为零的正态分布,那么很有可能是出现了一些异常值

2.14 变量x的分布要有变异性

线性回归对变量x也有要求,要有一定变化,不能绝大多数数据都分布在一条竖线上。

2.15 多元线性回归不同特征之间相互独立

如果不同特征不是相互独立,那么可能导致特征间产生共线性,进而导致模型不准确。举一个比较极端的例子,预测房价时使用多个特征:房间数量,房间数量*2,-房间数量等,特征之间是线性相关的,如果模型只有这些特征,缺少其他有效特征,虽然可以训练出一个模型,但是模型不准确,预测性差。

2.2 线性回归分析步骤

1、根据预测目标,确定自变量和因变量;

2、绘制散点图,确定回归模型类型;

3、估计模型参数,建立回归模型;(最小二乘法)

4、对回归模型进行检验;

5、利用回归模型进行预测。

3 一元线性回归

回归模型中只含有一个自变量x,主要用来处理一个自变量x与一个因变量y之间的线性关系。

3.1 构建一元线性方程

image.png image.png

在这里,Y是我们试图预测的因变量,X是我们用来进行预测的自变量,a是回归线的斜率,b是一个常数,称为截距。

我们可以以身高(x)与体重(y)为例,二者是线性关系,身高正比于体重:

image.png

线性回归的目标就是让f(X)与y之间的差距最小,也就是权重a和偏置b取什么值的时候f(X)和y最接近。

3.2 构建损失函数

损失函数是来度量模型预测值与真实值不一样的程度的,或者说度量预测错误的程度,损失函数值越小,模型就越好。在回归问题中,误差平方和是回归任务中最常用的性能度量。这里就可以令损失函数L(a,b)等于误差平方和。

则损失函数为:

image.png

因此,将九个点分别带入该二元方程得到如下:

58=160a+b

63=165a+b

...

59=162a+b

62=171a+b

损失函数(总误差)为:

image.png

3.3 通过令损失函数最小来确定参数

如何得到最佳的a和b,使得尽可能多的到(x,y)数据点落在或者更靠近这条拟合出来的直线上,最小二乘法就是一个较好的计算方法。

那么什么是最小二乘法呢?

通过最小化误差的平方和寻找数据的最佳函数匹配。最小二乘法在回归模型上的应用,就是要使得观测点和估计点的距离的平方和达到最小。“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小,也就是刚才所说的使得尽可能多的(x,y)数据点落在或者更靠近这条拟合出来的直线上。

因此要求损失函数(误差平方和)值最小,可通过对L(a,b)求偏导数获得,并使得一阶倒数的值为0:

image.png image.png

将该公式代入到上述案例中,得到关于求解未知变量a、b的二元一次方程:

image.png

image.png

在得到了身高与体重的线程方程式后,我们就可以通过身高对体重进行预测!

3.4 软件实现

3.41 根据预测目标,确定自变量和因变量

要预测身高对体重的影响,目标是预测体重,所以将“身高”作为自变量,将“体重”作为因变量。

3.42 绘制散点图

在进行回归分析前,我们先要了解自变量和因变量之间的相关关系,以便判断后续采取回归模型的类型。所以我们要先进行相关性分析。

image.png

通过分析F值,分析其是否可以显著地拒绝总体回归系数为0的原假设,若呈显著性,表明之间存在着线性关系

从F检验的结果分析可以得到,显著性P值为0.003**,水平上呈现显著性, 拒绝回归系数为0的原假设,这两个变量之间存在着明显的线性关系

3.43 估计模型参数,建立线性回归模型

image.png

3.44 对回归模型进行检验

image.png

模型的拟合度R² =0.73, 模型表现较为良好, 因此模型基本满足要求对于变量共线性表现。

VIF全部小于10(若VIF大于10,建议使用岭回归或者逐步回归),因此模型没有多重共线性问题, 模型构建良好。

B列:

-8.288——代表常量 a(截距)

0.421——回归系数 b(斜率)

模型的公式如下:y=-8.288+0.421*身高

3.45 利用回归模型进行预测

image.png

知道了简单的回归方程式,我们可以对因变量进行预测了,假设一个人的身高为180cm,在其他因素都稳定的情况下,那么他的体重预计达到67.522kg。

4 多元线性回归

现在我们把自变量x扩展为多元的情况,即多种因素共同影响因变量y。现实问题也往往是这种情况,比如,要预测房价,需要考虑包括房子大小、楼层、房龄、是否配置电梯等。

image.png

不过,这些因素对房价影响的权重是不同的。因此,我们可以使用多个权重来表示多个因素与房屋价格的关系:

image.png

与一元线性方程相同,多元线性方程的损失函数为:

image.png

比一元线性回归更为复杂的是,多元线性回归组成的不是直线,是一个多维空间中的超平面,数据点散落在超平面的两侧。

image.png

虽然自变量x的数量增多了,但是计算公式仍旧是不变的

但是,随着x数量的增多,用公式计算也变得更加复杂,现实中我们往往需要通过软件加以辅助。

5 案例工具实现

5.1使用工具

5.11 SPSSPRO—>【预测模型—>线性回归】

5.12 案例操作

image.png

Step1:新建分析;

Step2:上传数据;

Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;

image.png

step4:选择【预测模型-线性回归】;

step5:查看对应的数据数据格式,按要求输入【线性回归】数据;

step6:点击【开始分析】,完成全部操作。

5.13 分析结果解读

以下生成的结果来源于SPSSPRO软件的分析结果导出,SPSSPRO输出的结果中会给出智能解读结果,直接查看智能分析:

输出结果 1:线性回归分析结果表

image.png

从 F 检验的结果分析可以得到,显著性 P 值为 0.000,水平上呈现显著性, 拒绝回归系数为 0 的原假设

模型的拟合度R² =0.91, 模型表现较为良好, 因此模型基本满足要求对于变量共线性表现。

VIF全部小于10(若VIF大于10,建议使用岭回归或者逐步回归),因此模型没有多重共线性问题, 模型构建良好。

B列:

模型的公式如下:y=37.362-1.1房龄+0.063楼层+0.457房价-18.390配套电梯

输出结果 2:拟合效果图

image.png

上图展示了本次模型的原始数据图、模型拟合值、模型预测值。

输出结果 3:模型路径图

image.png

上图以路径图形式展示了本次模型结果,主要包括模型的系数,用于分析X对于Y的影响关系情况。

输出结果 4:模型结果预测

image.png

上表格显示了线性回归模型的预测情况,在输入相应的自变量信息后,软件会自动生成因变量的预测值,帮助大家做一个参考。

注:

线性回归都可以通过最小二乘法或梯度下降法求出其方程,SPSSPRO 这里采用最小二乘法,其计算结果与 spss 一致,但会与梯度下降法略微差异;

线性回归如果有输入定类数据,那么要求该定类数据必须为二分类定类数据(哑变量化),因此 SPSSPRO 的输入变量 X2 中要求数据为定类数据,若数据不为二分类定类数据,SPSSPRO 会自动将其哑变量化

6 结论

线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其未知参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。其思想简单,实现容易。建模迅速,对于小数据量、简单的关系很有效,是许多强大的非线性模型的基础。但同时也具有它的局限性,对于非线性数据或者数据特征间具有相关性多项式回归难以建模,而且难以很好地表达高度复杂的数据。

相关推荐

默认标签 数据分析达人
2024年全国大学生数据分析实践赛获奖名单(初稿)公示

# 2024年全国大学生数据分析实践赛获奖名单(初稿)公示 2024年全国大学生数据分析实践赛自2024年8月16日开启,共计吸引了来自

知识竞赛 原创 · 1795浏览 · 09-04 08:07
2024数据分析实践赛A、B赛题公布!

**2024数据分析实践赛已于8月16日 18:00正式公布题目!** 完整题目、数据及论文提交格式下载方式: 一、直接通过赛氪网公告下

知识竞赛 原创 · 4213浏览 · 08-16 10:07
深入理解标准正态分布的峰度与偏度

本文阐述了峰度与偏度在统计学中的意义,及其对管理决策的影响。峰度反映数据分布尖锐度,偏度衡量对称性。理解两者有助于风险评估、市场预测和策略规划,促进更精准的决策,增强管理效能。通过有效利用这些统计概念,管理者能提升数据分析技能,优化决策流程。

其他 原创 · 1907浏览 · 07-08 04:40
1 条评论
    某人
    可输入 255
    SPSSPRO社区 扫码访问移动端