线性回归有离群值也不怕?稳健回归
案例库 https://www.spsspro.com/ · 1838浏览 · 2022-07-08 10:16
=

传统的线性回归的模型,都是基于最小二乘法来实现的。但是,当数据样本点出现很多的异常点,这些异常点对回归模型的影响会非常的大,传统的基于最小二乘的回归方法将不适用。

比如下图中所示,数据中存在5个异常点,如果不剔除改点,适用OLS方法来做回归的话,那么就会得到途中黄色的那条线;如果将这5个异常点剔除掉的话,那么就可以得到图中红色的那条线。显然,红色的线比黄色的线对数据有更强的解释性,这就是OLS在做回归分析时候的弊端。

image.png

当然,可以考虑在做回归分析之前,对数据做预处理,剔除掉那些异常点。但是,在实际的数据中,存在两个问题:

  1. 异常点并不能很好的确定,并没有一个很好的标准用于确定哪些点是异常点
  2. 即便确定了异常点,但这些被确定为异常的点,真的是错误的数据吗?很有可能这看似异常的点,就是原始模型的数据,如果是这样的话,那么这些异常的点就会带有大量的原始模型的信息,剔除之后就会丢失大量的信息。

1 稳健回归概述

1.1 适用条件

稳健回归(RANSAC),用于当线性回归(OLS)遇到样本点存在异常点的时候,用于代替最小二乘法的一个算法。同时稳健回归还可以用于异常点检测,或者是找出那些对模型影响最大的样本点。

1.2 模型理论

估计的稳健性概念指的是在估计过程中产生的估计量对模型误差的不敏感性。

因此,稳健估计是在较宽的资料范围内产生的优良估计。如在独立同分布正态误差的线性模型中,最小二乘估计(LSE)是有效无偏估计,而当误差是非正态分布时,LSE 不一定是最有效的。误差分布事先不一定知道,故有必要考虑稳健回归的问题。

稳健回归估计,若误差为正态,它比 LSE 稍差,若误差为非正态,则比 LSE 要好得多。这种对误差项分布的稳健特性,常能有效排除异常值干扰。一般回归模型:

image.png

其中,β1,β2,…,βp 为未知回归系数,e1,e2,…,en 独立同分布,均值为 0。最小二乘法是找到一组 β1,β2,…,βp,使得表达式:

image.png

达到最小时作为代价函数。但这样做往往使得远离数据群体的数据(很可能是异常值)对残差平方和影响比其他数据大得多,因为 LSE 为了达到极小化残差平方和的目的,必须迁就远端的数据,所以异常值对于参数估计相当敏感。

稳健回归的基本思想是采用迭代加权最小二乘估计回归系数,根据回归残差的大小确定各点的权重 wi,以达到稳健的目的,其优化的目标函数 Gmin 为:

image.png

为减少“异常点”作用,可对不同的点施加不同的权重,即对残差小的点给予较大的权重,而对残差较大的点给予较小的权重。根据残差大小确定权重,并据此建立加权的 LSE,反复迭代以改进权重系数,直至权重系数的改变小于一定的允许误差。参数 βj 可采用迭代加权最小二乘方法求解。目前构造权重的方法很多,得到的稳健回归估计大同小异。

1.3 模型基本步骤

1.31 分析X的显著性,如果呈现出显著性(p值小于0.05,严格则需小于0.01),用于探究X对Y的影响关系

1.32 结合回归系数B值,对比分析X对Y的影响程度

1.33确定得到模型公式

1.34 综合上述分析 Tips:稳健回归不需要对数据进行清洗(包括异常值检验等),如果数据不存在离群点,建议使用线性回归(OLS)即可,同时稳健回归的R²与F值,R方和F值参考意义不大,可以不进行分析。

2 案例介绍

通过自变量(房子年龄、是否有电梯、楼层高度、房间平方)拟合预测因变量(房价),有些样本存在虚假交易、炒房等行为,即为异常样本,不能使用常见的最小二乘法 OLS 回归分析,需要使用稳健回归(RANSAC)模型。

image.png

3 软件操作及结果解读

3.1 软件操作

image.png

SPSSPRO 使用的稳健回归算法为 RANSAC——随机抽样一致

3.2 结果解读

1)稳健回归(RANSAC)

image.png

上表格展示了本次模型的分析结果,包括模型的标准化系数、t 值,VIF 值,R²,调整 R² 等 ,用于模型的检验,并分析模型的公式 。

● Robust 回归主要用于存在异常值时进行回归分析、对回归结果的稳定性进一步考查。

● Robust 回归的 R² 和 F 检验结果,一般不具有参考意义,可以不进行分析。

B 是有常数情况下的的系数 标准误=B/t 值;

标准化系数是将数据标准化后得到的系数;

F(df1,df2)是 df1 等于自变量数量;

df2 等于样本量 -(自变量数量+1);

分析:

相较于线性回归分析结果(如下表):

image.png

稳健回归认为,楼层对房价的负面影响没有那么大,线性回归可能是受到了虚假交易、炒房数据的极端值影响。

模型的公式如下: 房价(万)=-43.795+2.075 × 房间平方(m2)-0.802 × 楼层(层)+0.759 × 房龄(年)+48.33 × 配套电梯_1.0

2)模型路径图

image.png

上图以路径图形式展示了本次模型结果,主要包括模型的系数,用于分析 X 对于 Y 的影响关系情况。

3)模型结果图

image.png

上图以可视化的形式展示了本次模型的原始数据图、模型拟合值。

4)模型结果预测

image.png

上表格用于对稳健回归(RANSAC)的进行预测。

相关推荐

默认标签 数据分析达人
2024年第三届全国大学生数据分析实践赛

第三届全国大学生数据分析实践赛报名须知

知识竞赛 2024年第三届全国大学生数据分析实践赛组委会 · 53浏览 · 21小时前
SPSSPRO数据分析课程强势上线!学完可拿证

数据分析师认证学习与考核方案

会员专题 SPSSPRO · 724浏览 · 03-14 04:19
2024年第三届全国大学生数据分析科普竞赛纸质证书免费领

无需邀请好友,全国大学生数据分析知识科普竞赛纸质证书免费包邮寄送! 撰写小红书及知乎文章,推广第二届全国大学生数据分析科

知识竞赛 原创 · 4699浏览 · 03-06 03:28
0 条评论
    某人
    可输入 255
    SPSSPRO社区 扫码访问移动端