SPSS内生性问题之两阶段回归
案例库 https://www.spsspro.com/ · 3222浏览 · 2022-08-25 11:46
解决内生性问题

1 内生性概述

1.1 什么是内生性?

对于一个回归方程 image.png

内生性就是自变量 x1 与扰动项 ε 存在相关性,存在内生性那么用OLS就无法得到无偏估计,结论就不可靠。

1.2 为什么会产生内生性?

1.21 X变量遗漏

如果对研究对象的影响因素考虑不全面,或者对影响因素信息的不可观测,这可能导致回归模型遗漏了重要的解释变量。比如要评价一个人的健康状况,已知变量身高,体重,血压,肺活量,若遗漏了体重,那么体重会体现在扰动项 ε 上,我们知道血压和肺活量跟体重是相关的,也就产生了内生性。

1.22 测量误差

由于测量误差导致某变量与真实值偏离,那么这个变量的偏离就会影响到扰动项的大小,从而产生相关性。比如用心理学问卷来测量一个人的智商水平。

1.23 XY双向影响

解释变量与被解释变量互为因果。比如工资受工作年限影响,反过来工作年限受工资影响。

1.3 为什么要解决内生性问题?

内生性会破坏参数估计的“一致性”。

一致性:当样本量很大时,用样本估计出的参数会无限趋近于总体的真实参数。

简单理解就是:因为Y同时受到x和扰乱项的影响,若x对误差项有影响,则x对y的影响说不清了。

2 两阶段回归概述

2.1 概念

标准线性回归模型无法解决内生性问题(内生性问题通常由 X 变量遗漏、X->Y 时 X 与 Y 没有相关关系、XY 双向影响三类产生),此类问题一般采用两阶段回归解决,其分两个阶段进行:

第一阶段,被解释变量(内生变量)与解释变量(工具变量、外生变量)进行回归,得到内生变量的拟合值;

第二阶段,被解释变量(因变量)与解释变量(内生变量的拟合值、外生变量)进行回归。

2.2 变量介绍

两阶段回归中涉及到内生变量、外生变量、工具变量,其中内生变量和外生变量都是解释变量。

2.21外生变量

可以直接完全对因变量产生影响的解释变量。比如人们收入(因变量)受工作年限(自变量)影响。

2.22 内生变量

可以直接但不完全对因变量产生影响的解释变量,这些内生变量是会产生内生性问题。比如人们收入受学习年限影响,但是收入同样也会对学习年限产生影响,这样的话,学习年限(内生变量)对收入(因变量)产生的影响是不完全的。

2.23 工具变量

与内生变量 X1 有着强相关,但其与因变量 Y 有着弱相关的那些变量。比如家庭经济(工具变量)对收入(因变量)无关,但是与学习年限(内生变量)有着强相关的。

总的来看,两阶段回归的原理是由于解释变量的内生变量不能对因变量直接完全地进行解释,所以需要引入工具变量来把内生变量中能对因变量的产生影响的那部分过滤出来,从而解决内生性问题。

2.3 两阶段回归前提

2.31 内生性检验

通过内生性检验判断内生变量是否具有内生性(内生性通常是指X变量遗漏、X->Y时X与Y没有相关关系、XY双向影响三类产生),若存在内生变量具有内生性,建议使用两阶段回归;否则,建议使用最小二乘回归。

2.32 过度识别检验

当工具变量个数大于内生变量个数时,可以通过过度识别检验判断工具变量是否具有外生性,工具变量的外生性是指要说明Z要通过内生变量X1才能对Y产生影响,不能直接对Y产生影响。若工具变量全都是外生的,说明工具变量是有效的;否则,说明工具变量是无效的。

在通过了以上两个检验后,根据因变量、解释变量(内生变量+外生变量)、工具变量等建立两阶段回归模型并得到输出结果并验证模型的有效性。

3 案例介绍

想要研究影响工资收入的因素,我们根据理论知识,选用能力、受教育年限、是否居住于大城市、在现单位工作年限作为自变量。

但是我们很快面临了一个问题,就是这个能力变量无法获得,因为一个人的能力我们很难了解,也很难衡量,这就是遗漏变量问题。

解决方法:我们可以引入代理变量的概念,选择智商作为“能力”的一个代理变量, 智商解释了能力的一部分,这个是符合常理的,但由于智商不能完全度量能力,依旧是存在内生性问题。所以选用智商作为内生变量,并且由理论基础可以知道,在校成绩、母亲受教育水平与智商相关,与收入相关不大,由此选用这两个因素作为工具变量,建立两阶段回归。

image.png

4 软件操作及结果解读

4.1 软件操作

image.png

工具变量 Z 为定量变量,且个数要大于等于内生变量个数。

外生变量 X2 要求为定量变量,若为定类变量,建议自行对其进行哑变量化后再进行处理。

4.2 结果解读

1)变量类型

image.png

内生变量和外生变量都是解释变量。外生变量指可以直接完全对因变量产生影响的解释变量;内生变量是指可以直接但不完全对因变量产生影响的解释变量(通常包括有出现 X 变量遗漏、X 存在测量误差、XY 双向影响这三种情况的变量)。 工具变量是为了把内生变量中能对因变量的产生影响的那部分过滤出来。工具变量通常选取与内生变量 X1 有着强相关,但其与因变量 Y 有着弱相关的那些变量。

2)内生性检验

image.png

上表格展示了内生性检验结果,显著性 P 值为 0.015**,水平上呈现显著性,拒绝原假设,选中的内生变量中具有内生性。

3)过度识别检验

image.png

上图展示了过度识别检验结果,显著性 P 值为 0.758,水平上不呈现显著性,不能拒绝原假设,工具变量全为外生。

4)两阶段回归结果

image.png

由两阶段回归估计结果可知,wald值为299.209,其显著性P值为0.000***,呈现显著性,拒绝原假设,说明解释变量中至少有一个变量会对被解释变量产生显著影响。

注意:

内生性问题首先是理论模型,需要根据理论研究来发现可能存在的内生性问题,其次才是统计模型,在发现可能存在的内生性问题后用统计模型去验证。所以内生性问题不是靠统计发现的,是要自己去发掘的。

相关推荐

默认标签 数据分析达人
2025年第四届全国大学生数据分析实践赛

2025全国大学生数据分析实践赛报名须知

知识竞赛 原创 · 7367浏览 · 04-16 08:25
2025年第四届大学生数据分析科普竞赛实施方案

第四届大学生数据分析科普竞赛实施方案

知识竞赛 2025年第四届全国大学生数据分析实践赛组委会 · 6310浏览 · 03-04 09:37
2025第四届大学生数据分析科普竞赛通知

第四届大学生数据分析科普竞赛通知

知识竞赛 2025年第三届全国大学生数据分析实践赛组委会 · 6468浏览 · 03-04 09:13
0 条评论
    某人
    可输入 255
    SPSSPRO社区 扫码访问移动端