

1 内生性概述
1.1 什么是内生性?
对于一个回归方程
内生性就是自变量 x1 与扰动项 ε 存在相关性,存在内生性那么用OLS就无法得到无偏估计,结论就不可靠。
1.2 为什么会产生内生性?
1.21 X变量遗漏
如果对研究对象的影响因素考虑不全面,或者对影响因素信息的不可观测,这可能导致回归模型遗漏了重要的解释变量。比如要评价一个人的健康状况,已知变量身高,体重,血压,肺活量,若遗漏了体重,那么体重会体现在扰动项 ε 上,我们知道血压和肺活量跟体重是相关的,也就产生了内生性。
1.22 测量误差
由于测量误差导致某变量与真实值偏离,那么这个变量的偏离就会影响到扰动项的大小,从而产生相关性。比如用心理学问卷来测量一个人的智商水平。
1.23 XY双向影响
解释变量与被解释变量互为因果。比如工资受工作年限影响,反过来工作年限受工资影响。
1.3 为什么要解决内生性问题?
内生性会破坏参数估计的“一致性”。
一致性:当样本量很大时,用样本估计出的参数会无限趋近于总体的真实参数。
简单理解就是:因为Y同时受到x和扰乱项的影响,若x对误差项有影响,则x对y的影响说不清了。
2 GMM概述
2.1 概念
GMM 估计和 TSLS 两阶段最小二乘回归都用于解决内生性问题的一种方法,如果存在异方差 GMM 的效率会优于 TSLS,但通常情况下二者结论相似,很多时候研究者会认为数据或多或少存在异方差问题,因而可直接使用 GMM 估计。
如果模型为恰好识别(即工具变量个数等于内生变量个数),则 GMM 完全等价于两阶段回归 2SLS,故使用 2SLS 就够了。
在过度识别(工具变量多于内生变量)的情况下,GMM 的优势在于,它在异方差的情况下比 2SLS 更有效率。由于数据或多或少存在一点异方差,故在过度识别情况下,一般使用 GMM。
2.2 变量介绍
GMM估计中涉及到内生变量、外生变量、工具变量,其中内生变量和外生变量都是解释变量。
2.21外生变量
可以直接完全对因变量产生影响的解释变量。比如人们收入(因变量)受工作年限(自变量)影响。
2.22 内生变量
可以直接但不完全对因变量产生影响的解释变量,这些内生变量是会产生内生性问题。比如人们收入受学习年限影响,但是收入同样也会对学习年限产生影响,这样的话,学习年限(内生变量)对收入(因变量)产生的影响是不完全的。
2.23 工具变量
与内生变量 X1 有着强相关,但其与因变量 Y 有着弱相关的那些变量。比如家庭经济(工具变量)对收入(因变量)无关,但是与学习年限(内生变量)有着强相关的。
总的来看,GMM估计的原理是由于解释变量的内生变量不能对因变量直接完全地进行解释,所以需要引入工具变量来把内生变量中能对因变量的产生影响的那部分过滤出来,从而解决内生性问题。
2.3 GMM估计前提
2.31 内生性检验
通过内生性检验判断内生变量是否具有内生性(内生性通常是指X变量遗漏、X->Y时X与Y没有相关关系、XY双向影响三类产生),若存在内生变量具有内生性,建议使用 GMM 估计;否则,建议使用最小二乘回归。
2.32 过度识别检验
当工具变量个数大于内生变量个数时,可以通过过度识别检验判断工具变量是否具有外生性,工具变量的外生性是指要说明Z要通过内生变量X1才能对Y产生影响,不能直接对Y产生影响。若工具变量全都是外生的,说明工具变量是有效的;否则,说明工具变量是无效的。
在通过了以上两个检验后,根据因变量、解释变量(内生变量+外生变量)、工具变量等建立 GMM 估计模型并得到输出结果并验证模型的有效性。
3 案例介绍
想要研究影响工资收入的因素,我们根据理论知识,选用能力、受教育年限、是否居住于大城市、在现单位工作年限作为自变量。
但是我们很快面临了一个问题,就是这个能力变量无法获得,因为一个人的能力我们很难了解,也很难衡量,这就是遗漏变量问题。
解决方法:我们可以引入代理变量的概念,选择智商作为“能力”的一个代理变量, 智商解释了能力的一部分,这个是符合常理的,但由于智商不能完全度量能力,依旧是存在内生性问题。所以选用智商作为内生变量,并且由理论基础可以知道,在校成绩、母亲受教育水平与智商相关,与收入相关不大,由此选用这两个因素作为工具变量,建立 GMM 估计。
4 软件操作及结果解读
4.1 软件操作
工具变量 Z 为定量变量,且个数要大于等于内生变量个数。
外生变量 X2 要求为定量变量,若为定类变量,建议自行对其进行哑变量化后再进行处理。
4.2 结果解读
1)变量类型
内生变量和外生变量都是解释变量。外生变量指可以直接完全对因变量产生影响的解释变量;内生变量是指可以直接但不完全对因变量产生影响的解释变量(通常包括有出现 X 变量遗漏、X 存在测量误差、XY 双向影响这三种情况的变量)。 工具变量是为了把内生变量中能对因变量的产生影响的那部分过滤出来。工具变量通常选取与内生变量 X1 有着强相关,但其与因变量 Y 有着弱相关的那些变量。
2)内生性检验
上表格展示了内生性检验结果,显著性 P 值为 0.022**,水平上呈现显著性,拒绝原假设,选中的内生变量中具有内生性。
3)过度识别检验
上图展示了过度识别检验结果,显著性 P 值为 0.732,水平上不呈现显著性,不能拒绝原假设,工具变量全为外生。
4)GMM 估计结果
上表格展示了 GMM 估计的参数结果及检验结果,wald 值为 270.913,其显著性 P 值为 0.000***,水平上呈现显著性,拒绝原假设,说明解释变量中至少有一个变量会对被解释变量产生显著影响。
注意:
内生性问题首先是理论模型,需要根据理论研究来发现可能存在的内生性问题,其次才是统计模型,在发现可能存在的内生性问题后用统计模型去验证。所以内生性问题不是靠统计发现的,是要自己去发掘的。
相关推荐