内生性

含义:是指随机扰动项与解释变量相关\boldsymbol{cov(X,\varepsilon )\neq 0}

假设:\boldsymbol{y=\alpha +\beta x+u},其中\boldsymbol{cov(x,u)=0}

模型:\boldsymbol{y=\alpha +\beta {x}'+v}

\rightarrow \boldsymbol{y=\alpha +\beta (x-\varepsilon )+u=\alpha +\beta x+(u-\beta \varepsilon )}

\rightarrow \boldsymbol{v=u-\beta \varepsilon}

\rightarrow \boldsymbol{cov(x,v)\neq 0}

来源:遗漏变量、样本选择、测量误差、互为因果

体现:

处理办法:IV-GMM,DID倍分法,PSM倾向得分匹配分析等

IV工具变量

instrumental variable

对于难以测量的变量,我们常常会选择一个可以测量的变量来作为该变量的“代理变量”,但是“代理变量”在代理原变量的时候存在测量误差,也就是说“代理变量”是内生的解释变量,此时可以为“代理变量”选择合理的工具变量。

过度识别:工具变量的个数大于内生变量的个数

恰好识别:工具变量的个数等于内生变量的个数

1.检验解释变量的内生性

OLS估计还是IV估计?只有解释变量是内生的时候,才需要为其选择工具变量。

Hausman检验

适用于同方差的情况

原假设:var1是外生的

quietly reg varlist //OLS回归
estimates store ols //存储回归结果
quietly ivregress 2sls varlist (var1 = iv1 iv2 [iv3 ...]) //两阶段最小二乘法
estimates store iv //存储回归结果
hausman iv ols, constant signamore //Hausman检验

若p值小于0.05,则在5%的水平下拒绝var1是外生的原假设,即不能直接采用OLS回归。

DWH检验

适用于异方差的情况

原假设:var1是外生的

estat endogenous
ivreg2 varlist (var1 = iv1 iv2 [iv3 ...]), r endog(var1)

注意:ivreg2是普通2sls回归,输出的结果包含ivregress 2sls回归结果和estate overid过度识别检验结果等;xtivreg2是面板数据的两阶段回归。 

若p值小于0.05,则在5%的水平下拒绝外生的原假设.

GMM估计

适用于扰动项存在异方差或自相关的情况

原假设:所有IV都是外生的

ivregress gmm varlist (var1 = iv1 [iv3 ...])
estat overid

ivregress gmm varlist (var1 = iv1 [iv3 ...]), igmm //迭代GMM

分析GMM和2SLS估计的结果,如果结果相差不大,那么结果是稳健的。

2.工具变量的外生性检验

只有过度识别的时候才能检验IV的外生性,所以IV的外生性检验又称为过度识别检验。

使用IV估计的前提是IV满足有效性,即所有工具变量均是外生的,需要做过度识别检验。

IV估计采用2SLS进行回归,可以理解为:
第一阶段:内生解释变量对工具变量进行回归。
第二阶段:被解释变量对解释变量中的外生部分进行回归,消除偏误得到一致估计。

Sargan检验

适用于同方差的情况

原假设:所有工具变量均外生

ssc install ivreg2
ssc install ranktest //外部命令,需先安装
ivreg2 varlist (var1 = iv1 iv2 [iv3 ...]) //没带稳健标准误

若p值小于0.05,则在5%的水平下拒绝所有IV均外生的原假设 ,即存在有内生的IV,需要找出来并从模型中删掉。

Hansen J检验

适用于异方差的情况

原假设:所有工具变量均外生

ivregress 2sls varlist (var1 = iv1 iv2 [iv3 ...]), r //输出稳健标准误,即存在异方差
estate overid //过度识别检验

若p值小于0.05,则在5%的水平下拒绝所有IV均外生的原假设 ,即存在有内生的IV,需要找出来并从模型中删掉。

原假设:iv2满足外生性(举例)

ivreg2 varlist (var1 = iv1 [iv3 ...]), r orthog (iv2) //猜测iv2可能不满足外生性

若p值小于0.05,则在5%的水平下拒绝iv2外生的原假设 ,将它从模型中删掉。

由于异方差是无处不在的,所以在上面的命令中加入了r(稳健标准误),此方法是最常使用的。

重复此操作直到模型中只保留了满足外生性的工具变量,再次进行过度识别检验。

原假设:所有工具变量均外生

ivregress 2sls varlist (var1 = iv1 [iv3...]), robust first
estate overid //过度识别检验

若p值大于0.05,则在5%的水平下不能拒绝原假设,即现在的IV是满足外生性的,通过了过度识别检验。

3.工具变量与解释变量的相关性检验

一个优秀的IV还需要满足第二个条件:有效性,即必须与因为内生性问题而需要寻找IV的那个内生变量之间具有高度的相关性。如果相关程度太低,则存在若工具变量问题。

First-stage regression

原假设:IV与内生解释变量之间不相关(在回归的第一阶段中系数为0)

estate firststage, all forcenonrobust

若p值小于0.05,则在5%的水平下拒绝IV与内生解释变量之间不相关的原假设,不存在弱工具变量问题,也就是通过了弱工具变量检验。

LIML有限信息极大似然法

这种回归对弱工具变量不太敏感。

ivregress liml varlist (var1 = iv1 [iv3 ...]), robust

分析LIML和2SLS估计的结果,如果结果相差不大,那么不存在弱工具变量问题,选择的IV是合理的。

延伸:冗余检测

检验IV的选择是否有冗余

原假设:iv3是冗余的工具变量

ivreg2 varlist (var1 = iv1 iv3 [...]), r redundant (iv3)

 若p值小于0.05,则在5%的水平下拒绝iv3是冗余的原假设。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐