计量经济学与stata应用(二):内生性问题与工具变量
内生性问题的产生和处理,工具变量IV与两阶段最小二乘回归2SLS
内生性
含义:是指随机扰动项与解释变量相关
假设:,其中
模型:
来源:遗漏变量、样本选择、测量误差、互为因果
体现:
处理办法:IV-GMM,DID倍分法,PSM倾向得分匹配分析等
IV工具变量
instrumental variable
对于难以测量的变量,我们常常会选择一个可以测量的变量来作为该变量的“代理变量”,但是“代理变量”在代理原变量的时候存在测量误差,也就是说“代理变量”是内生的解释变量,此时可以为“代理变量”选择合理的工具变量。
过度识别:工具变量的个数大于内生变量的个数
恰好识别:工具变量的个数等于内生变量的个数
1.检验解释变量的内生性
OLS估计还是IV估计?只有解释变量是内生的时候,才需要为其选择工具变量。
Hausman检验
适用于同方差的情况
原假设:var1是外生的
quietly reg varlist //OLS回归
estimates store ols //存储回归结果
quietly ivregress 2sls varlist (var1 = iv1 iv2 [iv3 ...]) //两阶段最小二乘法
estimates store iv //存储回归结果
hausman iv ols, constant signamore //Hausman检验
若p值小于0.05,则在5%的水平下拒绝var1是外生的原假设,即不能直接采用OLS回归。
DWH检验
适用于异方差的情况
原假设:var1是外生的
estat endogenous
ivreg2 varlist (var1 = iv1 iv2 [iv3 ...]), r endog(var1)
注意:ivreg2是普通2sls回归,输出的结果包含ivregress 2sls回归结果和estate overid过度识别检验结果等;xtivreg2是面板数据的两阶段回归。
若p值小于0.05,则在5%的水平下拒绝外生的原假设.
GMM估计
适用于扰动项存在异方差或自相关的情况
原假设:所有IV都是外生的
ivregress gmm varlist (var1 = iv1 [iv3 ...])
estat overid
ivregress gmm varlist (var1 = iv1 [iv3 ...]), igmm //迭代GMM
分析GMM和2SLS估计的结果,如果结果相差不大,那么结果是稳健的。
2.工具变量的外生性检验
只有过度识别的时候才能检验IV的外生性,所以IV的外生性检验又称为过度识别检验。
使用IV估计的前提是IV满足有效性,即所有工具变量均是外生的,需要做过度识别检验。
IV估计采用2SLS进行回归,可以理解为:
第一阶段:内生解释变量对工具变量进行回归。
第二阶段:被解释变量对解释变量中的外生部分进行回归,消除偏误得到一致估计。
Sargan检验
适用于同方差的情况
原假设:所有工具变量均外生
ssc install ivreg2
ssc install ranktest //外部命令,需先安装
ivreg2 varlist (var1 = iv1 iv2 [iv3 ...]) //没带稳健标准误
若p值小于0.05,则在5%的水平下拒绝所有IV均外生的原假设 ,即存在有内生的IV,需要找出来并从模型中删掉。
Hansen J检验
适用于异方差的情况
原假设:所有工具变量均外生
ivregress 2sls varlist (var1 = iv1 iv2 [iv3 ...]), r //输出稳健标准误,即存在异方差
estate overid //过度识别检验
若p值小于0.05,则在5%的水平下拒绝所有IV均外生的原假设 ,即存在有内生的IV,需要找出来并从模型中删掉。
原假设:iv2满足外生性(举例)
ivreg2 varlist (var1 = iv1 [iv3 ...]), r orthog (iv2) //猜测iv2可能不满足外生性
若p值小于0.05,则在5%的水平下拒绝iv2外生的原假设 ,将它从模型中删掉。
由于异方差是无处不在的,所以在上面的命令中加入了r(稳健标准误),此方法是最常使用的。
重复此操作直到模型中只保留了满足外生性的工具变量,再次进行过度识别检验。
原假设:所有工具变量均外生
ivregress 2sls varlist (var1 = iv1 [iv3...]), robust first
estate overid //过度识别检验
若p值大于0.05,则在5%的水平下不能拒绝原假设,即现在的IV是满足外生性的,通过了过度识别检验。
3.工具变量与解释变量的相关性检验
一个优秀的IV还需要满足第二个条件:有效性,即必须与因为内生性问题而需要寻找IV的那个内生变量之间具有高度的相关性。如果相关程度太低,则存在若工具变量问题。
First-stage regression
原假设:IV与内生解释变量之间不相关(在回归的第一阶段中系数为0)
estate firststage, all forcenonrobust
若p值小于0.05,则在5%的水平下拒绝IV与内生解释变量之间不相关的原假设,不存在弱工具变量问题,也就是通过了弱工具变量检验。
LIML有限信息极大似然法
这种回归对弱工具变量不太敏感。
ivregress liml varlist (var1 = iv1 [iv3 ...]), robust
分析LIML和2SLS估计的结果,如果结果相差不大,那么不存在弱工具变量问题,选择的IV是合理的。
延伸:冗余检测
检验IV的选择是否有冗余
原假设:iv3是冗余的工具变量
ivreg2 varlist (var1 = iv1 iv3 [...]), r redundant (iv3)
若p值小于0.05,则在5%的水平下拒绝iv3是冗余的原假设。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)