“傻瓜”学计量——OLS1（变量及模型的选取、回归结果3000字超详细解读）

nn坚持学stata+matlab

8388人浏览 · 2024-02-27 16:13:33

nn坚持学stata+matlab · 2024-02-27 16:13:33 发布

提纲：

自变量和因变量

控制变量（选择多重共线性 stata检验多重公共线性）

各模型的适用条件

回归结果解读

1 自变量与因变量

1.1要知道谁是“因”谁是“果”

举例：

在一般的多元线性回归模型中，重要的自变量放前面，叫做“主要自变量”，如下图所示：

2 控制变量

2.1 关于控制变量的几个问题

2.1.1 控制变量是自变量嘛？

是

2.1.2 控制变量与主要自变量可以互换位置吗？

可以，并不影响回归结果。但是一般来说不这么做。

2.1.3 两者区别是什么？

因果关系。主要自变量是我们想要研究的，后面还要解释与Y的因果关系。而控制变量只要不影响回归结果就可以了。

2.2 如何选择控制变量？

按照自己的领域，多看前人的文献进行选择。

2.3 多重共线性

2.3.1 如果控制变量之间，存在高度相关or完美相关，即该模型存在多重共线性问题。

如果两个控制变量之间存在多重共线性问题，则该变量之前的系数就会出现误差，其实际经济意义不准确。

2.3.2 多重共线性的检验

（1）容忍性（Tolerance）

（2）方差膨胀系数（vif,variance inflation factor）

stata操作如下：

regress 因变量自变量进行OLS回归

estat vif 计算方差膨胀系数的指令

若回归结果vif值>10,则存在多重共线性问题。

3 如何选择模型（根据因变量Y）

先来个总结，方便大家对比记忆

3.1 几种模型及使用条件

3.1.1.y是连续变量：OLS模型

（1）注意：

（不用严格连续，如人民币单位“元”）

（误差项符合正态分布）

（2）stata指令

reg 因变量自变量进行OLS的回归

（3）结果解读

最后一行“cons",全称“constant",是指常数项，对应的是 $\beta$ 0。

第三列"t",看这个回归系数是否显著。

3.1.2 y是0-1变量：Logit/Probit回归

（1）注意：

Logit 和 Probit 的适用条件
	假设 $\xi$ 服从什么分布
Logit	logistic分布
Probit	正态分布

一般实证中，logit使用较多。因为比较好解读。

（2）stata指令

logit 因变量自变量

probit 因变量自变量

3.1.3 y是分类变量：ologit或者mlogit回归

ologit和 mlogit回归的适用条件
	分类变量
ologit	有序
mlogit回归	无序

3.1.4 y是计数变量：poisson回归（stata指令相同）

计数变量（count variable）:例如，多少人、多少次、多少天

计数变量的特点：整数非负数

各种模型使用条件已经放在本节开头⬆

4 回归结果解读（超详细）

4.1 上半部分

主要汇报：回归模型的拟合程度、一些针对模型的指标

4.1.1 左侧：方差分析表格 ANOVA(analysis of variance)
SS 平方和
第一列	SSM sum of squares model	$SSM=\sum \left ( \hat{y}-\bar{y} \right )^2$	预测值和平均值之间的距离平方和；模型的平方和；
	SSR sum of squares residual	$SSR=\sum \left ( y_{i}-\hat{y_{i}} \right )^2$	真实值与预测值之间的距离的平方和；误差项的平方和；
	total （sum of squares total,SST)	$SST=\sum \left (y_{i}-\bar{y}\right )^{2}$	真实值和平均值之间的距离平方和；原始数据的离散程度；
第二列	df 自由度（左侧第二列） (degree of freedom)	n-k-1：是SSR的自由度 n-1：是SST的自由度	自由度：是衡量我们能够自由变动/自由取值的样本数量。可以用“线性无关组“来理解。 n-k-1：这是因为我们在求回归结果的时候，需要估计k+1个未知参数。这里k是我们自变量的个数，所以有k个 $\beta$ ，但是还有一个常数项 $\beta _{0}$ 。但是由于在求解模型中，需要对其求偏导，且令其为0。也就是说，有k+1个约束条件，因此，自由度为n-k-1。
第三列	MS （mean squared) $MS=\frac{ss}{df}$		第一列/第二列

4.1.2 右侧
第一行	number of obs		样本量，换句话说就是，我们计算回归结果所使用的原始数据的数量。（检查这里和描述性统计中的样本量数值相差大不大。若相差比较大，则回归模型可能出错了）
第二行	F检验	$F=\frac{MS Model}{MS Residual}$	第三列的第一行/第三列第二行针对模型进行的总体显著性检验。换句话说就是用来检验 $\beta$ 是不是不全为0。有兴趣的化可以看看为何要构建F统计量，空降0：24 线性回归结果详细解读/实证研究系列视频/系数的经济含义、显著性/R方，调整的R方/F检验/方差分析、SST SSR SSM、自由度、Mean squared_哔哩哔哩_bilibili
第三行	P值	也就是F值对应的P值 stata会帮我们查好	以上面的例子为例，即是说，在原假设（ $\beta _{1}=\beta _{2}=...=\beta_{k}=0$ )成立的情况下，我们能获得这个F值>21.01的概率是0.00%。换句话说，我们能获得这个值的概率极小，所以我们可以在1%的水平下拒绝原假设。即 $\beta _{1}$ $\beta _{2}$ ... $\beta _{4}$ 至少有一个显著不为0。
第四行	R-squared （左边的表格数据计算的）	$R^2=\frac{SSM}{SST}=1-\frac{SSR}{SST}$	衡量预测值能拟合实际值的程度；取值范围0-1；该指标要根据同领域的文献情况来定，跟前辈差不多就可以了；
第五行	Adj R-squared	$Adjusted R^2=1-\frac{SSR/(n-k-1)}{SST/(n-1)}$	n：样本量 k：自变量个数 n-k-1：是SSR的自由度（左侧第二列，df, degree of freedom） n-1：是SST的自由度为了应对无限增加控制变量，从而使得R^2的数据看起来更好的情况；创造了调整后的R^2。即，每增加一个变量，会对这个R-squared 有一个小小的惩罚。换句话说，就是人R^2就是在比较，新增加的这个变量所带来的拟合程度的提高和所带来的惩罚哪个更大一些。
第六行	Root MSE(root mean square of error)	$Root MSE=\sqrt{MS Residual}$	左侧最后一个值，是右边表格第三列的第二行指标的算数平方根。衡量回归模型中误差项的大小。

4.2 下半部分

主要汇报：回归系数 $\beta$

意义：回归系数的波动程度及检验回归系数到底是不是显著的区别于0
第一列	coef.	每一个自变量前的 $\beta$ 值前四行，分别是 $\beta _{1}$ $\beta _{2}$ ... $\beta _{4}$ 。在论文中一般我们是要逐个讨论的。（这里涉及到如何解释回归模型变量系数，后附表格）最后一行 _cons对应的值是 $\beta _{0}$ 。一般不关注其大小。
第二列	the standard error of coefficient	回归系数标准物：用来衡量回归系数的波动情况+检验我们的回归系数是否显著的不为零。为什么回归系数有一个标准物？因为我们第一列的系数，实际上是个估计量，而非真实值。这样的话我们采用不同的样本，就会产生不同的估计值。
第三列	t统计量	意义：回归系数对应的t值：针对回归系数做一个假设检验，检验回归系数是不是不等于0。公式：统计量 $T=\frac{\hat{\beta }-0}{SE_{\hat{\beta }}}$ ，即回归系数估计值 $\hat{\beta }$ / 回归系数标准误 $SE_{\hat{\beta }}$ 。计算方法：第一列/第二列理由如下：单样本t检验，检验我们的估计量是否等于某一个数值。 T值 $=\frac{\bar{x}-\mu }{s_{\bar{x}}}$ ，即（样本均值-总体均值）/标准误。我们的原假设H0是所有的 $\beta$ 都是0，因此这里单样本t检验 $=\frac{\bar{x}-\mu }{s_{\bar{x}}}$ $=\frac{\hat{\beta }-0}{SE_{\hat{\beta }}}$ ，即回归系数的估计值 $\hat{\beta }$ 再减去原假设成立的情况下，总体均值，再除以回归系数所对应的标准误（第二列）。
第四列	p	回归系数对应的p值 stata给出了对应第三列t值的p值以上面的例子为例： mpg：0.85=85%，并不是一个小概率事件，因此我们不能拒绝原假设，不能说我们的回归系数显著区别于零。也即，回归系数不显著； weight：p=0.000<0.01，因此我们说，在原假设weight的回归系数 $\beta$ 2=0成立的情况下，我们得到这个t值得概率是0.000，是非常小的。因此我们拒绝原假设，即我们得系数 $\beta$ 2显著的不等于0。总结：当样本足够大的时候，（大多数情况，具体请看表格附注） t值的绝对值>1.65，或者p值<0.10，回归系数在10%水平下显著（一颗星）； t值的绝对值>1.96，或者p值<0.05，回归系数在5%水平下显著（两颗星）； t值的绝对值>12.58，或者p值<0.01，回归系数在1%水平下显著（三颗星）。
第五、第六列	估计系数的95%置信区间	通过回归系数的估计量和标准物所构造出来的95%的置信区间。含义：会有95%的可能性覆盖了我们回归系数的真实值。
第五、第六列	估计系数的95%置信区间	第五列：回归系数的置信下限第六列：回归系数的置信上限置信下限 $=\hat{\beta }-t_{\alpha /2}\times SE_{\hat{\beta }}$ 置信上限 $=\hat{\beta }+t_{\alpha /2}\times SE_{\hat{\beta }}$ $\hat{\beta }$ ：第一列； $SE_{\hat{\beta }}$ ：第二列标准误； $t_{\alpha /2}$ ：根据回归模型的自由度查表。即n-k-1。如果是双尾的表格中，应该是5%，当p值<0.05，置信区间不覆盖0。

如何讨论自变量系数？
1	回归系数的估计值：连续型变量
	针对自变量X1：当我们控制其他自变量不变的时候，自变量X1每增加一个单位，我们的因变量Y变化 $\beta _{1}$ 个单位。
2	回归系数的估计值：0-1变量
	针对0-1变量X：当我们控制其他自变量不变的时候，自变量X取值为1时，我们的因变量Y变化 $\beta$ 个单位。
3 回归模型中自变量或因变量：取自然对数	（1）log-log模型：自变量、因变量都取对数即：其他控制变量不变的时候，自变量X1增加1%，我们的因变量Y变化 $\beta$ %。理由如下： $\ln \left ( y_{i} \right )=\beta _{0}+\beta _{1}\times \ln \left ( X_{1i} \right )+\beta _{2}\times \ln \left ( X_{2i} \right )+\beta _{k}\times \ln \left ( X_{ki} \right )+\xi _{i}$ 对上述模型，针对X1求偏导 $\frac{d\left ( y \right )}{y}=\frac{d\left ( X_{1} \right )}{X_{1}}\times \beta _{1}$ $100\times \frac{d\left ( y \right )}{y}\times$ %= $=100\times \frac{d\left ( X_{1} \right )}{X_{1}}\times$ % $\times \beta _{1}$
	（2）log-linear模型：只有因变量取对数即：当我们使其他控制变量不变的时候，自变量X1每增加1个单位，因变量Y变化100✖ $\beta _{1}$ %。理由如下： $\ln \left ( y_{i} \right )=\beta _{0}+\beta _{1}\times X_{1i} +\beta _{2}\times X_{2i} +\beta _{k}\times X_{ki}+\xi _{i}$ 对上述模型，针对X1求偏导 $\frac{d\left ( y \right )}{y}=d(x)\times \beta _{1}$ $d(x)$ ：就是自变量X的变化量等式左边 $\frac{d\left ( y \right )}{y}$ ：是因变量变化的比例 $100\times \frac{d\left ( y \right )}{y}\times$ % = $d(x)\times \beta _{1}\times 100$ $\times$ %
	（3）linear-log 模型：只有自变量取对数即：当我们控制其他变量不变的时候，自变量X1每增加1%，因变量Y就会变化 $\beta _{1}$ /100个单位。理由如下： $y_{i} =\beta _{0}+\beta _{1}\times \ln \left ( X_{1i} \right )+\beta _{2}\times X_{2i} +\beta _{k}\times X_{ki} +\xi _{i}$ 对上述模型，针对X1求偏导 $d\left ( y \right )=\frac{d\left ( X_{1} \right )}{X_{1}}\times \beta _{1}$ $100\times d\left ( y \right )\times$ %= $=100\times \frac{d\left ( X_{1} \right )}{X_{1}}\times \beta _{1}\times$ % $d(y)=100\times \frac{d(X_{1})}{X_{1}}\times \frac{\beta _{1}}{100}$