工具变量原理

158 阅读2分钟

在做回归时,很多时候会有E(xtεt)0\text{E}(x_t \varepsilon_t)\neq 0的情况,这也意味着不满足外生性条件E(εX)=0\text{E}(\varepsilon|X)=0,此时的OLS估计量β^\hat\beta就不再满足无偏性,并且随着nn的变大,它的bias也无法变小。若对此无法理解,请先掌握《小样本OLS回归梳理》中的内容。

此时该怎么办?一种解决方法是利用一些与ε\varepsilon无关的变量,这就是工具变量(instrumental variables,下文统称IV)。我们假设找到的IV是一些l×1l\times 1的向量ztz_t,再将它排成n×ln\times l的矩阵Z=[z1,,zn]Z=[z_1,\cdots,z_n]'

IV需要与原来的xtx_t足够接近,因此ZXZ'XXXn×kn\times k矩阵)必须满列秩。而我们寻找IV的目的,就是要让IV满足E(ztεt)=0\text{E}(z_t\varepsilon_t)=0,由数据生成过程εt=ytxtβo\varepsilon_t=y_t-x'_t\beta_o可知,我们要求解的就是满足E(zt(ytxtβo))=0\text{E}(z_t(y_t-x'_t\beta_o))=0βo\beta_o

我们无法知道E(ztyt)\text{E}(z_t y_t)E(ztxt)\text{E}(z_t x'_t),但可以用样本矩代替,即

n1t=1nzt(ytxtβo)=Z(yXβo)/n=0n^{-1}\sum_{t=1}^{n}z_t(y_t-x'_t \beta_o)=Z'(y-X\beta_o)/n=0

上面的方程,若l<kl \lt k,则有多个解,若l=kl=kZXZ'X非奇异,则有唯一解β~n=(ZX)1Zy\tilde \beta_n=(Z'X)^{-1}Z'y,若l>kl \gt k,无解。在经济学理论中,往往会出现l>kl \gt k的情形,此时尽管方程无解,但我们依旧可以寻找βo\beta_o,使Z(yXβo)Z'(y-X\beta_o)尽可能接近00

我们可以定义一个Z(yXβo)Z'(y-X\beta_o)00之间的二次距离:

dn(β)=(YXβ)ZP^nZ(yXβ)d_n(\beta)=(Y-X\beta)'Z \hat{P}_n Z'(y-X\beta)

其中P^n\hat{P}_n是一个l×ll\times l的正定范数矩阵(positive definite norming matrix),它可以是随机矩阵。这里之所以选择二次距离,是因为这样在求解最优化问题时比较方便,可以直接写出一阶条件:

dn(β)β=2XZP^nZ(yXβ)=0\dfrac{\partial d_n(\beta)}{\partial \beta} = -2X'Z\hat{P}_n Z'(y-X\beta)=0

假设XZP^nZXX'Z\hat{P}_nZ'X非奇异,就可以得到IV估计量

β~n=(XZP^nZX)1XZP^nZy\tilde \beta_n=(X'Z\hat{P}_nZ'X)^{-1}X'Z \hat{P}_nZ'y

只要选择ZZP^n\hat P_n,就可以得到各种计量经济学中的估计量。比如选择Z=XZ=XP^n=(XX/n)1\hat P_n=(X'X/n)^{-1},那么β~n\tilde \beta_n就变成了OLS估计量β^n\hat \beta_n。而选择P^n=(ZZ/n)1\hat P_n=(Z'Z/n)^{-1},就得到了2SLS(two-stage least squares)估计量。

IV估计量是无偏的吗?在数据生成过程y=Xβo+εy=X\beta_o+\varepsilon下,有

β~n=(XZP^nZX)1XZP^nZy=(XZP^nZX)1XZP^nZ(Xβo+ε)=βo+(XZP^nZX)1XZP^nZε\begin{aligned} \tilde \beta_n=&(X'Z\hat{P}_nZ'X)^{-1}X'Z \hat{P}_nZ'y\\ =&(X'Z\hat{P}_nZ'X)^{-1}X'Z \hat{P}_nZ'(X\beta_o+\varepsilon)\\ =& \beta_o+(X'Z\hat{P}_nZ'X)^{-1}X'Z \hat{P}_nZ'\varepsilon \end{aligned}

事实上,上式的第二项我们没有理由保证它为00,哪怕有E(εZ)=0\text{E}(\varepsilon|Z)=0也无法保证。但在假设Zε/na.s.0Z'\varepsilon /n \stackrel{a. s. }{\longrightarrow}0ZX/na.s.QZ'X/n \stackrel{a. s. }{\longrightarrow} QQQ为有限满列秩矩阵)以及P^na.s.P\hat P_n\stackrel{a. s. }{\longrightarrow}PPP为有限正定矩阵)之后,可以得到比无偏性更弱的一致性:β~na.s.βo\tilde\beta_n \stackrel{a. s. }{\longrightarrow} \beta_o