工具变量原理在做回归时，很多时候会有$\text{E}(x_t \varepsilon_t)\neq 0$的情况，这也意

在做回归时，很多时候会有 $\text{E}(x_t \varepsilon_t)\neq 0$ 的情况，这也意味着不满足外生性条件 $\text{E}(\varepsilon|X)=0$ ，此时的OLS估计量 $\hat\beta$ 就不再满足无偏性，并且随着 $n$ 的变大，它的bias也无法变小。若对此无法理解，请先掌握《小样本OLS回归梳理》中的内容。

此时该怎么办？一种解决方法是利用一些与 $\varepsilon$ 无关的变量，这就是工具变量（instrumental variables，下文统称IV）。我们假设找到的IV是一些 $l\times 1$ 的向量 $z_t$ ，再将它排成 $n\times l$ 的矩阵 $Z=[z_1,\cdots,z_n]'$ 。

IV需要与原来的 $x_t$ 足够接近，因此 $Z'X$ （ $X$ 为 $n\times k$ 矩阵）必须满列秩。而我们寻找IV的目的，就是要让IV满足 $\text{E}(z_t\varepsilon_t)=0$ ，由数据生成过程 $\varepsilon_t=y_t-x'_t\beta_o$ 可知，我们要求解的就是满足 $\text{E}(z_t(y_t-x'_t\beta_o))=0$ 的 $\beta_o$ 。

我们无法知道 $\text{E}(z_t y_t)$ 和 $\text{E}(z_t x'_t)$ ，但可以用样本矩代替，即

n^{-1}\sum_{t=1}^{n}z_t(y_t-x'_t \beta_o)=Z'(y-X\beta_o)/n=0

上面的方程，若 $l \lt k$ ，则有多个解，若 $l=k$ 且 $Z'X$ 非奇异，则有唯一解 $\tilde \beta_n=(Z'X)^{-1}Z'y$ ，若 $l \gt k$ ，无解。在经济学理论中，往往会出现 $l \gt k$ 的情形，此时尽管方程无解，但我们依旧可以寻找 $\beta_o$ ，使 $Z'(y-X\beta_o)$ 尽可能接近 $0$ 。

我们可以定义一个 $Z'(y-X\beta_o)$ 和 $0$ 之间的二次距离：

d_n(\beta)=(Y-X\beta)'Z \hat{P}_n Z'(y-X\beta)

其中 $\hat{P}_n$ 是一个 $l\times l$ 的正定范数矩阵（positive definite norming matrix），它可以是随机矩阵。这里之所以选择二次距离，是因为这样在求解最优化问题时比较方便，可以直接写出一阶条件：

\dfrac{\partial d_n(\beta)}{\partial \beta} = -2X'Z\hat{P}_n Z'(y-X\beta)=0

假设 $X'Z\hat{P}_nZ'X$ 非奇异，就可以得到IV估计量

\tilde \beta_n=(X'Z\hat{P}_nZ'X)^{-1}X'Z \hat{P}_nZ'y

只要选择 $Z$ 和 $\hat P_n$ ，就可以得到各种计量经济学中的估计量。比如选择 $Z=X$ 和 $\hat P_n=(X'X/n)^{-1}$ ，那么 $\tilde \beta_n$ 就变成了OLS估计量 $\hat \beta_n$ 。而选择 $\hat P_n=(Z'Z/n)^{-1}$ ，就得到了2SLS（two-stage least squares）估计量。

IV估计量是无偏的吗？在数据生成过程 $y=X\beta_o+\varepsilon$ 下，有

\begin{aligned} \tilde \beta_n=&(X'Z\hat{P}_nZ'X)^{-1}X'Z \hat{P}_nZ'y\\ =&(X'Z\hat{P}_nZ'X)^{-1}X'Z \hat{P}_nZ'(X\beta_o+\varepsilon)\\ =& \beta_o+(X'Z\hat{P}_nZ'X)^{-1}X'Z \hat{P}_nZ'\varepsilon \end{aligned}

事实上，上式的第二项我们没有理由保证它为 $0$ ，哪怕有 $\text{E}(\varepsilon|Z)=0$ 也无法保证。但在假设 $Z'\varepsilon /n \stackrel{a. s. }{\longrightarrow}0$ 、 $Z'X/n \stackrel{a. s. }{\longrightarrow} Q$ （ $Q$ 为有限满列秩矩阵）以及 $\hat P_n\stackrel{a. s. }{\longrightarrow}P$ （ $P$ 为有限正定矩阵）之后，可以得到比无偏性更弱的一致性： $\tilde\beta_n \stackrel{a. s. }{\longrightarrow} \beta_o$ 。