这是我参与8月更文挑战的第19天，活动详情查看：8月更文挑战

这个正规方程是放在多元线性回归里边讲的。之前线性回归我们讲的是梯度下降，循环执行一个公式逐步下降，而正规方程与之相反，是直接对θ求最优解。基本上只需一步就可以完成。

什么是正规方程？

先举个简单的例子：

Intuition:

If $1\mathrm{D}(\theta \in \R)$

$J(\theta)=a \theta^{2}+b \theta+c$

现在假设θ只是一个实数，不是向量，函数J是关于θ的一个二次函数。

对这个函数求最小值，怎么一步实现？只要你学过高中数学就会知道：求导。求出 $\frac{\text d h(x)}{\text d x} = 0$ 那个x就是符合是函数最小化的值。

但是一般我们接触到的并不是这种函数，取值范围都是向量。在梯度下降中是循环执行对每一个θ求偏导，最后求出何时θ=0，那现在我们就可以直接求出等于0的这一步。

现在我们有一个训练样本，在数据集中加上一列 $x_0 = 1$ 把这个训练集变成一个系数矩阵：

$X=\left[\begin{array}{ccccc}1 & 2104 & 5 & 1 & 45 \\ 1 & 1416 & 3 & 2 & 40 \\ 1 & 1534 & 3 & 2 & 30 \\ 1 & 852 & 2 & 1 & 36\end{array}\right]$

同样把y列成一个向量：

$y=\left[\begin{array}{l}460 \\ 232 \\ 315 \\ 178\end{array}\right]$

矩阵X包含了所有的特征量，是一个m*n+1的矩阵，y是一个m维矩阵。m是训练样本的数量。

现在只需要一步： $\theta=\left(X^{T} X\right)^{-1} X^{T} y$ 即可求出最优解。

Set theta to be equal to X transpose X inverse times X transpose y, this would give you the value of theta that minimizes your cost function.

特征量矩阵的转置乘自身，然后求逆，之后再乘特征量矩阵的转置，然后再乘y向量。

所以正规方程就是：

m examples $((x^1,y^1),...,(x^n,y^n))$ ，n features.

假设现在我们的训练集有m个训练样本。一共有n个特征量。那特征量x的向量就是

$x = \begin{bmatrix} x^i_0 \\ x^i_1 \\ x^i_2\\ ...\\ x^i_n\end{bmatrix} \in \R^{n+1}$

而将x转化为矩阵X就变成

$X = \begin{bmatrix} ...(x^i_0)^T... \\ ...(x^i_1)^T... \\ ...(x^i_2)^T...\\ ...\\ ...(x^i_n)^T...\end{bmatrix} \in \R^{m \times n+1}$

而y则是：

$y = \begin{bmatrix} y^1 \\ y^2 \\ y^3 \\ ...\\ y^m \end{bmatrix} \in \R^m$

列出Xy以后:

\theta=\left(X^{T} X\right)^{-1} X^{T} y

在octave中只需要一句pinv(X' * X) * x' * y

并且这种方法也不需要进行特征量缩放。

其实在octave中，有两个求逆矩阵的方法，一个pinv()一个inv()。用前者，即使矩阵不可逆，你也可以得到卒子红正确的θ值。

可逆矩阵 AB = BA = I，对于矩阵A，能找到一个矩阵B与其相乘，使结果等于单位矩阵，那矩阵A就是可逆矩阵。

一般来说你遇到的不可逆矩阵有两情况：

有多余的特征量比如给你

$x_1 = size \quad in \quad feet^2 \\x_2 = size \quad in \quad m^2$ 一个面积单位是平方英尺，一个面积单位是平方米。这种情况下你可以舍弃一个特征量。
特征量过多（m<=n）

这种情况下删除某些特征量或者进行正则化。

正则化之后会讲到。

我有个不成熟的想法：为什么不可以将m循环一下，使其称为一个方阵哈哈哈哈哈，就比如 $\begin{bmatrix} a_{11},a_{12},a_{13},a_{14},a_{15}\\a_{21},a_{22},a_{23},a_{24},a_{25}\\a_{31},a_{32},a_{33},a_{34},a_{35}\\a_{11},a_{12},a_{13},a_{14},a_{15}\\a_{21},a_{22},a_{23},a_{24},a_{25}\end{bmatrix}$

对比正规方程和梯度下降

Gradient descent	Normal equation
Need to choose α Needs many iterations	No need to choose α Don't need to iterate
Works well even when n is large.	Need to compute $(X^TX)^{-1}$ ， Slow if n is very large The normal equation method actually do not work for some more sophisticated learning algorithms.

数据量小的简单算法使用正规方程更迅速。数据量大或者算法更为复杂还是需要使用梯度下降。