正则化

一、过拟合问题

定义：在统计学中，过拟合（英语：overfitting，或称拟合过度）是指过于紧密或精确地匹配特定数据集，以致于无法良好地拟合其他数据或预测未来的观察结果的现象。

各种假设函数
1. 第一种直线拟合：预先认为问题是线性的。导致了欠拟合和高误差。
2. 第二种适中：拟合效果较好。
3. 第三种过拟合：太过依赖于输入样本的分布，不利于预测新样本的分布(没有普适性)
过拟合：

如果问题有太多的特征，那么假设函数就会过于追求贴合训练集(就是使代价函数最小化： $J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2} \approx 0$ )，这也就导致了训练出来的模型不能推广至新样本(也就是不能准确的预测房价)

减少特征数量
1. 手动选择应该留下的特征
2. 利用模型选择特征的算法
正则化
- 保留所有参数，但是要减少参数 $\theta_j$ 的量级(次方)或大小。
- 当我们拥有大量的特征时正则化的效率就很高，每一个特征都能起到预测 y 值的作用。

示例

就是高量级的x过大，导致系数 $\theta_{j}$ 会更贴近输入的训练样本。
处理办法：

使高量级的x系数 $\theta_{j}$ 变小，也就是直接在代价函数后面加上高量级的两个系数，并在其前乘上一个正则化项：

这样就能使最后的高量级系数变的很小，最终的假设函数就贴近低量级了。

特征： $x_{1}、x_{2}、x_{3}、...、x_{n}$
参数： $\theta_{0}、\theta_{1}、\theta_{2}、\theta_{3}、...、\theta_{n}$
1. 注意：我们事先并不知道哪些系数是高量级的，所以我们要在代价函数后面添上对应的各个系数
代价函数
1. $J(\theta)=\frac{1}{2 m}\left[\sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda{\left(\sum_{j=1}^{n} \theta_{j}^{2}\right)}\right]$
2. 注意：若是正则系数 $\lambda$ 设置过大，则会导致x的所有系数都达到一个非常小的值，此时对应的假设函数就相当于一个常数函数了，造成欠拟合。
若 $\lambda$ 设置的非常非常大(例如为 $10^{10}$ )，则会发生什么？
1. 算法健壮性强， $\lambda$ 的大小不会影响整个流程
2. 算法会陷入过拟合
3. 算法最终欠拟合，最后甚至不能贴合训练集
4. 梯度下降不收敛

正则化代价函数

$J(\theta)=\frac{1}{2 m}\left[\sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda{\left(\sum_{j=1}^{n} \theta_{j}^{2}\right)}\right]$
流程

$\begin{array}{c} \theta_{0}:=\theta_{0}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{0}^{(i)} \\ \theta_{j}:=\theta_{j}-\alpha \quad \frac{1}{m} [\sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)} + \frac{\lambda }{m}\theta_{j} ]\\ (j=1,2,3, \ldots, n) \\ \end{array}$

也可将下面的 $\theta_{j}$ 式子简化为： $\theta_{j}:=\theta_{j}\left(1-\alpha \frac{\lambda}{m}\right)-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}$
一般会将正则系数 $\lambda$ 设置得比较小，要使 $1-\alpha \frac{\lambda}{m}$ 贴近0.99。

一般流程
1. 不用使用繁琐求导来迭代 ${\theta_{i}}$ ，只要求出 $\theta=\left(X^{T} X\right)^{-1} X^{T} y$ 就可以得出最佳结果。
2. 推广：
  1. m 个样本， n 个特征： $m \text { examples }\left(x^{(1)}, y^{(1)}\right), \ldots,\left(x^{(m)}, y^{(m)}\right) ; n \text { features. }$
    
    $\underline{x^{(i)}}=\left[\begin{array}{c} x_{0}^{(i)} \\ x_{1}^{(i)} \\ x_{2}^{(i)} \\ \vdots \\ x_{n}^{(i)} \end{array}\right] \in \mathbb{R}^{n+1}$ 。 $x_{0}^{(i)} = 1$ 便于向量乘法。 $\underline{y}=\left[\begin{array}{c} y^{(1)} \\ y^{(2)} \\ y^{(3)} \\ \vdots \\ y^{(m)} \end{array}\right] \in \mathbb{R}^{m}$
加入正则化

$X=\left[\begin{array}{c} \left(x^{(1)}\right)^{T} \\ \vdots \\ \left(x^{(m)}\right)^{T} \end{array}\right] \quad y=\left[\begin{array}{c} y^{(1)} \\ \vdots \\ y^{(m)} \end{array}\right]$

$\theta=\left(x^{T} x+\lambda\left[\begin{array}{llll} 0 & & & \\ & 1 & & \\ & & 1 & \\ \end{array}\right]\right)^{-1} x^{T} y$ ，其中的矩阵是 n + 1 阶方阵，n 是特征个数。
若 $\lambda$ > 0，则 $\left(x^{T} x+\lambda\left[\begin{array}{llll} 0 & & & \\ & 1 & & \\ & & 1 & \\ \end{array}\right]\right)$ 一定可逆，所以正则化还解决了矩阵不可逆的问题。

存在问题：逻辑回归中也会出现过拟合
解决办法
1. 在代价函数中加入"惩罚"
  
  $\begin{array}{c} J(\theta)=-\left[\frac{1}{m} \sum_{i=1}^{m} y^{(i)} \log h_{\theta}\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right) +\frac{\lambda}{2 m} \sum_{j=1}^{n} \theta_{j}^{2} \right] \end{array}$ .
高级优化