Regression（回归）

以宝可梦为引例。

一只宝可梦会有cp值、hp值、名称、体型等多维度属性，假设我们想把这些已知量输入function，输出进化后的cp值，从而以更高的效率获得更强的宝可梦。

则我们需要找到尽可能精确的func。

宝可梦例子.png

因此，Regression的定义就是找到一个function，通过输入特征x，输出一个数值y。

前篇我们介绍了机器学习的三个基本步骤：

①找到model,即function set。

②判断各个function的好坏。

③找到最好的function。

第一步：找一个简单的Model

知道了步骤，我们可以开干了。

首先尽量找一种简单的function。比如下图的y = b + Σwx.

介绍线性model.png

x：一个样本的一个或多个维度的特征
w：各个特征的权重weight
b：偏移量bias
w、b都是参数，可以任意取，我们需要找出其中最好的值

这种y = b + Σwx的function形式集合被称为Linear model，即线性模型。在回归问题中使用线性模型的方法也被称作线性回归。

第二步：判断各个function的好坏

现在我们手上有10组已知样本数据。

原始数据.png

为了衡量各个function的好坏，我们需要一个量化标准，因此我们引入Loss Function的概念。

统计10组原始数据与预测数据之差的平方的和，显然和越小模型越好。

第三步：以Loss Function为指标找出最佳的Function

我们知道Loss Function的值，即损失值最小的那一个function就是我们需要找的。但是w、b的取值是无穷无尽的，他们对应的function和损失值也是无限多的，为了进行有效筛选，这里我们引入Gradient Descent即梯度下降法。

梯度下降1.png

梯度下降法

我们考虑最简单的情况，即只针对w这单个参数进行分析，对于该Loss（w）—— w函数图像，显然我们需要的是loss（w）最小值对应的w值。

因此，我们可以使用梯度下降法来逐渐逼近求出该点的坐标。

首先，我们随机选取一个w0,并对w进行微分操作。容易看出dL/dw0如果小于0，则代表该点切线斜率小于0，说明更小的L（w）在该点右侧，需要增大w0；如果dL/dw0大于0，则需要减小w0。

了解到大致方法之后，我们定义一个η代表Learning Rate学习率，可以简要理解为每次移动w的步长。

最后，我们容易得到新的w1 = w0 - η（dL/dw），这就是梯度下降法。梯度下降2.png

得不到全局最优的特殊情况

但有时我们通过梯度下降法得不到全局最优解，因为在这之前w的更新就被一个dL/dw = 0的点截住了，导致w无法进行下一步更新。局部最优的情况.png 我们称该点为局部最优，而非全局最优。最后是否能跑到全局最优的点似乎依赖于起始点的选择。局部最优的情况2.png 但是但是但是！！！