吴恩达机器学习：线性回归

首先说一些关于课程的题外话。对于 Ng 的这个课程，我没有选择在 Coursera 上学习课程，一来是因为 Coursera 有自己的课程周期，但这个周期不一定适合所有人。其次 Coursera 的课程作业是使用 Octave 语言，而我个人觉得不管是学习还是未来使用 Python 都会是更合适的语言。所以最终我选择了课程视频 + Python 实现作业的形式。

点击 课程视频 你就能不间断地学习 Ng 的课程，关于课程作业的 Python 代码我放到了 Github 上，点击 课程代码 就能去 Github 查看，代码中的错误和改进欢迎大家指出。

以下是 Ng 机器学习课程第一周的笔记。

机器学习

什么是机器学习？Arthur Samuel 给出的一个非正式定义是：不通过明确地编程，使计算机拥有通过学习解决问题的能力。
机器学习的算法包括 监督学习，无监督学习，强化学习，推荐系统等。我们第一周学习的 线性回归 属于 监督学习。

监督学习的工作方式

首先要有一个训练数据集（ Training Set ），其中包含数据对应问题的正确结果。通过我们的学习算法（ Learning Algorithm ）学习训练数据集，最终获得一个函数（ Hypothesis ），这个函数就是我们需要的 预测函数，能够对训练集的数据与其它数据输入做出比较准确的预测。

对于 线性回归 ，我们的 Hypothesis 就是：

hθ(x)=θ0+θ1x1+θ2x2+⋯+θnxn=θTx

其中的 $\theta_i$ 就是学习算法需要学习的参数，而 $x_i$ 是我们对于问题所选取的特征。

代价函数

那么如何学习 预测函数 中的 $\theta_i$ 呢？我们需要引入 代价函数 的概念，它的作用是评估真实与预测值之间的差异。一旦有了这个函数，学习算法的目标就是找到 $\theta_i$ 使得这个函数的值尽可能的小。对于 线性回归，我们使用的 代价函数 是：

J(θ)=12mm∑i=1(hθ(x(i))−y(i))2

其中 $m$ 是样本数， $y$ 是训练数据集已知答案，上标 $i$ 表示第几组训练数据，代价函数 $J(\theta)$ 是关于 $\theta$ 的函数。当然为了是表达更简洁、编写的程序更加清晰，我们通常会使用它的矩阵表达：

J(θ)=12m(Xθ−y)T(Xθ−y)

最后为了承上启下，我们来看看当特征只有一个的时候，代价函数 $J(\theta)$ 的样子。

右图是 $J(\theta)$ 的等高图，每一条线表示 代价函数 的值相同，红 X 表示 代价函数 的最低点。

梯度下降算法

接着刚刚看的单个特征所对应的 代价函数 图像加上之前所说的 “学习算法的目标就是找到 $\theta_i$ 使得 代价函数 尽可能的小” 。一个很直观的想法就是，在坡上任意取一点，然后沿着下坡方向走最后到达最低点。这也正是梯度下降算法的思路，我们沿着梯度的反向更新 $\theta_i$ 的值（沿着最陡的方向下坡），直到 代价函数 收敛到最小值。梯度下降算法更新 $\theta_i$ 的方式为：

θi:=:=θi−α∂∂θiJ(θ)

其中 $\alpha$ 为学习率， $:=$ 表示使用右式的值替换 $\theta_i$ 原有的值。对于 线性回归，我们更新 $\theta_i$ 的方式为：

θ:=:=θ−α1mXT(Xθ−y)

到这里我们就能够完成整个 线性回归 的机器学习算法了。设定 $\theta_i$ 的初始值，使用梯度下降算法迭代更新 $\theta_i$ 的值，直到 $J(\theta)$ 收敛。至于为什使用梯度的反向可以看这篇文章，作者从数学角度解释了原因。

正规方程

对于 线性回归，我们完全可以使用数学方法来得到 $J(\theta)$ 取最小值时 $\theta_i$ 的值。这涉及一些导数和线性代数的知识，有兴趣的同学可以详细看课程视频中的推导过程。这里直接给出求解 $\theta$ 的公式：

θ=(XTX)−1XTy

在使用时 正规方程 有一定的限制，比如 $X^TX$ 矩阵需要是可逆的。那么有了直接求解问题的方法，为什么我们还需要梯度下降的概念呢？因为梯度下降方法更具有广泛性，可以用于很多问题的求解，比如非线性的 代价函数。

特征标准化

在实际的运用中我们选取的特征，比如长度，重量，面积等等，通常单位和范围都不同，这会导致梯度下降算法变慢。所以我们要将特征缩放到相对统一的范围内。通常的方法有 Standardization 和 Normalization。Standardization 是把数据变成符合标准正态分布，即使原来是些奇奇怪怪的分布，由 中心极限定理 可知，数据量够大，一样变成正态，更新公式为：

xi:=:=xi−μδ

Normalization 对于梯度下降算法友好，可能可以让算法最终收敛并且提高训练速度和精度，更新公式为：

xi:=:=xi−min(xi)max(xi)−min(xi)

多项式回归

有时候线性的 Hypothesis 不一定合适我们需要拟合的数据，我们会选择多项式拟合例如：

hθ(x)=θ0+θ1x1+θ2x2+θ3x1x2+θ4x21+θ5x22

这时候我们也可以将它转化为 线性回归 问题，只要令新的特征 $x_3=x_1x_2$ ， $x_4=x_1^2$ ， $x_5=x_2^2$ 就可以了。

So~，一周目的内容就是这些了，谢谢大家耐心阅读。

hertzcat

2018-03-24