开始认识机器学习的模型,以及其实现过程。
以用面积预测房价的监督学习case为例。
这也是一个回归问题,即预测一个正确的连续值。
相对的是分类问题,预测的是离散值,例如观察肿瘤两性恶性。
数据集、训练样本
监督学习的数据集被称为训练集。
m 表示训练样本数量
x 代表输入特征
y 代表输出变量
用一组(x,y)表示一组训练样本 用(x(i),y(i))表示第i组训练样本(*(i)是上角标,而不是幂函数)
监督学习算法怎样工作
输入训练集 → 开始机器学习 → 定义一种函数h,使得对函数h输入x后,可以得到y。 在房价预测模型中,函数h可能可以被拟合成线性函数,即: hq(x) = Q0+Q1*X,其中Q0和Q1是常数。 这个函数被称为线性函数,即线性回归,也可以称为单变量线性回归 上面的函数就是一个 一元一次线性回归。
接下来学习中的函数h 拟合模型,会从线性回归开始,线性回归是最基本的算法。 随着学习的深入,也会加入更多更复杂的算法。
p2-2 代价函数
上例中 hq(x) = Q0+Q1*X,其中Q0和Q1是常数。本节课学习怎样选择模型中的参数值Q0和Q1。 不同的参数值,会让我们得到不同的模型。 参数值选取的目标是使得 函数值 hq(x) 与训练集 中的y的方差尽可能小。 放在房价实例中,就是 预测价格 与 真实价格 的方差,尽可能小。 在线性回归中,要解决的是一个最小化问题。
引入代价函数表示这个问题。
J(q0,q1),目标是使得这个数值最小。
例中的代价函数也称作平方误差函数。平方误差代价函数很多时候只回归问题上能起到很好的作用。
当然,还有其他的代价函数。
接下来会继续深入了解代价函数J的工作原理,并尝试直观解释它在计算什么。
P2-3 代价函数
本期从1个常量开始,令q0=0,去尽可能减小J(q1)的值。
代入不同q1后,可以大致绘制出代价函数J的形状。
在这条曲线中,当q1=1时,J最小,对应的h函数形状刚好经过3个训练集,也确实是最好的选择。
P2-4 代价函数
保留q1 q0两个参数。 当只有1个参数时,得到的代价函数形状图是一个二维曲线 当有2个参数时,得到的是一个3D曲面图。
下面的课程中会用等高线/等高图像来表示这些曲面。
曲面图中,碗的底部,就是等高线图中的中心点。
区不同的q0 q1值,可以得到不同的h函数,当q0 q1越向中心点靠近时,h函数就越接近期望。如果能取到中心点,就能取到最符合期望的h函数。
而我们需要的,就是一个高效的算法、软件,来帮助我们自动寻找代价函数J的最小值对应的q0 q1。而不是画出一张图,然后自己手工找最小值对应的坐标。
后续的案例,会有更多的参数,可能需要绘制更高维度的代价函数图,但也有可能难以绘制,难以可视化。
下节课讲讨论一种可以自动找到使函数J值最小的q0 q1的算法。