Re:从零开始的机器学习 - Machine Learning(一) 线性回归

3,448 阅读11分钟

从我对整个职业生涯的规划出发,我不仅想做一些高质量的应用(软件工程的角度),还想做一些激动人心的应用,所以我希望能在机器学习的方向走,尽管我在大学粗浅的学了些皮毛,但如果要把机器学习作为职业发展的话这些还差得远,所以我开始写了这个系列的文章。

我希望通过这个系列能对机器学习领域的知识点做一个总结,所以对于Machine Learning这个部分,我的目标是写出能让高中生看得懂

前言

这篇文章的主角是线性回归,也就是LR(Linear Regression)。不过高中生肯定不知道回归是什么吧?我现在前言里面简单介绍一下。

回归(Regression)

回归(Regression)问题是机器学习里面很大的一块。

统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

不玩定义,直接上例子,设想一下这样的场景: 如果我现在有了一组(身高, 体重)的数据集,可以令身高为x值,体重为y值将其画在纸上,就和下图一样。

那么现在问题来了,假设我身高为1.8m,能不能预测出我的体重?这就是回归要解决的问题,我希望得到一个函数,我输入我的身高之后他能够帮我预测出我的体重。

在这个例子里,我假设身高和体重的关系是线性关系,所以假设模型是y=kx+b这种一次函数,为了确定变量k和b,我需要利用之前的数据去学习出这两个参数。

尽管上面的例子误差很大。因为体重的函数肯定不单单由身高这一个特征(feature)决定,而且即使只有身高一个特征,最佳函数也很可能不是一次函数。

回归问题相关概念

通常,这类预测问题可以用回归(regression)模型进行解决,回归模型定义了输入与输出的关系,输入即现有知识,而输出则为预测。

一个预测问题在回归模型下的解决步骤为:

  1. 积累知识: 我们将储备的知识称之为训练集(Training Set),毕竟预测是需要过去的数据作为参考的,这个很好理解。
  2. 学习:当我们有了数据的时候,我们就需要去学习这些数据,为什么说机器学习智能?因为当我告诉计算机我的模型是线性(一次函数)或其他类型的函数然后把数据直接倒进去之后它就能返回给我最后的函数(参数都训练好了)。
  3. 预测:学习完成后,当接受了新的数据(输入)后,我们就能通过学习阶段获得的对应关系来预测输出。

kaggle上有个给萌新练习的比赛(competition),关于泰坦尼克号的。

主要内容就是给出几千个人的个人信息(性别、年龄,船舱登记,登船口等信息)以及他们是否存活的数据,然后给出一些测试数据,即上面说的个人信息,让你去预测他们是否会存活下来。

有兴趣可以了解一下: kaggle-titanic

Coursera - 斯坦福 Machine Learning

正文

这篇博客主要讲的是线性回归(Linear regression),经过前言后大家也知道了,回归里面用到的函数有多种多样的,这个需要开发者自己去选择,这次先介绍最简单的线性回归(Linear regression)。

线性回归LR(Linear Regression)

从数学上来说,给定由d个属性描述的示例x=(x1;x2;...;xd),其中xi是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即

一般用向量形式

什么,你说你是高中生不知道这个T是什么?去看看矩阵或向量的转置吧。当然你还得去看看矩阵的乘法,毕竟这里有个1行n列的矩阵和一个n行一列的矩阵相乘

好了,现在我们知道了线性回归模型的基本形式了,那么我们现在的任务就是要去学习出这个w向量和b这些参数的值,有了这个值我们才能去做预测。

一般来说,我们会给w和b一个初始值,然后我们去修正这些值来让这些值符合预期,那么我们怎么去修正这些值呢?我们需要一个损失函数(loss function),这个函数用来指明我的预测值和训练数据实际值的差别。

那么这个损失函数(loss function)是什么,以及我们怎么用它来修正我们的参数w和b,看下面。

梯度下降法

这里我只讲一个梯度下降法,如果以后有需要我会再回来补充。

不知道大家知不知道启发式搜索(Heuristically Search)?

启发式搜索(Heuristically Search)又称为有信息搜索(Informed Search),它是利用问题拥有的启发信息来引导搜索,达到减少搜索范围、降低问题复杂度的目的,这种利用启发信息的搜索过程称为启发式搜索。——百度百科

举个例子,大一大二在大学里面的时候我是有单车的,晚上下课的时候在停车场里面经常忘记自己的车停在哪,要找半天才能找得到,这种就叫盲目搜索,广度优先搜索(BFS)和宽度优先搜索(DFS)都是盲目搜索。

那么如果我手里有个黑科技,能够告诉我我现在距离我的爱车多远,那么我是不是可以以此为依据,往距离逐渐减少的方向去搜索呢?这就是启发式搜索(Heuristically Search),Astar(A*)寻路算法等就是启发式搜索。

启发式搜索与机器学习有一些概念是共通的,那么对于机器学习来说,我也同样需要一个和“距离我爱车多远”这样一个指标来判断我现在参数距离我最优参数有“多远”。我们可以统一的把这种东西叫做损失函数(loss function)

损失函数(Loss Function)

我们给之前例子里的函数一个名字,叫假设函数(hypothesis function),意为预估值函数。损失函数则是用来衡量假设函数(hypothesis function)的准确性,具体衡量指标有很多,这里我们和吴恩达教程里面一样采用平方差的方式计算。

其中函数J就是损失函数(为什么是J我好好奇),函数h是假设函数,可以看到后面是平方差的平均值然后除以了个2。

公式里面的2其实就是为了后面求偏导的时候可以把分数消掉,没什么太大的实际意义。

梯度下降算法(Gradient descent algorithm)

既然我们现在知道了当前怎么评价当前参数的好坏,那么我怎么去修正参数让参数更好(损失函数的最小值)呢?

高中生都知道,在一元函数里面,导数的几何意义就是函数变化增加最快的方向。梯度其实类似,也是类似的,说白了就是一个向量,表示上升最快的方向。

梯度、偏导数部分的补充大家可以自己去看高数书或者网上的一些资料。

那么我们就可以得到一个修正的公式,我们迭代这个公式许多次来修正参数。

这里是减号是因为梯度表示上升最快,所以用的是负梯度。

然后其中其中α表示学习速率(learning rate),这个值越大每次修正的就越多,不过这个不是越高越好,如果太高了可能会一直在最低点“摆动”而无法收敛。也有的使用可变的学习速率,一开始设置较高,接近最低点的过程中逐渐降低。

接下来我们看一下求导之后的结果

这里有一点值得注意的是,在这个梯度下降中我们每次迭代都使用了所有的m个训练数据,这种也叫批量梯度下降法Batch Gradient Descent,BGD

这样每次迭代都将对m个样本进行计算,计算量大。所以有些优化方案,有兴趣的可以去看一下

现在我们知道了如何去修正参数了,但我们实际上修正之后得到的是损失函数(loss function)的极小值而不一定是最小值

由于起始点(起始参数)的不同,最后可能得到的并不是全局的最优解(损失函数最小)。我说一下从西瓜书上看到的几个优化方法。

  1. 以多组不同的参数值初始化,反正就是找多个起点选最好的结果。
  2. 使用“模拟退火”(Simulated Annealing)技术,模拟退火在每一步都以一定概率接受比当前解更差的结果,从而有助于“跳出”局部极小。在每步迭代过程中,接受“次优解”的概率会随着时间的推移而逐步降低,从而保证算法的稳定。
  3. 使用随机梯度下降,它在计算梯度的时候加入了随机因素,所以即使陷入了局部极小值,它计算出来的梯度仍然可能不为0,这样就有机会跳出局部极小继续搜索。

实践

说了那么多理论,是时候写一些代码了。我打算使用Python来做一下斯坦福Machine Learning课程里面关于线性回归的练习。pdf以及数据都可以在我的GitHub库 上下载到

环境

如果你不想被配环境烦死的话,我真的推荐装Anaconda,除此之外要说的就是我用的都是Python3.x。

背景

在这个练习中,我们要用简单线性回归实现预测食物卡车的利润。我们现在已经有了(城市人数,城市利润)这样的许多对数据,现在我要做的就是用线性回归模型并训练出参数来预测我如果给另一个城市(城市人数),那么卡车的利润是多少。

代码及注释

# 参考http://www.johnwittenauer.net/machine-learning-exercises-in-python-part-1/
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 计算损失,用了矢量化编程而不是for循环
def computeLoss(X, y, theta):  
    inner = np.power(((X * theta.T) - y), 2)
    return np.sum(inner) / (2 * len(X))

# 梯度下降部分
def gradientDescent(X, y, theta, alpha, iters):  
    temp = np.matrix(np.zeros(theta.shape))
    parameters = int(theta.ravel().shape[1])
    cost = np.zeros(iters)

    for i in range(iters):
        
        error = (X * theta.T) - y
        for j in range(parameters):
            term = np.multiply(error, X[:,j])
            temp[0,j] = theta[0,j] - ((alpha / len(X)) * np.sum(term))

        theta = temp
        cost[i] = computeLoss(X, y, theta)

    return theta, cost

# 读入训练数据
# windows用户路径可能需要修改下,后期有时间可能会做统一
def loadData(path):
    trainingData = pd.read_csv(path, header=None, names=['Population', 'Profit'])

    trainingData.head()

    trainingData.describe()

    trainingData.plot(kind='scatter', x='Population', y='Profit', figsize=(12,8))
    plt.show()
    return trainingData

trainingData = loadData(os.getcwd() + '/../data/ex1data1.txt')

# 在数据集前插入一列Ones作为常数系数,也就是y=k*x+b*1这种形式
trainingData.insert(0, 'Ones', 1)

# 将输入X以及输出y从数据集中分割
cols = trainingData.shape[1]  
X = trainingData.iloc[:,0:cols-1]  
y = trainingData.iloc[:,cols-1:cols]  

# 把pandas的DataFrames转换成numpy的矩阵
X = np.matrix(X.values)  
y = np.matrix(y.values)  
# 初始化参数为全0的,当然也可以初始化成其他的
theta = np.matrix(np.array([0,0]))  

# 各向量的维度
X.shape, theta.shape, y.shape  

# 初始损失函数值
computeLoss(X, y, theta)   # 32.07,后面可以看看训练完后的损失函数值

# 设置学习速率以及迭代次数
alpha = 0.01  
iters = 2000

# 使用梯度下降得到模型参数
theta_fin, loss = gradientDescent(X, y, theta, alpha, iters)  
theta_fin

# 计算训练后的参数的损失值
computeLoss(X, y, theta_fin)  # 4.47

# 为了画线用的,画出训练好后的直线
x = np.linspace(trainingData.Population.min(), trainingData.Population.max(), 100)  
f = theta_fin[0, 0] + (theta_fin[0, 1] * x)

fig, ax = plt.subplots(figsize=(12,8))  
ax.plot(x, f, 'r', label='Prediction')  
ax.scatter(trainingData.Population, trainingData.Profit, label='Traning Data')  
ax.legend(loc=2)  
ax.set_xlabel('Population')  
ax.set_ylabel('Profit')  
ax.set_title('Predicted Profit vs. Population Size')  
plt.show()

# 损失随着迭代次数的变化
fig, ax = plt.subplots(figsize=(12,8))  
ax.plot(np.arange(iters), loss, 'r')  
ax.set_xlabel('Iterations')  
ax.set_ylabel('Loss')  
ax.set_title('Error vs. Training Epoch')  
plt.show()

解释其实注释里面都比较清楚,就不赘述了。

结果

数据集
数据集

训练结果
训练结果

误差Error随着迭代的减少
误差Error随着迭代的减少

本文章来源于 - 梁王(lwio、lwyj123)

主要参考斯坦福ML课程 johnwittenauer

链接