主要符号表 省略
1 机器学习基础
机器学习,顾名思义,机器具备有学习的能力。具体来讲,机器学习就是让机器具备找一个函数的能力。机器具备找函数的能力以后,它可以做很多事
假设要找的函数的输出是一个数值,一个 标量(scalar),这种机器学习的任务称为回归(regression)
另一个常见的任务是分类(classification)
机器学习领域中还有结构化学习(structured learning)。机 器不只是要做选择题或输出一个数字,而是产生一个有结构的物体,比如画图
1.1 案例学习
以预测第二天频道流量为例
机器学习找函数的过程,分成 3 个步骤。第一个步骤是写出一个带有未知参数的函数 , 例如
带有未知的参数 (parameter)的函数称为模型(model)
特征(feature) 是这个函数里面已知的,它是来自于后台的信息,2 月 25 日点 击的总次数是已知的,而 跟 是未知的参数。 称为权重(weight), 称为偏置(bias)。 这个是第一个步骤。
第 2 个步骤是定义损失(loss),损失也是一个函数。这个函数的输入是模型里面的参数, 模型是 ,而 跟 是未知的,损失是函数 ,其输入是模型参数 跟
计算差距 的方法很多
是每一笔训练数据的误差 相加以后的结果。
登高线图,就是试了不同的参数, 计算它的损失,画出来的等高线图称为误差表面(error surface)。这是机器学习的第 2 步。
误差表面
接下来进入机器学习的第 3 步:解一个最优化的问题。找一个 跟 ,把未知的参数找 一个数值出来,看代哪一个数值进去可以让损失 L 的值最小,就是要找的 跟 ,这个可以 让损失最小的 跟 称为 跟 代表它们是最好的一组 跟 ,可以让损失的值最小。 梯 度下降(gradient descent)是经常会使用优化的方法。
找一个点 , 大于零则左走一步,小于零则右走一步
斜率大步伐就跨大一点,斜率小步伐就跨小一点
学习率(learning rate) 也会影响步伐大小。学习率是自己设定的,如果 设 大一点,每次参数更新就会量大,学习可能就比较快。如果 设小一点,参数更新就很 慢,每次只会改变一点点参数的数值。这种在做机器学习,需要自己设定,不是机器自 己找出来的,称为超参数(hyperparameter)。
优化过程
梯度下降有一个很大的问题,没有找到真正最好的解,没有找到可以让损失最小的 w。
在梯 度下降中, 是随机初始的位置,也很有可能走到 这里,训练就停住了
右侧红点这个位置是真的可以让损失最小的地方,称为全局最小值(global minima), 而 这个地方称为局部最小值(local minima)
局部最小值
在做梯度下降的时候,真正面对 的难题不是局部最小值
有两个参数的情况下使用梯度下降,其实跟刚才一个参数没有什么 不同
梯度下降优化的过程
after class thinking
前几次夏令营,偏向时间,多次用到剃度下降、学习率等概念,到此终于清晰了
感觉用数学(程序)的语言表达机器学习的过程,比较重要 数学建模