Datawhale X 李宏毅苹果书 AI夏令营 学习笔记1

86 阅读1分钟

主要符号表 省略

1 机器学习基础

机器学习,顾名思义,机器具备有学习的能力。具体来讲,机器学习就是让机器具备找一个函数的能力。机器具备找函数的能力以后,它可以做很多事

假设要找的函数的输出是一个数值,一个 标量(scalar),这种机器学习的任务称为回归(regression)

另一个常见的任务是分类(classification)

机器学习领域中还有结构化学习(structured learning)。机 器不只是要做选择题或输出一个数字,而是产生一个有结构的物体,比如画图

1.1 案例学习

以预测第二天频道流量为例

机器学习找函数的过程,分成 3 个步骤。第一个步骤是写出一个带有未知参数的函数 ff, 例如

y=b+wx1y=b+w x_{1}

带有未知的参数 (parameter)的函数称为模型(model)

特征(feature) x1x_{1} 是这个函数里面已知的,它是来自于后台的信息,2 月 25 日点 击的总次数是已知的,而 wwbb 是未知的参数。ww 称为权重(weight),bb 称为偏置(bias)。 这个是第一个步骤。

第 2 个步骤是定义损失(loss),损失也是一个函数。这个函数的输入是模型里面的参数, 模型是 y=b+wx1y = b + w ∗ x_{1},而 bbww 是未知的,损失是函数 L(b,w)L(b, w),其输入是模型参数 bbww

计算差距 ee 的方法很多

LL 是每一笔训练数据的误差 ee 相加以后的结果。

登高线图,就是试了不同的参数, 计算它的损失,画出来的等高线图称为误差表面(error surface)。这是机器学习的第 2 步。

Pasted image 20240827125308.png

误差表面

接下来进入机器学习的第 3 步:解一个最优化的问题。找一个 wwbb,把未知的参数找 一个数值出来,看代哪一个数值进去可以让损失 L 的值最小,就是要找的 wwbb,这个可以 让损失最小的 wwbb 称为 ww ∗bb ∗ 代表它们是最好的一组 wwbb,可以让损失的值最小。 梯 度下降(gradient descent)是经常会使用优化的方法。

找一个点 w0w_0Lww=w0\frac{\partial L}{\partial w}|_{w=w_0} 大于零则左走一步,小于零则右走一步

斜率大步伐就跨大一点,斜率小步伐就跨小一点

学习率(learning rate)η\eta 也会影响步伐大小。学习率是自己设定的,如果 η\eta 设 大一点,每次参数更新就会量大,学习可能就比较快。如果 η\eta 设小一点,参数更新就很 慢,每次只会改变一点点参数的数值。这种在做机器学习,需要自己设定,不是机器自 己找出来的,称为超参数(hyperparameter)。

Pasted image 20240827130256.png

优化过程

梯度下降有一个很大的问题,没有找到真正最好的解,没有找到可以让损失最小的 w。

在梯 度下降中,w0w_ 0 是随机初始的位置,也很有可能走到 wTw_ T 这里,训练就停住了

右侧红点这个位置是真的可以让损失最小的地方,称为全局最小值(global minima), 而 wTw_ T 这个地方称为局部最小值(local minima)

Pasted image 20240827130615.png

局部最小值

在做梯度下降的时候,真正面对 的难题不是局部最小值

有两个参数的情况下使用梯度下降,其实跟刚才一个参数没有什么 不同

w1w0ηLww=w0,b=b0w_{1}\leftarrow w_{0}-\eta \frac{\partial L}{\partial w}|_{w=w_{0}, b=b_{0}}
b1b0ηLbw=w0,b=b0b_{1}\leftarrow b_{0}-\eta \frac{\partial L}{\partial b}|_{w=w_{0}, b=b_{0}}

Pasted image 20240827130903.png

梯度下降优化的过程

after class thinking

前几次夏令营,偏向时间,多次用到剃度下降、学习率等概念,到此终于清晰了

感觉用数学(程序)的语言表达机器学习的过程,比较重要 数学建模