Datawhale X 李宏毅苹果书 AI 夏令营 task1 笔记

90 阅读4分钟

写在前面

task1 主要聚焦于机器学习(ML)的概念及类别并举了频道涨粉量预测的例子来具体解释机器学习的步骤

机器学习的概念及类别

机器学习概念

书中原话:机器学习就是让机器具备找一个函数的能力。

这里的函数是一种抽象的说法,类似数学的映射,输入输出可以是任何事物,比如文字、音频、图片。

有些函数可能十分简单,可能是 y=ax+b;但有些函数十分复杂,只能通过机器的算力一步步逼近完美契合的函数来找到它。这也是机器学习的重要之处,可以找到难以直接找出的函数。

机器学习的类别

1724731578348.png

举例理解

回归:通过今天的降水、湿度、温度等因素来推测明天降水量的多少

分类:通过毛的长短、毛的颜色来判断猫的种类

结构化学习:输入一张图片为其中的人物绘制边框

机器学习的步骤

我们根据书中问题来理解机器学习的步骤:

在书的 1.1 节中,通过一个视频点击次数预测的案例,我们了解了机器学习的基本过程。设想一个场景:某人通过上传视频到平台获取收入,他的目标是利用历史观看数据预测未来的观看次数。这个案例通过数据建模,展示了从历史数据中找到合适的函数来进行预测的过程。

案例步骤详解

1. 构建函数模型

首先,我们需要构建一个包含未知参数的函数模型,以便通过历史数据进行预测。一个简单的线性模型可以表示为:

y=b+wx1y=b+wx_{1}
  • y 是我们要预测的观看次数。
  • x1 是前一天的观看次数。
  • bw 是需要通过训练数据确定的参数。

这个公式实际上是一个简单的线性回归模型,表示观看次数与前一天的观看次数之间的线性关系。

2. 定义损失函数

为了衡量模型预测值与真实值之间的误差,我们定义了一个损失函数。常用的损失函数是均方误差(MSE),它的公式为:

L(w,b)=1ni=1n(yi(wxi+b))2 L(w, b) = \frac{1}{n}\sum_{i=1}^{n}(y_i - (wx_{i} + b))^2

其中,n 是样本数量,yi 是第 i 个样本的真实观看次数,wxi+b 是预测值。

损失函数的作用是指导我们调整参数 w 和 b,使得预测值尽可能接近真实值。

3. 优化参数

在机器学习中,参数优化是一个核心步骤。我们使用梯度下降法来优化模型参数 www 和 bbb。梯度下降法通过计算损失函数对参数的偏导数,来确定参数调整的方向和幅度。

具体过程如下:

  • 计算梯度: 计算损失函数对参数 www 和 bbb 的偏导数。
  • 更新参数: 根据计算出的梯度,调整参数值。更新公式为:
w=wηLw,b=bηLbw = w - \eta \frac{\partial L}{\partial w}, \quad b = b - \eta \frac{\partial L}{\partial b}

其中,η 是学习率,决定了每次调整的步长。

案例的关键点

  1. 领域知识的重要性: 在构建模型时,初始的假设往往基于对问题的理解和领域知识。例如,为什么选择线性模型?因为它与实际观看次数的变化规律较为符合。
  2. 梯度下降法的作用: 梯度下降法是优化参数的常用方法,它能够有效地找到使损失函数最小的参数值。不同的学习率 η\etaη 可能会影响收敛速度和结果的精度。

总结

通过这个案例,我们深入理解了机器学习模型的基本流程:从构建模型、定义损失函数到使用梯度下降法优化参数。这个案例为我们进一步学习更复杂的深度学习模型打下了坚实的基础。理解和掌握这些基础概念和方法,将帮助我们在未来的研究和应用中更好地运用深度学习技术。