Datawhale X 李宏毅苹果书
机器学习 (ML) 与深度学习 (DL) 的基本概念简介
- 机器学习 (ML):机器具备自我学习的能力,即寻找一个函数来完成特定任务。
- 目标:找到能够执行任务(例如语音识别、图像识别)的函数。
- 例子:
- 语音识别:函数输入音频信号,输出对应的文本。
- 图像识别:函数输入图像,输出图像的内容。
- AlphaGo:函数输入棋盘状态,输出下一步棋的落子位置。
机器学习任务类型
- 回归:预测连续数值。
- 例子:预测 PM2.5 浓度。
- 分类:从预定义的类别中选择。
- 例子:垃圾邮件检测。
- 结构化学习:生成结构化的输出,例如图像或文本。
- 例子:给图像生成描述。
视频点击预测案例研究
机器学习步骤
-
模型定义:
- 定义含有未知参数的函数 (f) 用于预测未来的点击次数。
- 示例:(y = b + wx_1),其中 (y) 表示明天的总观看次数,(x_1) 表示今天的总观看次数,而 (b) 和 (w) 是未知参数。
- (b) 是偏置,(w) 是权重。
-
损失函数:
- 定义如何评估模型的表现,通过比较预测值 ((\hat{y})) 与实际值 ((y))。
- 常见的损失函数:
- 平均绝对误差 (MAE):(\text{MAE} = |y - \hat{y}|)
- 均方误差 (MSE):(\text{MSE} = (y - \hat{y})^2)
- 交叉熵 (适用于概率分布)。
-
优化:
- 目标:通过调整参数来最小化损失函数。
- 梯度下降:
- 从随机初始参数开始。
- 计算损失函数相对于参数的梯度。
- 沿着梯度的反方向更新参数。
- 新参数值:(w_{\text{新}} = w_{\text{旧}} - \eta \cdot \frac{\partial L}{\partial w})
- 其中 (\eta) 是学习率,是一个超参数。
- 问题:
- 局部最小值:优化过程可能陷入次优解。
- 全局最小值:使损失函数最小化的最优解。
优化技术
- 具有两个参数的梯度下降:
- 对于两个参数 (w) 和 (b):
- 计算梯度:(\frac{\partial L}{\partial w}) 和 (\frac{\partial L}{\partial b})。
- 更新参数:(w_{\text{新}} = w_{\text{旧}} - \eta \cdot \frac{\partial L}{\partial w}) 和 (b_{\text{新}} = b_{\text{旧}} - \eta \cdot \frac{\partial L}{\partial b})。
- 现代框架如 PyTorch 自动化梯度的计算。
- 对于两个参数 (w) 和 (b):
实例结果
- 找到的最佳参数:
- (w^* = 0.97), (b^* = 100)。
- 损失:(L(w^, b^) = 480)。
- 在数据集上的平均预测误差:大约 500 名观众。