Datawhale X 李宏毅苹果书 AI夏令营 Task1Datawhale X 李宏毅苹果书机器学习 (ML) 与

Datawhale X 李宏毅苹果书

机器学习 (ML)：机器具备自我学习的能力，即寻找一个函数来完成特定任务。
- 目标：找到能够执行任务（例如语音识别、图像识别）的函数。
- 例子：
  - 语音识别：函数输入音频信号，输出对应的文本。
  - 图像识别：函数输入图像，输出图像的内容。
  - AlphaGo：函数输入棋盘状态，输出下一步棋的落子位置。

模型定义：
- 定义含有未知参数的函数 (f) 用于预测未来的点击次数。
- 示例：(y = b + wx_1)，其中 (y) 表示明天的总观看次数，(x_1) 表示今天的总观看次数，而 (b) 和 (w) 是未知参数。
- (b) 是偏置，(w) 是权重。
损失函数：
- 定义如何评估模型的表现，通过比较预测值 ((\hat{y})) 与实际值 ((y))。
- 常见的损失函数：
  - 平均绝对误差 (MAE)：(\text{MAE} = |y - \hat{y}|)
  - 均方误差 (MSE)：(\text{MSE} = (y - \hat{y})^2)
  - 交叉熵 (适用于概率分布)。
优化：
- 目标：通过调整参数来最小化损失函数。
- 梯度下降：
  - 从随机初始参数开始。
  - 计算损失函数相对于参数的梯度。
  - 沿着梯度的反方向更新参数。
    - 新参数值：(w_{\text{新}} = w_{\text{旧}} - \eta \cdot \frac{\partial L}{\partial w})
    - 其中 (\eta) 是学习率，是一个超参数。
- 问题：
  - 局部最小值：优化过程可能陷入次优解。
  - 全局最小值：使损失函数最小化的最优解。

具有两个参数的梯度下降：
- 对于两个参数 (w) 和 (b)：
  - 计算梯度：(\frac{\partial L}{\partial w}) 和 (\frac{\partial L}{\partial b})。
  - 更新参数：(w_{\text{新}} = w_{\text{旧}} - \eta \cdot \frac{\partial L}{\partial w}) 和 (b_{\text{新}} = b_{\text{旧}} - \eta \cdot \frac{\partial L}{\partial b})。
- 现代框架如 PyTorch 自动化梯度的计算。

找到的最佳参数：
- (w^* = 0.97), (b^* = 100)。
- 损失：(L(w^, b^) = 480)。
- 在数据集上的平均预测误差：大约 500 名观众。