李宏毅笔记第一讲第一章:机器学习基本概念

186 阅读2分钟

李宏毅笔记第一讲:机器学习基本概念(精简完整版)

1. 核心定义

机器学习本质是找函数,按输出类型分三大任务:

  • 回归:输出连续值(如股市预测、自动驾驶方向盘角度)

  • 分类:输出离散值(如信用评分、人脸识别、垃圾邮件识别)

  • 结构学习:输出结构化内容(如图文),属前沿领域

2. 学习方法

方法核心流程特点
监督学习特征数据→人工标记→模型训练标记成本高,任务专属;代表:线性回归、深度学习
自监督学习预训练→微调→下游任务无人工标记,复用性强
半监督学习少量标记 + 大量未标记数据联合训练平衡标注成本与效果
无监督学习无标记数据自主挖掘规律(聚类 / 特征学习)无师自通,如词汇含义学习
强化学习(RL)Agent 接收环境状态→行动→获奖励→最大化累计奖励适用于连续决策(如围棋)
GAN生成器 G(噪声→假样本)+ 判别器 D(辨真假)→交替对抗无监督生成;易训练不稳定、模式坍塌

3. 核心流程

3.1 步骤 1:定义模型

基础模型
  • 单特征线性模型:(y=b+wx)(y = b + wx)(y预测值,x特征,w权重,b偏置)

  • 多特征线性模型:(y=b+j=1kwjxj)(y = b + \sum_{j=1}^k w_jx_j)(k为特征数)

复杂模型(解决线性模型偏差)
  • 核心逻辑:复杂函数 = 常数 + 多个激活函数之和

  • 常用激活函数:

    函数公式特点
    Sigmoid(sigmoid(x)=11+ex)(sigmoid(x) = \frac{1}{1+e^{-x}})S 型曲线,可通过(w/b/c)调整形态
    ReLU(ReLU(x)=max(0,x))(ReLU(x) = max(0, x))计算高效,实用性更优
    Tanh(tanh(x)=exexex+ex)(tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}})输出 [-1,1] ,缓解梯度消失

3.2 步骤 2:定义损失函数

类型公式适用场景
MAEL=1Nn=1NL = \frac{1}{N}\sum_{n=1}^Ny_n - \hat{y}_n
MSE(L=1Nn=1N(yny^n)2)(L = \frac{1}{N}\sum_{n=1}^N (y_n - \hat{y}_n)^2)回归,放大误差
交叉熵(L=n=1Ni=1Cyn,ilogy^n,i)(L = -\sum_{n=1}^N \sum_{i=1}^C y_{n,i}log\hat{y}_{n,i})分类,需配合 Softmax
带正则项(L=n=1N(yn(b+wixn,i))2+λwi2)(L = \sum_{n=1}^N (y_n - (b + \sum w_i x_{n,i}))^2 + \lambda \sum w_i^2)防过拟合,(λ)(\lambda)控平滑度

3.3 步骤 3:优化(梯度下降)

  • 单参数更新:(wt+1=wtηLww=wt)(w^{t+1} = w^t - \eta \cdot \frac{\partial L}{\partial w}\big|_{w=w^t})(η)(\eta)学习率)

  • 多参数更新:(θt+1=θtηL(θt))(\theta^{t+1} = \theta^t - \eta \cdot \nabla L(\theta^t))(θ)(\theta)为参数向量)

  • 高效梯度计算:反向传播(链式法则)

  • 批量优化:数据分组(batch)训练,1 组 = 1 次 update,全组 = 1 次 epoch

3.4 步骤 4:测试

  • 核心:训练 Loss 下降≠泛化能力强,需看测试集表现

  • 结论:

    • 模型过复杂易过拟合

    • 模型过简单易模型偏差

    • 特征数增大可缓解过拟合

4. 深度学习基础

  • 本质:多层激活函数堆叠的神经网络(含输入层、隐藏层、输出层)

  • 实操:全连接网络为常用结构,超参数((η)(\eta)、batch size 等)需试错调优