李宏毅笔记第一讲:机器学习基本概念(精简完整版)
1. 核心定义
机器学习本质是找函数,按输出类型分三大任务:
-
回归:输出连续值(如股市预测、自动驾驶方向盘角度)
-
分类:输出离散值(如信用评分、人脸识别、垃圾邮件识别)
-
结构学习:输出结构化内容(如图文),属前沿领域
2. 学习方法
| 方法 | 核心流程 | 特点 |
|---|---|---|
| 监督学习 | 特征数据→人工标记→模型训练 | 标记成本高,任务专属;代表:线性回归、深度学习 |
| 自监督学习 | 预训练→微调→下游任务 | 无人工标记,复用性强 |
| 半监督学习 | 少量标记 + 大量未标记数据联合训练 | 平衡标注成本与效果 |
| 无监督学习 | 无标记数据自主挖掘规律(聚类 / 特征学习) | 无师自通,如词汇含义学习 |
| 强化学习(RL) | Agent 接收环境状态→行动→获奖励→最大化累计奖励 | 适用于连续决策(如围棋) |
| GAN | 生成器 G(噪声→假样本)+ 判别器 D(辨真假)→交替对抗 | 无监督生成;易训练不稳定、模式坍塌 |
3. 核心流程
3.1 步骤 1:定义模型
基础模型
-
单特征线性模型:(y预测值,x特征,w权重,b偏置)
-
多特征线性模型:(k为特征数)
复杂模型(解决线性模型偏差)
-
核心逻辑:复杂函数 = 常数 + 多个激活函数之和
-
常用激活函数:
函数 公式 特点 Sigmoid S 型曲线,可通过(w/b/c)调整形态 ReLU 计算高效,实用性更优 Tanh 输出 [-1,1] ,缓解梯度消失
3.2 步骤 2:定义损失函数
| 类型 | 公式 | 适用场景 |
|---|---|---|
| MAE | y_n - \hat{y}_n | |
| MSE | 回归,放大误差 | |
| 交叉熵 | 分类,需配合 Softmax | |
| 带正则项 | 防过拟合,控平滑度 |
3.3 步骤 3:优化(梯度下降)
-
单参数更新:(学习率)
-
多参数更新:(为参数向量)
-
高效梯度计算:反向传播(链式法则)
-
批量优化:数据分组(batch)训练,1 组 = 1 次 update,全组 = 1 次 epoch
3.4 步骤 4:测试
-
核心:训练 Loss 下降≠泛化能力强,需看测试集表现
-
结论:
-
模型过复杂易过拟合
-
模型过简单易模型偏差
-
特征数增大可缓解过拟合
-
4. 深度学习基础
-
本质:多层激活函数堆叠的神经网络(含输入层、隐藏层、输出层)
-
实操:全连接网络为常用结构,超参数(、batch size 等)需试错调优