人工智能学习笔记 - 机器学习算法 - 监督学习 - 线性模型

2026-01-03 27 阅读1分钟

人工智能学习笔记 - 机器学习算法 - 监督学习 - 线性模型

线性模型在监督学习中的应用，包括线性回归、岭回归、Lasso 回归和逻辑回归。

线性模型概述

线性模型假设输出 $y$ 与输入特征 $\mathbf{x} \in \mathbb{R}^d$ 的关系为线性形式：

y \approx \mathbf{w}^\top \mathbf{x} + b

$\mathbf{w} \in \mathbb{R}^d$ ：权重向量
$b$ ：偏置
对于 $n$ 个样本的训练集 $\{(\mathbf{x}_i, y_i)\}_{i=1}^n$ ，线性模型的目标是最小化预测值与真实值的误差。

线性回归（Linear Regression）

损失函数

最常用的是均方误差（MSE）：

\mathcal{L}(\mathbf{w}, b) = \frac{1}{n} \sum_{i=1}^n (y_i - (\mathbf{w}^\top \mathbf{x}_i + b))^2

求解方式

解析解（Normal Equation）：

\mathbf{w} = (X^\top X)^{-1} X^\top \mathbf{y}, \quad b = \bar{y} - \mathbf{w}^\top \bar{\mathbf{x}}

数值解（梯度下降）：

\mathbf{w} \gets \mathbf{w} - \eta \nabla_\mathbf{w} \mathcal{L}(\mathbf{w}, b)

正则化（Regularization）

控制模型复杂度，避免过拟合项：

L2 正则化（Ridge 回归）：

\mathcal{L}_{ridge}(\mathbf{w}, b) = \frac{1}{n} \sum_{i=1}^n (y_i - (\mathbf{w}^\top \mathbf{x}_i + b))^2 + \lambda \|\mathbf{w}\|_2^2

L1 正则化（Lasso 回归）：

\mathcal{L}_{lasso}(\mathbf{w}, b) = \frac{1}{n} \sum_{i=1}^n (y_i - (\mathbf{w}^\top \mathbf{x}_i + b))^2 + \lambda \|\mathbf{w}\|_1

作用：
- L2：缩小权重，防止过拟合，保留所有特征
- L1：可产生稀疏权重，实现特征选择

特征缩放（Feature Scaling）

加快梯度下降收敛速度，提高数值稳定性
常用方法：
- 标准化（Standardization）：
$x_j \gets \frac{x_j - \mu_j}{\sigma_j}$
- 归一化（Min-Max Scaling）：
$x_j \gets \frac{x_j - \min(x_j)}{\max(x_j) - \min(x_j)}$

逻辑回归（Logistic Regression）

用于分类问题（通常二分类）
模型形式：

p(y=1|\mathbf{x}) = \sigma(\mathbf{w}^\top \mathbf{x} + b)

Sigmoid 函数：

\sigma(z) = \frac{1}{1 + e^{-z}}

损失函数（对数似然/交叉熵）：

\mathcal{L}(\mathbf{w}, b) = -\frac{1}{n} \sum_{i=1}^n \left[ y_i \log p_i + (1-y_i) \log (1-p_i) \right]

同样可以加正则化（L1/L2）控制过拟合

解析解 vs 数值解

解析解：通过闭式公式直接求解（如线性回归的 Normal Equation）
数值解：通过迭代优化算法求解（如梯度下降、牛顿法等）
一般情况：
- 样本量小、特征维度低，解析解方便
- 样本量大、高维稀疏数据，使用数值解更高效

总结

线性模型适合回归和二分类问题
正则化（L1/L2）用于防止过拟合
特征缩放提高数值优化稳定性
解析解适用于小规模问题，数值解适用于大规模问题
逻辑回归将线性模型扩展到分类问题，通过 Sigmoid 函数输出概率