人工智能学习笔记 - 机器学习算法 - 监督学习 - 线性模型

27 阅读1分钟

人工智能学习笔记 - 机器学习算法 - 监督学习 - 线性模型

线性模型在监督学习中的应用,包括线性回归、岭回归、Lasso 回归和逻辑回归。


线性模型概述

线性模型假设输出 yy 与输入特征 xRd\mathbf{x} \in \mathbb{R}^d 的关系为线性形式:

ywx+by \approx \mathbf{w}^\top \mathbf{x} + b
  • wRd\mathbf{w} \in \mathbb{R}^d:权重向量
  • bb:偏置
  • 对于 nn 个样本的训练集 {(xi,yi)}i=1n\{(\mathbf{x}_i, y_i)\}_{i=1}^n,线性模型的目标是最小化预测值与真实值的误差。

线性回归(Linear Regression)

损失函数

最常用的是均方误差(MSE):

L(w,b)=1ni=1n(yi(wxi+b))2\mathcal{L}(\mathbf{w}, b) = \frac{1}{n} \sum_{i=1}^n (y_i - (\mathbf{w}^\top \mathbf{x}_i + b))^2

求解方式

  • 解析解(Normal Equation)
w=(XX)1Xy,b=yˉwxˉ\mathbf{w} = (X^\top X)^{-1} X^\top \mathbf{y}, \quad b = \bar{y} - \mathbf{w}^\top \bar{\mathbf{x}}
  • 数值解(梯度下降)
wwηwL(w,b)\mathbf{w} \gets \mathbf{w} - \eta \nabla_\mathbf{w} \mathcal{L}(\mathbf{w}, b)

正则化(Regularization)

控制模型复杂度,避免过拟合项:

  • L2 正则化(Ridge 回归)
Lridge(w,b)=1ni=1n(yi(wxi+b))2+λw22\mathcal{L}_{ridge}(\mathbf{w}, b) = \frac{1}{n} \sum_{i=1}^n (y_i - (\mathbf{w}^\top \mathbf{x}_i + b))^2 + \lambda \|\mathbf{w}\|_2^2
  • L1 正则化(Lasso 回归)
Llasso(w,b)=1ni=1n(yi(wxi+b))2+λw1\mathcal{L}_{lasso}(\mathbf{w}, b) = \frac{1}{n} \sum_{i=1}^n (y_i - (\mathbf{w}^\top \mathbf{x}_i + b))^2 + \lambda \|\mathbf{w}\|_1
  • 作用:
    • L2:缩小权重,防止过拟合,保留所有特征
    • L1:可产生稀疏权重,实现特征选择

特征缩放(Feature Scaling)

  • 加快梯度下降收敛速度,提高数值稳定性

  • 常用方法:

    • 标准化(Standardization):
    xjxjμjσjx_j \gets \frac{x_j - \mu_j}{\sigma_j}
    • 归一化(Min-Max Scaling):
    xjxjmin(xj)max(xj)min(xj)x_j \gets \frac{x_j - \min(x_j)}{\max(x_j) - \min(x_j)}

逻辑回归(Logistic Regression)

  • 用于分类问题(通常二分类)
  • 模型形式:
p(y=1x)=σ(wx+b)p(y=1|\mathbf{x}) = \sigma(\mathbf{w}^\top \mathbf{x} + b)
  • Sigmoid 函数:
σ(z)=11+ez\sigma(z) = \frac{1}{1 + e^{-z}}
  • 损失函数(对数似然/交叉熵):
L(w,b)=1ni=1n[yilogpi+(1yi)log(1pi)]\mathcal{L}(\mathbf{w}, b) = -\frac{1}{n} \sum_{i=1}^n \left[ y_i \log p_i + (1-y_i) \log (1-p_i) \right]
  • 同样可以加正则化(L1/L2)控制过拟合

解析解 vs 数值解

  • 解析解:通过闭式公式直接求解(如线性回归的 Normal Equation)
  • 数值解:通过迭代优化算法求解(如梯度下降、牛顿法等)
  • 一般情况:
    • 样本量小、特征维度低,解析解方便
    • 样本量大、高维稀疏数据,使用数值解更高效

总结

  • 线性模型适合回归和二分类问题
  • 正则化(L1/L2)用于防止过拟合
  • 特征缩放提高数值优化稳定性
  • 解析解适用于小规模问题,数值解适用于大规模问题
  • 逻辑回归将线性模型扩展到分类问题,通过 Sigmoid 函数输出概率