人工智能学习笔记 - 数学基础 - 优化理论

2025-12-01 69 阅读1分钟

人工智能学习笔记 - 数学基础 - 优化理论

优化理论是人工智能中训练模型和最小化损失函数的核心数学工具。目的是为了获取预测时损失最小的函数。

凸与非凸函数

凸函数：任意两点连线在函数曲线之上 $f(\lambda x + (1-\lambda)y) \le \lambda f(x) + (1-\lambda) f(y), \quad \lambda \in [0,1]$
非凸函数：不满足凸性，可能有多个局部最小值
直观理解：
- 凸函数如“碗形”，局部最小值即全局最小值
- 非凸函数如“山谷与山峰交错”，存在多个局部极值

凸优化基础

目标：最小化凸函数，保证全局最优
方法：
- 梯度下降
- 次梯度方法
性质：
- 凸优化问题容易求解，收敛保证较强

约束优化（拉格朗日乘子）

形式：
$\min f(x) \quad \text{s.t. } g_i(x)=0, ; h_j(x) \le 0$
拉格朗日函数：
$\mathcal{L}(x, \lambda, \mu) = f(x) + \sum_i \lambda_i g_i(x) + \sum_j \mu_j h_j(x)$
直观理解：
- 将约束“融入”目标函数，求解极值点时同时满足约束

一阶方法

梯度下降（Gradient Descent, GD）
$x_{t+1} = x_t - \eta \nabla f(x_t)$
随机梯度下降（SGD）
- 每次用小批量样本近似梯度
- 高效适合大规模数据
Adam
- 自适应学习率优化器
- 融合动量与梯度平方修正

二阶方法

牛顿法（Newton's Method）

$x_{t+1} = x_t - H^{-1} \nabla f(x_t)$
- $H$ 为 Hessian 矩阵（二阶导）
- 收敛快，但计算 Hessian 成本高
直观理解：
- 利用曲率信息加速收敛
- 对凸问题效果显著

总结

一阶方法计算简单，适合大规模问题
二阶方法收敛快，但代价高
约束优化可通过拉格朗日方法转化为无约束问题
凸函数优化保证全局最优，非凸问题可能陷入局部最优