人工智能学习笔记 - 数学基础 - 优化理论
优化理论是人工智能中训练模型和最小化损失函数的核心数学工具。目的是为了获取预测时损失最小的函数。
凸与非凸函数
-
凸函数:任意两点连线在函数曲线之上
-
非凸函数:不满足凸性,可能有多个局部最小值
-
直观理解:
- 凸函数如“碗形”,局部最小值即全局最小值
- 非凸函数如“山谷与山峰交错”,存在多个局部极值
凸优化基础
-
目标:最小化凸函数,保证全局最优
-
方法:
- 梯度下降
- 次梯度方法
-
性质:
- 凸优化问题容易求解,收敛保证较强
约束优化(拉格朗日乘子)
-
形式:
-
拉格朗日函数:
-
直观理解:
- 将约束“融入”目标函数,求解极值点时同时满足约束
一阶方法
-
梯度下降(Gradient Descent, GD)
-
随机梯度下降(SGD)
- 每次用小批量样本近似梯度
- 高效适合大规模数据
-
Adam
- 自适应学习率优化器
- 融合动量与梯度平方修正
二阶方法
-
牛顿法(Newton's Method)
- 为 Hessian 矩阵(二阶导)
- 收敛快,但计算 Hessian 成本高
-
直观理解:
- 利用曲率信息加速收敛
- 对凸问题效果显著
总结
- 一阶方法计算简单,适合大规模问题
- 二阶方法收敛快,但代价高
- 约束优化可通过拉格朗日方法转化为无约束问题
- 凸函数优化保证全局最优,非凸问题可能陷入局部最优