人工智能学习笔记 - 数学基础 - 优化理论

69 阅读1分钟

人工智能学习笔记 - 数学基础 - 优化理论

优化理论是人工智能中训练模型和最小化损失函数的核心数学工具。目的是为了获取预测时损失最小的函数。


凸与非凸函数

  • 凸函数:任意两点连线在函数曲线之上 f(λx+(1λ)y)λf(x)+(1λ)f(y),λ[0,1]f(\lambda x + (1-\lambda)y) \le \lambda f(x) + (1-\lambda) f(y), \quad \lambda \in [0,1]

  • 非凸函数:不满足凸性,可能有多个局部最小值

  • 直观理解

    • 凸函数如“碗形”,局部最小值即全局最小值
    • 非凸函数如“山谷与山峰交错”,存在多个局部极值

凸优化基础

  • 目标:最小化凸函数,保证全局最优

  • 方法

    • 梯度下降
    • 次梯度方法
  • 性质

    • 凸优化问题容易求解,收敛保证较强

约束优化(拉格朗日乘子)

  • 形式

    minf(x)s.t. gi(x)=0,;hj(x)0\min f(x) \quad \text{s.t. } g_i(x)=0, ; h_j(x) \le 0
  • 拉格朗日函数

    L(x,λ,μ)=f(x)+iλigi(x)+jμjhj(x)\mathcal{L}(x, \lambda, \mu) = f(x) + \sum_i \lambda_i g_i(x) + \sum_j \mu_j h_j(x)
  • 直观理解

    • 将约束“融入”目标函数,求解极值点时同时满足约束

一阶方法

  • 梯度下降(Gradient Descent, GD)

    xt+1=xtηf(xt)x_{t+1} = x_t - \eta \nabla f(x_t)
  • 随机梯度下降(SGD)

    • 每次用小批量样本近似梯度
    • 高效适合大规模数据
  • Adam

    • 自适应学习率优化器
    • 融合动量与梯度平方修正

二阶方法

  • 牛顿法(Newton's Method)

    xt+1=xtH1f(xt)x_{t+1} = x_t - H^{-1} \nabla f(x_t)
    • HH 为 Hessian 矩阵(二阶导)
    • 收敛快,但计算 Hessian 成本高
  • 直观理解

    • 利用曲率信息加速收敛
    • 对凸问题效果显著

总结

  • 一阶方法计算简单,适合大规模问题
  • 二阶方法收敛快,但代价高
  • 约束优化可通过拉格朗日方法转化为无约束问题
  • 凸函数优化保证全局最优,非凸问题可能陷入局部最优