拉格朗日对偶法(Lagrange Dual Method)
示例问题:二维线性可分 SVM
假设我们只有两个样本点,特征空间为 R2:
- 正例 (y1=+1):x1=(3,3)T 1
- 负例 (y2=−1):x2=(1,1)T 2
我们的目标是找到一个硬间隔最大化分离超平面 w⋅x+b=0
第一步:构造原始问题 (Primal Problem)
根据课件,原始目标是最小化 21∣∣w∣∣2 4:
minw,b21(w12+w22)
约束条件 (yi(w⋅xi+b)≥1)
- 对于 x1:1(3w1+3w2+b)≥1⇒3w1+3w2+b−1≥0
- 对于 x2:−1(1w1+1w2+b)≥1⇒−w1−w2−b−1≥0
第二步:构造拉格朗日函数
引入拉格朗日乘子 α1,α2≥0 6666:
L(w,b,α)=21(w12+w22)−α1(3w1+3w2+b−1)−α2(−w1−w2−b−1)
第三步:求解对偶问题 (Dual Problem)
为了得到对偶问题的表达形式,我们先对 w 和 b 求偏导并令其为 0 8:
- ∂w∂L=0⇒w=α1x1y1+α2x2y2 9999
- w1=3α1−α2
- w2=3α1−α2
- ∂b∂L=0⇒α1y1+α2y2=0⇒α1−α2=0⇒α1=α2
将上述关系代入 L,得到只包含 α 的对偶目标函数 W(α)
maxαα1+α2−21∑i=12∑j=12αiαjyiyj(xi⋅xj)
计算内积:x1⋅x1=18,x2⋅x2=2,x1⋅x2=6。
代入 α1=α2=α:
W(α)=2α−21[α2(18)+α2(2)−2α2(6)]=2α−4α2
对 α 求极值:dαdW=2−8α=0⇒α=0.25。
所以:α1∗=0.25,α2∗=0.25 13。
第四步:解出最优参数 w∗ 和 b∗
- 求解 w∗ w∗=α1y1x1+α2y2x2=0.25(1)(33)+0.25(−1)(11)=(0.50.5)
- 求解 b∗(使用支持向量 x1,y1(w⋅x1+b)=1)15151515:
1(0.5×3+0.5×3+b)=1⇒3+b=1⇒b∗=−2
总结结论
- 分离超平面:0.5x1+0.5x2−2=0 16
- 决策函数:f(x)=sign(0.5x1+0.5x2−2) 17
- 物理意义:这两个点都是支持向量(因为 α∗>0)18181818。超平面正好位于 (3,3) 和 (1,1) 连线的中垂线上。
通过这个例子你可以看到: 我们根本没有直接去解复杂的 w 方程组,而是通过解简单的 α 得到了最终结果。这就是对偶法的魅力。