详解支持向量机-约束优化问题-弱对偶性证明【白板推导系列笔记】

175 阅读1分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第13天,点击查看活动详情

简单来说,引入拉格朗日乘子是为了强制要求所有的约束条件必须被满足,xx违反约束条件时,L(x,α,β) +L(x,\alpha,\beta) \rightarrow  +\inftyxx满足约束条件时,L(x,α,β)=f(x)L(x,\alpha,\beta) = f(x)

 

假设f(x)ci(x)hj(x)f(x),c_i(x),h_j(x)是定义在RnR^n上的连续可微函数。考虑约束最优化问题(极大化问题可以简单地转换为极小化问题,这里仅讨论极小化问题):

minxRnf(x)s.t.mi(x)0,i=1,2,,knj(x)=0,j=1,2,,l\begin{aligned} \min_{x \in R^n} \hspace{1em} & f(x)\\ s.t. \hspace{1em} & m_i(x) \le 0, \hspace{1em} i=1,2,\cdots,k\\ & n_j(x) = 0, \hspace{1em} j=1,2,\cdots,l \end{aligned}

引入拉格朗日乘子后,得到拉格朗日函数

L(x,α,β)=f(x)+i=1kαici(x)+j=1lβjhj(x)L(x,\alpha,\beta) = f(x) + \sum_{i=1}^k \alpha_i c_i (x) + \sum_{j=1}^l \beta_j h_j (x)

如果xx违反mi(x)m_{i}(x)约束,即mi(x)>0m_{i}(x)>0,那么max λL +\mathop{\text{max }}\limits_{\lambda}L \to  +\infty

如果xx符合mi(x)m_{i}(x)约束,即mi(x)0m_{i}(x)\leq 0,那么max λL+\mathop{\text{max }}\limits_{\lambda}L \ne +\infty

因此有

min xmax λL=min x{maxL符合约束,+违反约束}=min xmax λL \mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L=\mathop{\text{min }}\limits_{x}\left\{\underbrace{\max L}_{符合约束},\underbrace{+\infty}_{违反约束}\right\}=\mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L

如果xx违反nj(x)n_{j}(x)约束,即nj(x)0n_{j}(x)\ne 0,那么max βL+\mathop{\text{max }}\limits_{\beta}L \to +\infty

如果xx符合nj(x)n_{j}(x)约束,即nj(x)=0n_{j}(x)=0,那么max βL+\mathop{\text{max }}\limits_{\beta}L \ne +\infty

因此有

min xmax λL=min x{maxL,+}=min xmax λL \mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L=\mathop{\text{min }}\limits_{x}\left\{\max L,+\infty\right\}=\mathop{\text{min }}\limits_{x}\mathop{\text{max }}\limits_{\lambda}L

 

所谓弱对偶性,指的是对偶问题\leq原问题,即:

minmaxfmaxminf\min \max f \geq \max \min f

对于L(x,λ,η)L(x,\lambda,\eta )这个函数,我们知道下面这个不等式一定成立

min xL(x,λ,η)L(x,λ,η)max λ,ηL(x,λ,η) \mathop{\text{min }}\limits_{x}L(x,\lambda,\eta )\leq L(x,\lambda,\eta )\leq \mathop{\text{max }}\limits_{\lambda,\eta }L(x,\lambda,\eta )

中间L(x,λ,η)L(x,\lambda,\eta )我们可以理解为LL的值域,值域里面的任何一个数,必然是大于等于它对xx的最小值,小于等于它对λ,η\lambda,\eta的最大值。

A(λ,η)=min xL,B(x)=max λ,ηL A(\lambda,\eta )=\mathop{\text{min }}\limits_{x}L,B(x)=\mathop{\text{max }}\limits_{\lambda,\eta }L

因此有

A(λ,η)B(x)A(λ,η)minB(x)maxA(λ,η)minB(x) \begin{aligned} A(\lambda,\eta )&\leq B(x)\\ A(\lambda,\eta )&\leq \min B(x)\\ \max A(\lambda,\eta )&\leq \min B(x) \end{aligned}

 因此

maxminLminmaxL \max \min L \leq \min \max L

 

后面还有对偶关系之几何解释、对偶关系之slater condition、对偶关系之KKT条件,以后会补上的