Wolfe准则(数学原理及MATLAB实现)——最优化建模、算法与理论

396 阅读1分钟

文章目录


一、前言

Goldstein 准则能够使得函数值充分下降,但是它可能避开了最优的函数值,如下图所示:

在这里插入图片描述

一维函数 ϕ ( α ) \phi(\alpha) ϕ(α) 的最小值点并不在满足 Goldstein 准则的区间 [ α 1 , α 2 ] [\alpha_1, \alpha_2] [α1​,α2​] 中.为此我们引入 Armijo-Wolfe 准则,简称 Wolfe 准则。


二、Wolfe准则

1. 定义

设 d k d^k dk 是点 x k x^k xk 处的下降方向,若

f ( x k + α d k ) ≤ f ( x k ) + c 1 α ∇ f ( x k ) T d k , ∇ f ( x k + α d k ) T d k ≥ c 2 ∇ f ( x k ) T d k \begin{aligned} &f(x^k + \alpha d^k) \le f(x^k) + c_1 \alpha \nabla f(x^k)^Td^k,\\ &\nabla f(x^k + \alpha d^k)^Td^k \ge c_2 \nabla f(x^k)^Td^k \end{aligned} ​f(xk+αdk)≤f(xk)+c1​α∇f(xk)Tdk,∇f(xk+αdk)Tdk≥c2​∇f(xk)Tdk​

则称步长 α \alpha α 满足 Wolfe 准则,其中 c 1 , c 2 ∈ ( 0 , 1 ) c_1, c_2 \in (0, 1) c1​,c2​∈(0,1) 且 c 1 < c 2 c_1 \lt c_2 c1​<c2​。

2. 几何含义

在准则中,第一个不等式即是 Armijo 准则,而第二个不等式则是 Wolfe 准则的本质要求。注意到 ∇ f ( x k + α d k ) T d k \nabla f(x^k + \alpha d^k)^Td^k ∇f(xk+αdk)Tdk 恰好就是 ϕ ( α ) \phi(\alpha) ϕ(α) 的导数,Wolfe 准则实际要求 ϕ ( α ) \phi(\alpha) ϕ(α) 在点 α \alpha α 处切线的斜率不能小于 ϕ ′ ( 0 ) \phi^{'}(0) ϕ′(0)的 c 2 c_2 c2​ 倍。如下图所示:

在这里插入图片描述

区间 [ α 1 , α 2 ] [\alpha_1, \alpha_2] [α1​,α2​] 中的点均满足 Wolfe 准则


三、代码实现

MATLAB 代码如下:

function [alpha, xk, f, k] = Wolfe(fun, grid, x0, dk)
	%
	% Function [alpha, xk, fx, k] = Wolfe(fun, grid, x0, dk)
	% 求出函数fun在x0处以dk为下降方向时的步长alpha,同时返回相对应的下
	% 一个下降点xk以及xk处的函数值fx,k为迭代次数
	% -----------------------------------------------------------
	% 输入: 
	% 	fun 	函数名称(字符变量)
	%	grid 	梯度函数名称(字符变量)
	%	x0		迭代点(列向量)
	%	dk		函数在迭代点处的下降方向(列向量)
	%
	% 输出:
	%	alpha	函数在x0处以dk为下降方向时的下降步长
	%	xk		函数在x0处以dk为下降方向,以alpha为步长
	%			求得的下降点
	%	f	    函数在下降点xk处的函数值
	%	k		求步长算法迭代次数
	% -----------------------------------------------------------
	% by Zhi Qiangfeng 
	%
	c1 = 1e-3; c2 = 0.9; % 0 < c1 < c2 < 1
	alpha = 1; 	% 初始步长为 1
	k = 0; 		% 统计迭代次数
    a = 0; b = inf; % 自定义一个二次插值函数
	g0 = feval(grid, x0);	% x0处的梯度值
	fk = feval(fun, x0 + alpha * dk); 	% 函数在下一个迭代点处的目标函数值
    gk = feval(grid, x0 + alpha * dk);  % 函数在下一个迭代点处的梯度值
	l = feval(fun, x0) + c1 * alpha * g0' * dk; 	% Armjio准则
	while true
	    if fk > l
            k = k + 1;
            b = alpha;
            alpha = (a + b) / 2;
            fk = feval(fun, x0 + alpha * dk);
            l = feval(fun, x0) + c1 * alpha * g0' * dk;
            gk = feval(grid, x0 + alpha * dk);
            continue;
        end
        if gk' * dk < c2 * g0' * dk % Wolfe准则
            k = k + 1;
            a = alpha;
            alpha = min([2 * alpha, (a + b) / 2]);
            fk = feval(fun, x0 + alpha * dk);
            l = feval(fun, x0) + c1 * alpha * g0' * dk;
            gk = feval(grid, x0 + alpha * dk);
            continue;
        end
        break;
	end
	xk = x0 + alpha * dk;	% 下降点
	f = feval(fun, xk);	    % 下降点处函数值
end

四、与Armjio准则的对比

以求解 Rosenbrock 函数为例,这是优化领域中一个著名的检验函数,函数表达式如下:

f ( x ) = 100 ( x 2 − x 1 2 ) 2 + ( 1 − x 1 ) 2 , g ( x ) = [ − 400 x 1 x 2 + 400 x 1 3 + 2 x 1 − 2 ; 200 x 2 − 200 x 1 2 ] \begin{aligned} &f(x) = 100(x_2 - x_1^2)^2 + (1 - x_1)^2,\\ &g(x) = \left[\begin{aligned}-400x_1x_2 + 400x_1^3 + 2x_1 - 2;\\200x_2 - 200x_1^2\end{aligned}\right] \end{aligned} ​f(x)=100(x2​−x12​)2+(1−x1​)2,g(x)=[−400x1​x2​+400x13​+2x1​−2;200x2​−200x12​​]​

编写函数文件 fun.m 如下:

function f = fun(x)
f = 100 * (x(2) - x(1)^2)^2 + (1 - x(1))^2;
end

随后是梯度函数文件 grid.m 如下:

function g = grid(x)
g = [-400 * x(1) * x(2) + 400 * x(1)^3 + 2 * x(1) - 2;
    200 * x(2) - 200 * x(1)^2];
end

Armjio 准则代码参考此篇博客:最优化建模算法理论之Armjio准则(数学原理及MATLAB实现)

求解方法采用 BFGS 拟牛顿方法,代码参考此篇博客:最优化建模算法理论之BFGS/DFP拟牛顿方法(数学原理及MATLAB实现)

编写求解代码如下:

x0 = [-10; 10];
[f, xk, k] = BFGS(x0, 'fun', 'grid', 1e-5, 1000)

初始点选为 [-10, 10],若采用 Armjio 准则求步长,输出如下:

>> resolve
f =
   8.7712e-17
xk =
    1.0000
    1.0000
k =
    70

迭代了 70 次,若采用 Wolfe 准则,输出如下:

>> resolve
f =
   1.5516e-18
xk =
    1.0000
    1.0000
k =
    21

迭代了 21 次即达到了精度要求,并且求解的函数值 f =1.5516e-18 还要优于 Armjio 准则。


五、总结

不喜欢写总结。