向量范数

186 阅读3分钟

向量范数

《机器学习数学基础》第1章1.5.3节介绍了向量范数的基本定义。

本文在上述基础上,介绍向量范数的有关性质。

关于本书的更多内容,请访问:lqlab.readthedocs.io ,其中包括视频课程、拓展资料、勘误和修订等。

**注意:**以下均在欧几里得空间讨论,即欧氏范数。

1. 性质

  • 实(或复)向量 x\pmb{x} ,范数 x\begin{Vmatrix}\pmb{x}\end{Vmatrix} 满足:

    • x0\begin{Vmatrix}\pmb{x}\end{Vmatrix}\ge0
    • x=0x=0\begin{Vmatrix}\pmb{x}\end{Vmatrix}=0 \Leftrightarrow \pmb{x}=\pmb{0}
    • cx=cx\begin{Vmatrix}c\pmb{x}\end{Vmatrix}=|c|\begin{Vmatrix}\pmb{x}\end{Vmatrix}cc 是标量
  • x,yCn\pmb{x,y}\in\mathbb{C}^n ,根据施瓦茨不等式xyxy|\pmb{x}^*\pmb{y}|\le\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix}

    n=1n=1 ,则上式退化为 xyxy|\overline{x}y|\le|x||y| ,其中 x,yCx,y\in\mathbb{C} 。因为 x=x|\overline{x}|=|x| ,所以 xyxy|\overline{x}y|\le|\overline{x}||y|

  • 三角不等式:x+yx+y\pmb{x}+\pmb{y}\le \begin{Vmatrix}\pmb{x}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}

    证明

    x+y2=(x+y)(x+y)=xx+xy+yx+yy=x2+xy+yx+y2\begin{split}\begin{Vmatrix}\pmb{x}+\pmb{y}\end{Vmatrix}^2 &= (\pmb{x}+\pmb{y})^*(\pmb{x}+\pmb{y})\\ &= \pmb{x}^*\pmb{x}+\pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}+\pmb{y}^*\pmb{y}\\&=\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2+\pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2\end{split}

    根据复数的性质和施瓦茨不等式:

    xy+yx=xy+xy=2Re(xy)2xy2xy\pmb{x}^*\pmb{y}+\pmb{y}^*\pmb{x}=\pmb{x}^*\pmb{y}+\overline{\pmb{x}^*\pmb{y}}=2Re(\pmb{x}^*\pmb{y})\le 2|\pmb{x}^*\pmb{y}|\le2\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix}

    由上述结果,可得:

    x+y2x2+2xy+y2=(x+y)2\begin{Vmatrix}\pmb{x}+\pmb{y}\end{Vmatrix}^2 \le \begin{Vmatrix}\pmb{x}\end{Vmatrix}^2+2\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2=(\begin{Vmatrix}\pmb{x}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix})^2

    证毕。

2. 极小范数

m×nm\times n 的矩阵 A\pmb{A} ,列空间 C(A)={AxxRn}C(\pmb{A})=\{\pmb{Ax}|\pmb{x}\in\mathbb{R}^n\}C(A)C(\pmb{A})Rm\mathbb{R}^m 的一个子空间),对任一 bC(A)\pmb{b}\in C(\pmb{A}) ,线性方程组 Ax=b\pmb{Ax}=\pmb{b} 有解。在解集合中,有一个特解,在 A\pmb{A} 的行空间,即 AT\pmb{A}^T 的列空间 C(AT)C(\pmb{A}^T) ,并且具有最小的 l2l_2 范数,称为极小范数解(minimum norm solution)[1]^{[1]},记作 x+\pmb{x}^+ ,即:x+C(AT)\pmb{x}^+\in C(\pmb{A}^T) 使得 Ax+=b\pmb{Ax}^+=\pmb{b}

2.1 定理一

bC(A)\pmb{b}\in C(\pmb{A}) ,则存在唯一的 yC(AT)\pmb{y}\in C(\pmb{A}^T) 使得 Ay=b\pmb{Ay}=\pmb{b}

证明

设特解 xRn\pmb{x}\in \mathbb{R}^n 使得 Ax=b\pmb{Ax}=\pmb{b}

Rn\mathbb{R}^n 中,A\pmb{A} 的列空间 C(AT)C(\pmb{A}^T) 是零空间 N(A)N(\pmb{A}) 的正交补(参考:矩阵基本子空间[2]^{[2]})。则 x\pmb{x} 可以分解为 x=y+z\pmb{x}=\pmb{y}+\pmb{z} ,其中 yC(AT),zN(A)\pmb{y}\in C(\pmb{A}^T), \pmb{z}\in N(\pmb{A}) ,得:

Ax=A(y+z)=Ay+Az=b\pmb{Ax}=\pmb{A}(\pmb{y}+\pmb{z})=\pmb{Ay}+\pmb{Az}=\pmb{b}

这说明 y\pmb{y} 也是一个特解。

y,yC(AT)\pmb{y},\pmb{y}'\in C(\pmb{A}^T) 使得 Ay=b,Ay=b\pmb{Ay}=\pmb{b},\pmb{Ay}'=\pmb{b} 。两式子相减:A(yy)=0\pmb{A}(\pmb{y}-\pmb{y}')=\pmb{0}

所以 yyN(A)\pmb{y}-\pmb{y}'\in N(\pmb{A})

又因为 yyC(AT)\pmb{y}-\pmb{y}'\in C(\pmb{A}^T)

合并以上结果,得:

yyN(A)C(AT)={0}\pmb{y}-\pmb{y}'\in N(\pmb{A})\cap C(\pmb{A}^T)=\{\pmb{0}\}

y=y\pmb{y}=\pmb{y}'y\pmb{y} 唯一。

证毕。

2.2 定理二

bC(A)\pmb{b}\in C(\pmb{A})y{xAx=b}\pmb{y}\in \{\pmb{x}|\pmb{Ax}=\pmb{b}\} 具有最小 l2l_2 范数,则 yC(AT)\pmb{y}\in C(\pmb{A}^T)

证明

由定理一,任意特解可以表示为 x=y+z\pmb{x}=\pmb{y}+\pmb{z} ,且 y\pmb{y} 唯一存在。因为 yz\pmb{y}\bot\pmb{z} ,则:

x2=y2+z2y2\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2=\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2+\begin{Vmatrix}\pmb{z}\end{Vmatrix}^2\ge\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2

z=0\pmb{z}=\pmb{0} 时,上式等号成立。

证毕。

2.3 定理三

rankA=m\text{rank} \pmb{A}=m ,即 A\pmb{A} 的列向量线性无关,则 Ax=b\pmb{Ax}=\pmb{b} 必有解,且极小范数解为:

x+=AT(AAT)1b\pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b}

证明

因为 rankA=m\text{rank} \pmb{A}=m ,则 dimC(A)=m\dim C(\pmb{A})=m ,列空间 C(A)C(\pmb{A}) 充满 Rm\mathbb{R}^m ,所以任一 bRm\pmb{b}\in\mathbb{R}^m 使 Ax=b\pmb{Ax}=\pmb{b} 有解。

推导方法1

因为 A\pmb{A} 的列向量线性无关,所以 x+C(AT)\pmb{x}^+\in C(\pmb{A}^T) 可唯一表示为列向量的线性组合,即存在唯一的 c\pmb{c} 使得 x+=ATc\pmb{x}^+=\pmb{A}^T\pmb{c} 。代入 Ax+=b\pmb{Ax}^+=\pmb{b} ,得:

AATc=b\pmb{AA}^T\pmb{c}=\pmb{b}

因为 rank(AAT)=rank(A)=m\text{rank}(\pmb{AA}^T)=\text{rank}(\pmb{A})=m ,所以 AAT\pmb{AA}^T 可逆[5]^{[5]}

故:c=(AAT)1b\pmb{c}=(\pmb{AA}^T)^{-1}\pmb{b}

解得:x+=AT(AAT)1b\pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b}

推导方法2,使用拉格朗日乘数法[4]^{[4]}

minimizexsubjecttoAx=b\begin{split}minimize \quad &\begin{Vmatrix}\pmb{x}\end{Vmatrix}\\subject\quad to \quad& \pmb{Ax}=\pmb{b}\end{split}

最小化 x\begin{Vmatrix}\pmb{x}\end{Vmatrix} ,等价于最小化 x2=xTx\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2=\pmb{x}^T\pmb{x}

拉格朗日函数:L(x,λ)=xTx+λT(Axb)L(\pmb{x},\pmb{\lambda})=\pmb{x}^T\pmb{x}+\pmb{\lambda}^T(\pmb{Ax}-\pmb{b})

其中 λ\pmb{\lambda}mm 维拉格朗日乘数向量。计算:

Lx=2x+ATλLλ=Axb\begin{split}\frac{\partial L}{\partial\pmb{x}}&=2\pmb{x}+\pmb{A}^T\pmb{\lambda}\\\frac{\partial L}{\partial\pmb{\lambda}}&=\pmb{Ax}-\pmb{b}\end{split}

令上述两式等于零,得到最优化条件式。得:x+=12ATλ\pmb{x}^+=-\frac{1}{2}\pmb{A}^T\pmb{\lambda} ,代入 Ax+=b\pmb{Ax}^+=\pmb{b} ,得:

12AATλ=b-\frac{1}{2}\pmb{AA}^T\pmb{\lambda}=\pmb{b}

解得:λ=2(AAT)1b\pmb{\lambda}=-2(\pmb{AA}^T)^{-1}\pmb{b}

所以:x+=AT(AAT)1b\pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b}

2.4 计算方法

计算 x+\pmb{x}^+ ,可以使用QR分解[5]^{[5]}

AT=QR\pmb{A}^T=\pmb{QR} ,其中 Q\pmb{Q}n×mn\times m 矩阵,且 QTQ=Im\pmb{Q}^T\pmb{Q}=\pmb{I}_mR\pmb{R}mm 阶上三角矩阵。

x+=AT(AAT)1b=QR(RTQTQR)1b=QR(RTR)1b=QRR1(RT)1b=Q(RT)1b\begin{split}\pmb{x}^+ &= \pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b}\\ &= \pmb{QR}(\pmb{R}^T\pmb{Q}^T\pmb{QR})^{-1}\pmb{b}\\&=\pmb{QR}(\pmb{R}^T\pmb{R})^{-1}\pmb{b}\\&=\pmb{QRR}^{-1}(\pmb{R}^T)^{-1}\pmb{b}\\&=\pmb{Q}(\pmb{R}^T)^{-1}\pmb{b}\end{split}

最佳值:

x2=(AT(AAT)1b)T(AT(AAT)1b)=bT(AAT)1b=bT(RTR)1b\begin{split}\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2 &= (\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b})^T(\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b})\\&=\pmb{b}^T(\pmb{AA}^T)^{-1}\pmb{b}\\&=\pmb{b}^T(\pmb{R}^T\pmb{R})^{-1}\pmb{b}\end{split}

注意:

  • 在上述计算中,使用了矩阵求导等相关计算,请参阅《机器学习数学基础》第4章“向量分析”有关内容,书中的附录中也附有各种计算公式。
  • 定理三,仅限于 A\pmb{A} 的列向量线性无关。若列向量线性相关,即 rankAmrank\pmb{A}\le m ,则 AAT\pmb{AA}^T 不可逆。此时仍有极小范数解,表示为 x+=A+b\pmb{x}^+=\pmb{A}^+\pmb{b} ,其中 A+\pmb{A}^+ 称为 A\pmb{A} 的伪逆矩阵(或广义逆矩阵)[6]^{[6]}

参考文献

[1]. 极小范数解[DB/OL]. ccjou.wordpress.com/2014/05/21/…

[2]. 矩阵基本子空间[DB/OL]. lqlab.readthedocs.io/en/latest/m…

[4]. Lagrange multiplier[DB/OL]. en.wikipedia.org/wiki/Lagran…

[5]. 齐伟. 机器学习数学基础[M]. 北京:电子工业出版社, 2023年1月第3次印刷

[6]. 广义逆矩阵[DB/OL]. zh.wikipedia.org/wiki/广义逆矩阵

本文由mdnice多平台发布