向量范数
《机器学习数学基础》第1章1.5.3节介绍了向量范数的基本定义。
本文在上述基础上,介绍向量范数的有关性质。
关于本书的更多内容,请访问:lqlab.readthedocs.io ,其中包括视频课程、拓展资料、勘误和修订等。
**注意:**以下均在欧几里得空间讨论,即欧氏范数。
1. 性质
-
实(或复)向量 xx ,范数 ∥∥xx∥∥ 满足:
- ∥∥xx∥∥≥0
- ∥∥xx∥∥=0⇔xx=00
- ∥∥cxx∥∥=∣c∣∥∥xx∥∥ ,c 是标量
-
设 x,yx,y∈Cn ,根据施瓦茨不等式:∣xx∗yy∣≤∥∥xx∥∥∥∥yy∥∥ 。
若 n=1 ,则上式退化为 ∣xy∣≤∣x∣∣y∣ ,其中 x,y∈C 。因为 ∣x∣=∣x∣ ,所以 ∣xy∣≤∣x∣∣y∣
-
三角不等式:xx+yy≤∥∥xx∥∥+∥∥yy∥∥
证明
∥∥xx+yy∥∥2=(xx+yy)∗(xx+yy)=xx∗xx+xx∗yy+yy∗xx+yy∗yy=∥∥xx∥∥2+xx∗yy+yy∗xx+∥∥yy∥∥2
根据复数的性质和施瓦茨不等式:
xx∗yy+yy∗xx=xx∗yy+xx∗yy=2Re(xx∗yy)≤2∣xx∗yy∣≤2∥∥xx∥∥∥∥yy∥∥
由上述结果,可得:
∥∥xx+yy∥∥2≤∥∥xx∥∥2+2∥∥xx∥∥∥∥yy∥∥+∥∥yy∥∥2=(∥∥xx∥∥+∥∥yy∥∥)2
证毕。
2. 极小范数
m×n 的矩阵 AA ,列空间 C(AA)={AxAx∣xx∈Rn} ( C(AA) 是 Rm 的一个子空间),对任一 bb∈C(AA) ,线性方程组 AxAx=bb 有解。在解集合中,有一个特解,在 AA 的行空间,即 AAT 的列空间 C(AAT) ,并且具有最小的 l2 范数,称为极小范数解(minimum norm solution)[1],记作 xx+ ,即:xx+∈C(AAT) 使得 AxAx+=bb
2.1 定理一
若 bb∈C(AA) ,则存在唯一的 yy∈C(AAT) 使得 AyAy=bb 。
证明
设特解 xx∈Rn 使得 AxAx=bb 。
在 Rn 中,AA 的列空间 C(AAT) 是零空间 N(AA) 的正交补(参考:矩阵基本子空间[2])。则 xx 可以分解为 xx=yy+zz ,其中 yy∈C(AAT),zz∈N(AA) ,得:
AxAx=AA(yy+zz)=AyAy+AzAz=bb
这说明 yy 也是一个特解。
设 yy,yy′∈C(AAT) 使得 AyAy=bb,AyAy′=bb 。两式子相减:AA(yy−yy′)=00
所以 yy−yy′∈N(AA) 。
又因为 yy−yy′∈C(AAT) ,
合并以上结果,得:
yy−yy′∈N(AA)∩C(AAT)={00}
即 yy=yy′ 。yy 唯一。
证毕。
2.2 定理二
若 bb∈C(AA) 且 yy∈{xx∣AxAx=bb} 具有最小 l2 范数,则 yy∈C(AAT) 。
证明
由定理一,任意特解可以表示为 xx=yy+zz ,且 yy 唯一存在。因为 yy⊥zz ,则:
∥∥xx∥∥2=∥∥yy∥∥2+∥∥zz∥∥2≥∥∥yy∥∥2
当 zz=00 时,上式等号成立。
证毕。
2.3 定理三
若 rankAA=m ,即 AA 的列向量线性无关,则 AxAx=bb 必有解,且极小范数解为:
xx+=AAT(AAAAT)−1bb
证明
因为 rankAA=m ,则 dimC(AA)=m ,列空间 C(AA) 充满 Rm ,所以任一 bb∈Rm 使 AxAx=bb 有解。
推导方法1
因为 AA 的列向量线性无关,所以 xx+∈C(AAT) 可唯一表示为列向量的线性组合,即存在唯一的 cc 使得 xx+=AATcc 。代入 AxAx+=bb ,得:
AAAATcc=bb
因为 rank(AAAAT)=rank(AA)=m ,所以 AAAAT 可逆[5]。
故:cc=(AAAAT)−1bb
解得:xx+=AAT(AAAAT)−1bb
推导方法2,使用拉格朗日乘数法[4]
minimizesubjectto∥∥xx∥∥AxAx=bb
最小化 ∥∥xx∥∥ ,等价于最小化 ∥∥xx∥∥2=xxTxx
拉格朗日函数:L(xx,λλ)=xxTxx+λλT(AxAx−bb)
其中 λλ 是 m 维拉格朗日乘数向量。计算:
∂xx∂L∂λλ∂L=2xx+AATλλ=AxAx−bb
令上述两式等于零,得到最优化条件式。得:xx+=−21AATλλ ,代入 AxAx+=bb ,得:
−21AAAATλλ=bb
解得:λλ=−2(AAAAT)−1bb
所以:xx+=AAT(AAAAT)−1bb
2.4 计算方法
计算 xx+ ,可以使用QR分解[5] 。
设 AAT=QRQR ,其中 QQ 是 n×m 矩阵,且 QQTQQ=IIm ,RR 是 m 阶上三角矩阵。
xx+=AAT(AAAAT)−1bb=QRQR(RRTQQTQRQR)−1bb=QRQR(RRTRR)−1bb=QRRQRR−1(RRT)−1bb=QQ(RRT)−1bb
最佳值:
∥∥xx∥∥2=(AAT(AAAAT)−1bb)T(AAT(AAAAT)−1bb)=bbT(AAAAT)−1bb=bbT(RRTRR)−1bb
注意:
- 在上述计算中,使用了矩阵求导等相关计算,请参阅《机器学习数学基础》第4章“向量分析”有关内容,书中的附录中也附有各种计算公式。
- 定理三,仅限于 AA 的列向量线性无关。若列向量线性相关,即 rankAA≤m ,则 AAAAT 不可逆。此时仍有极小范数解,表示为 xx+=AA+bb ,其中 AA+ 称为 AA 的伪逆矩阵(或广义逆矩阵)[6]。
参考文献
[1]. 极小范数解[DB/OL]. ccjou.wordpress.com/2014/05/21/…
[2]. 矩阵基本子空间[DB/OL]. lqlab.readthedocs.io/en/latest/m…
[4]. Lagrange multiplier[DB/OL]. en.wikipedia.org/wiki/Lagran…
[5]. 齐伟. 机器学习数学基础[M]. 北京:电子工业出版社, 2023年1月第3次印刷
[6]. 广义逆矩阵[DB/OL]. zh.wikipedia.org/wiki/广义逆矩阵
本文由mdnice多平台发布