阅读 69

Conclusion A

A 线性代数回顾

在这个附录中,我们介绍一些线性代数的基本概念,这些概念与本书中所介绍的材料有关。本附录并不代表一个详尽的教程,它假设读者有一些关于这个主题的预先的知识。

A.1 向量和范数

我们用向量空间 H\mathbb H 表示,它的维数可以是无限大的。


A.1.1  范数

定义 A.1 一个映射 Φ:HR+\Phi:\mathbb H\to\mathbb R_{_+} ,如果它满足以下条件:

  • 确定性:xH\forall\textbf x\in\mathbb HΦ(x)=0x=0\Phi(\textbf x)=0\Leftrightarrow\textbf x=\textbf0 ;
  • 同次性:xH\forall\textbf x\in\mathbb HαH\forall\alpha\in\mathbb HΦ(αx)=αΦ(x)\Phi(\alpha\textbf x)=|\alpha|\Phi(\textbf x) ;
  • 三角不等式:x,yH\forall\textbf x,\textbf y\in\mathbb HΦ(x+y)Φ(x)+Φ(y)\Phi(\mathcal x+\mathcal y)\le\Phi(\mathcal x)+\Phi(\mathcal y) .

被称为定义为在 H\mathbb H 上的范数。
  范数通常用 \|\cdot\| 表示。向量范数的例子是 R\mathbb RRN\mathbb R^{N} 上的欧几里得(或 L2L_{_2} )范数。更一般地,对于在 RN\mathbb R^{N} 上的任何 p1\mathcal p\ge1LpL_{_\mathcal p} 范数定义为

xRN,xp=(j=1Nxjp)1/p  .(A.1)\forall\textbf x\in\mathbb R^{N},\|\mathcal x\|_{_p}=\big(\sum^{N}_{j=1}\vert\mathcal x_{_j}\vert^{\mathcal p}\big)^{1/\mathcal p}\ \ .\qquad\qquad\qquad(A.1)

  L1L_{1}L2L_{_2}LL_{\infty} 范数是一些最常用的范数,x=maxj[N]x\|\mathcal x\|_{\infty}=\max_{_{j\in[N]}}\vert\mathcal x\vert。两个 \|\cdot\|\|\cdot\|^\prime 被认为是等价的,存在α,β>0\alpha,\beta>0 这样对于所有 xH\mathcal x\in\mathbb H,

αxxβx  .(A.2)\alpha\|\textbf x\|\le\|\textbf x\|^\prime\le\beta\|\textbf x\|\ \ .\qquad\qquad\qquad\qquad(A.2)

  下列与这些规范相关的一般不等式可以直接被证明的:

x2x1Nx2A.3)\|\textbf x\|_{_2}\le\|\textbf x\|_{_1}\le\sqrt N\|\textbf x\|_{_2}\qquad\qquad\qquad\qquad(A.3)
xx2Nx(A.4)\|\textbf x\|_{_\infty}\le\|\textbf x\|_{2}\le\sqrt N\|\textbf x\|_{_\infty}\qquad\qquad\qquad\qquad(A.4)
xx1Nx  .(A.5)\|\textbf x\|_{_\infty}\le\|\textbf x\|_{_1}\le N\|\textbf x\|_{_\infty}\ \ .\qquad\qquad\qquad\qquad(A.5)

  第一行的第二个不等式可以用稍后给出的Cauchy-Schwarz不等式 来表示,而其他不等式是清楚的。这些不平等表明了这三个标准的等价性。更一般地说,有限维空间上的所有规范都是等价的。对于 LL_{_\infty} 范数,下列附加性质成立:对于所有 xH\textbf x\in\mathbb H ,

p1,xxpN1/px(A.6)\forall\mathcal p\geqslant1,\|\textbf x\|_{_\infty}\le\|\textbf x\|_{_\mathcal p}\le N^{1/\mathcal p}\|\textbf x\|_{_\infty}\qquad\qquad\qquad\qquad(A.6)
limp+ xp=x  .(A.7)\underset{p\to+\infty}{\lim}\ \|\textbf x\|_{_p}=\|\textbf x\|_{_{\infty}}\ \ .\qquad\qquad\qquad\qquad(A.7)

第一行的不等式很简单,暗示了第二行的极限性质。

定义 A.2(Hilbert空间) Hilbert空间是配有内积 ,\langle\cdot,\cdot\rangle 的向量空间,并且是完备的(所有Cauchy序列都是收敛的)。内积归纳出一个规范,定义如下:

xH , xH=x,x  .(A.8)\forall\textbf x\in\mathbb H\ ,\ \|\textbf x\|_{_{\mathbb H}}=\sqrt{\langle\textbf x,\textbf x\rangle}\ \ .\qquad\qquad\qquad\quad(A.8)

A.1.2  对偶范数

定义 A.3 设 \|\cdot\|RN\mathbb R^N 上的一个范数。然后,与 \|\cdot\| 相关联的对偶范数 \|\cdot\|_{_*} 是由下式定义的范数:

yRN , y=supx=1y,x  .(A.9)\forall\textbf y\in\mathbb R^N\ ,\ \|\textbf y\|_{_*}=\underset{\|\textbf x\|=1}{\sup}\vert\langle\textbf y,\textbf x\rangle\vert\ \ .\qquad\qquad\qquad(A.9)

对于任何共轭的 p,q1p,q\ge11p+1q=1\frac{1}p+\frac{1}q=1LpL_pLqL_q 范数是彼此的对偶范数。特别地,L2L_{_2} 的对偶范数是 L2L_{_2} 范数,L1L_{_1} 范数的对偶范数是 LL_{_\infty} 范数。
命题 A.4(Hölder不等式)p,q1p,q\ge1 是共轭的:1p+1q=1\frac1p+\frac1q=1 。则对于所有的 x,yRNx,y\in\mathbb R^N ,有

x,yxpyq  ,(A.10)\vert\langle\textbf x,\textbf y\rangle\vert\le\|\textbf x\|_{_p}\|\textbf y\|_{_q}\ \ ,\qquad\qquad\qquad(A.10)

当对于所有的 i[N]i\in[N] 都有 yi=xip1\vert y_{_i}\vert=\vert x_{_i}\vert^{p-1} 时取等。
证明: 上面的陈述对于 x=0\textbf x=\pmb 0y=0\textbf y=\pmb 0 毫无意义;因此,我们可以假设 x0\textbf x\neq\pmb 0y0\textbf y\neq\pmb 0 。令 a,b>0a,b>0 。根据对数函数的凹函数性质(见定义B.7),我们可以有

log(1pap+1qbq)1plog(ap)+1qlog(bq)=log(a)+log(b)=log(ab)  .\log\left(\frac1pa^{^p}+\frac1qb^{^q}\right)\ge\frac1p\log(a^{^p})+\frac1q\log(b^{^q})=\log(a)+\log(b)=\log(ab)\ \ .

对不等式的最左边和最右边同时取对数有

1pap+1qbqab  ,\frac1pa^{^p}+\frac1qb^{^q}\ge ab\ \ ,

这就是所谓的杨氏(Young)不等式。对于所有 j[N]j\in[N] ,将 a=xjxpa=\frac{\vert x_{_j}\vert}{\|\textbf x\|_{_p}}b=yjyqb=\frac{\vert y_{_j}\vert}{\|\textbf y\|_{_q}} 带入不等式,并求和有

j=1Nxjyjxpyq1pxpxp+1qyqyq=1p+1q=1  .\frac{\sum^{N}_{j=1}\vert x_{_j}y_{_j}\vert}{\|\textbf x\|_{_p}\|\textbf y\|_{_q}}\le\frac1p\frac{\|\textbf x\|^p}{\|\textbf x\|^p}+\frac1q\frac{\|\textbf y\|^q}{\|\textbf y\|^q}=\frac1p+\frac1q=1\ \ .

因为 x,yj=1Nxjyj\vert\langle\textbf x,\textbf y\rangle\vert\le\sum^{N}_{j=1}\vert x_{_j}y_{_j}\vert ,不等式声明如下。取等的情况可以直接验证。
p=q=2p=q=2 立马得到以下结果,称为Cauchy-Schwarz不等式。
推论 A.5(Cauchy-Schwarz不等式) 对于所有的 x,yRN\textbf x,\textbf y\in\mathbb R^N ,有

x,yx2y2  ,(A.11)\vert\langle\textbf x,\textbf y\rangle\vert\le\|\textbf x\|_{_2}\|\textbf y\|_{_2}\ \ ,\qquad\qquad\qquad(A.11)

当且仅当 x\textbf xy\textbf y 共线时取等。
  设 H\mathcal HRN\mathbb R^N 中的超平面,其表达式如下

wx+b=0  ,\textbf w\cdot\textbf x+b=0\ \ ,

其中法向量 wRN\textbf w\in\mathbb R^N 和偏置项 bRb\in\mathbb R 。令 dp(x,H)d_p(\textbf x,\mathcal H) 表示点 x\textbf x 到超平面 H\mathcal H 的距离,有

dp(x,H)=infxHxxp  .(A.12)d_p(\textbf x,\mathcal H)=\underset{\textbf x^\prime\in\mathcal H}{\inf}\|\textbf x^\prime-\textbf x\|_{_p}\ \ .\qquad\qquad\qquad(A.12)

然后,对于 p1p\ge 1 下面的等式成立:

dp(x,H)=wx+bwq  ,(A.13)d_p(\textbf x,\mathcal H)=\frac{\vert\textbf w\cdot\textbf x+b\vert}{\|\textbf w\|_{_q}}\ \ ,\qquad\qquad\qquad(A.13)

其中 qqpp 的共轭:1p+1q=1\frac1p+\frac1q=1 。(A.13)可以通过将附录B的结果直接应用于约束优化问题(A.12)来显示。

A.1.3  范数之间的关系

在等式(A.3)、(A.4)和(A.5)中看到的不等式的一般形式适用于所有 LpL_p 范数,如下面的命题所示。
命题 A.6 令 1pq1\le p\le q 。然后下面的不等式对于所有的 xRN\textbf x\in\mathbb R^N 成立:

xqxpN1p1qxq  .(A.14)\|x\|_{_q}\le\|x\|_{_p}\le N^{^{\frac1p-\frac1q}}\|x\|_{_q}\ \ .\qquad\qquad\qquad(A.14)

证明: 首先,假设 x0\textbf x\neq\pmb 0 ,否则不等式就不成立了。然后第一个不等式在 1pq1\le p\le q 下成立:

[xpxq]p=i=1N[xixq1]pi=1N[xixq]q=1  .\left[\frac{\|\textbf x\|_{_p}}{\|\textbf x\|_{_q}}\right]^p=\sum^N_{i=1}\bigg[\underbrace{\frac{x_{_i}}{\|\textbf x\|}_q}_{\le1}\bigg]^p\ge\sum^N_{i=1}\bigg[{\frac{x_{_i}}{\|\textbf x\|}_q}\bigg]^q=1\ \ .

最后,第二个不等式通过使用Hölder不等式(命题 A.4)证明如下

xp=[i=1Nxip]1p[(i=1N(xip)pq)pq(i=1N(1)qqp)(1pq)]1p=xqN1p1q  ,\|\textbf x\|_{_p}=\left[\sum^N_{i=1}\vert x_{_i}\vert^p\right]^\frac{1}{p}\le\left[\left(\sum^N_{i=1}(\vert x_{_i}\vert^p)^{\frac{p}{q}}\right)^{\frac pq}\left(\sum^N_{i=1}(1)^{^{\frac{q}{q-p}}}\right)^{(1-\frac pq)}\right]^{\frac1p}=\|\textbf x\|_{_q}N^{^{\frac1p-\frac1q}}\ \ ,

得证。

A.2 矩阵

对于一个具有 mmnn 列的矩阵 MRm×n\mathbf M\in\mathbb R^{m×n},我们用 Mij\textbf M_{ij} 表示它的第 ijij 项,对于所有 i[m]i\in[m]j[n]j\in[n] 。 对于任何 m1m\ge 1 ,我们用 Im\textbf I_{_m} 表示 mm 维单位矩阵,当维度在上下文中明确时,将其称为 I\textbf I
  用 M\textbf M^\top 表示 M\textbf M转置 ,对于所有的 (i,j)(i,j)(M)ij=Mji(\textbf M^\top)_{ij}=\textbf M_{ji} 。对于任意两个矩阵 MRm×n\textbf M\in\mathbb R^{m\times n}NRn×p\textbf N\in\mathbb R^{n\times p} ,有 (MN)=NM(\textbf M\textbf N)^\top=\textbf N^\top\textbf M^\top 。当且仅当对于所有的 (i,j)(i,j)Mij=Mji\textbf M_{ij}=\textbf M_{ji}M\textbf M 被称为对称的(矩阵),即 M=M\textbf M=\textbf M^\top
  方阵 M\textbf M 的迹由 Tr[M]\text{Tr}[\textbf M] 表示,定义为 Tr[M]=i=1NMii\text{Tr}[\textbf M]=\sum^{N}_{i=1}\textbf M_{ii} 。对于任意两个矩阵 MRm×n\textbf M\in\mathbb R^{m\times n}NRn×m\textbf N\in\mathbb R^{n\times m} ,以下恒等式成立:Tr[MN]=Tr[NM]\text{Tr}[\textbf {MN}]= Tr[\textbf {NM}] 。 更一般地,以下循环性质适用于适当维度矩阵 M\textbf MN\textbf NP\textbf P

Tr[MNP]=Tr[PMN]=Tr[NPM]  .(A.15)\text{Tr}[\textbf{MNP}]=\text{Tr}[\textbf{PMN}]=\text{Tr}[\textbf{NPM}]\ \ .\qquad\qquad\qquad(A.15)

  当 M\textbf M 满秩时存在有方阵 M\textbf M 的逆矩阵用 M1\textbf M^{−1} 表示,并且是满足 MM1=M1M=I\textbf{MM}^{−1}=\textbf M^{−1}\textbf M=\textbf I 的唯一的矩阵。   
  
  
矩阵范数是在 Rm×n\mathbb R^{m×n} 上定义的范数,其中 mmnn 是所考虑矩阵的维度。 许多矩阵范数,包括下面讨论的那些,满足以下乘法性质:

MNMN  .(A.16)\|\textbf M\textbf N\|\le\|\textbf M\|\|\textbf N\|\ \ .\qquad\qquad\qquad(A.16)

由向量范数 p\|\cdot\|_{_p} 导出的矩阵范数 或由该范数导出的算子范数(operator norm,即定义在算子上的范数)也表示为 p\|\cdot\|_{_p} ,定义为

Mp=supxp1Mxp  .(A.17)\|\textbf M\|_{_p}=\underset{\|\textbf x\|_{_p}\le1}{\sup}\|\textbf{Mx}\|_{_p}\ \ .\qquad\qquad\quad(A.17)

p=2p=2 的范数称为谱范数(spectral norm),它等于 M\textbf M 的最大奇异值(见A.2.2节),或 MM\textbf M^\top\textbf M 的最大特征值的平方根:

M2=σ1(M)=λmax(MM)  .(A.18)\|\textbf M\|_{_2}=\sigma_{_1}(\textbf M)=\sqrt{\lambda_{\max}(\textbf M^\top\textbf M)}\ \ .\qquad\quad(A.18)

并非所有矩阵范数都是由向量范数导出的。用 F\|\cdot\|_{_F} 表示的Frobenius范数是此类范数中最著名的,它的定义为:

MF=(i=1mj=1nMij2)12  .\|\textbf M\|_{_F}=\left(\sum^{m}_{i=1}\sum^{n}_{j=1}\textbf M^2_{_{ij}}\right)^{\frac1{_2}}\ \ .

当将 M\textbf M 视为大小为 mnmn 的向量时,Frobenius范数可以被当作向量的 L2L_{_2} 范数。它也与 Frobenius积 导出的范数一致,这是对于所有 M,NRm×n\textbf M,\textbf N\in\mathbb R^{m\times n} 定义的内积,如下

M,NF=Tr[MN]  .(A.19)\langle\textbf M,\textbf N\rangle_{_F}=\text{Tr}[\textbf M^\top\textbf N]\ \ .\qquad\qquad\qquad(A.19)

这将Frobenius范数与 M\textbf M 的奇异值联系起来:

MF2=Tr[MM]=i=1rσi(M)2  ,\|\textbf M\|^2_{_F}=\text{Tr}[\textbf M^\top\textbf M]=\sum^r_{i=1}\sigma_{_i}(\textbf M)^{^2}\ \ ,

其中 r=rank(M)r=\text{rank}(\textbf M) 。第二个等式来自 SPSD矩阵的性质(见A.2.3节)。
  对于任意的 j[n]j\in[n] ,令 Mj\textbf M_{_j} 表示 M\textbf M 的第 jj 列,其中 M=[M1Mn]\textbf M=[\textbf M_{_1}\cdots\textbf M_{_n}] 。然后,对于任意的 p,r1p,r\ge 1M\textbf MLp,rL_{_{p,r}} 群范数(group norm)定义为

Mp,r=(j=1nMjpr)1/r  .\|\textbf M\|_{_{p,r}}=\left(\sum^n_{j=1}\|\textbf M_j\|^r_{_p}\right)^{1/r}\ \ .

最常用的群范数之一是由下式定义的 L2,1L_{_{2,1}} 范数

M2,1=i=1nMi2  .\|\textbf M\|_{_{2,1}}=\sum^n_{i=1}\|\textbf M_{_i}\|_{_2}\ \ .

A.2.2  奇异值分解(Singular value decomposition)

M\textbf M 的紧凑的奇异值分解(SVD),其中 r=rank(M)min(m,n)r=\text{rank}(M)\le \min(m,n) ,可以写成如下:

M=UMΣMVM  .\textbf M=\textbf U_{_M}\pmb\Sigma_{_M}\textbf V^\top_M\ \ .

r×rr\times r 的矩阵 ΣM=diag(σ1,,σ2)\pmb\Sigma_{_M}=\text{diag}(\sigma_{_1},\dots,\sigma_{_2}) 是对角矩阵,包含按降序排列的 M\textbf M 的非零奇异值 ,即 σ1σr>0\sigma_{_1}\ge\dots\ge\sigma_{_r}>0 。矩阵 UMRm×r\textbf U_{_M}\in\mathbb R^{m\times r}VMRn×r\textbf V_{_M}\in\mathbb R^{n\times r} 具有正交列,其中包含与排序后的奇异值对应的 M\textbf M 的左奇异向量和右奇异向量。我们用 UkRm×k\textbf U_{_k}\in\mathbb R^{m\times k} 表示 M\textbf M 的顶部 krk\le r 个左奇异向量。
   Uk\textbf U_{_k} 的范围( span)上的正交投影 可以写成 PUk=UkUk\textbf P_{U_{_k}}=\textbf U_{_k}\textbf U^\top_k ,其中 PUk\textbf P_{U_{_k}} 是对称半正定的(SPSD)和幂等的,即 PUk2=PUk\textbf P^2_{U_{_k}}=\textbf P_{U_{_k}} 。此外,在正交于 Uk\textbf U_{_k} 的子空间上的正交投影定义为 PUk,\textbf P_{U_{_k},\perp} 。类似的定义,即 Vk,PVk,PVk,\textbf V_{_k},PVk,\textbf P_{V_{_k},\perp} ,适用于右奇异向量。
  矩阵 M\textbf M广义逆 矩阵或Moore-Penrose伪逆 矩阵由 M\textbf M^{\dagger} 表示,定义为

M=UMΣMVM  ,(A.20)\textbf M^{\dagger}=\textbf U_{_M}\pmb\Sigma^{\dagger}_M\textbf V^{\dagger}_M\ \ ,\qquad\qquad\qquad(A.20)

其中 ΣM=diag(σ11,,σr1)\pmb\Sigma^{\dagger}_{_M}=\text{diag}(\sigma^{−1}_{_1},\dots,\sigma^{−1}_{_r}) 。对于具有满秩的任何 m×mm\times m 方阵 M\textbf M ,即 r=mr=m ,伪逆与矩阵逆相同:M=M1\textbf M^{\dagger}=\textbf M^{−1}

A.2.3  对称半正定(SPSD, symmetric positive semidefinite)矩阵

定义 A.7 对于所有的 xRm\textbf x\in\mathbb R^m ,当且仅当

xMx0(A.21)\textbf x^\top\textbf M\textbf x\ge 0\qquad\qquad\qquad(A.21)

称对称矩阵(symmetric matrix) MRm×m\textbf M\in\mathbb R^{m\times m}半正定的(positive semidefinite) 。如果不等式是严格(即 xMx>0\textbf x^\top\textbf M\textbf x> 0 )的,则称 M\textbf M正定的(positive definite)

核矩阵(见第6章)和正交投影矩阵是SPSD矩阵的两个例子。如果矩阵 M\textbf M 的特征值都是非负的,则可以直接证明矩阵 M\textbf M 是SPSD矩阵。 此外,以下属性适用于任何SPSD矩阵 M\textbf M

  • M\textbf M 允许对某个矩阵 X\textbf X 进行分解 M=XX\textbf M=\textbf X^\top\textbf X ,而Cholesky分解 提供了这样一种分解,其中 X\textbf X 是上三角矩阵。
  • M\textbf M 的左右奇异向量相同,M\textbf M 的SVD也是其特征值分解。
  • 任意矩阵 X=UXΣXVX\textbf X=\textbf U_{_{X}}\Sigma_{_X}V^\top_X 的 SVD 定义了两个相关的SPSD矩阵的SVD:左奇异向量(UX\textbf U_{_X})是 XX\textbf{XX}^\top 的特征向量,右奇异向量(VX\textbf V_{_X})是 XX\textbf X^\top\textbf X 的特征向量以及 X\textbf X 的非零奇异值是 XX\textbf{XX}^\topXX\textbf X^\top\textbf X 的非零特征值的平方根。
  • M\textbf M 的迹是其奇异值的总和,即 Tr[M]=i=1rσi(M)\text{Tr}[\textbf M]=\sum^r_{i=1}\sigma_{_i}(\textbf M) ,其中 rank(M)=r\text{rank}(\textbf M)=r
  • M\textbf M 的顶部奇异向量 u1\textbf u_{_1} 使瑞利熵(Rayleigh quotient)最大化,其定义为
    r(x,M)=xMxxx  .r(\textbf x,\textbf M)=\frac{\textbf x^\top\textbf M\textbf x}{\textbf x^\top\textbf x}\ \ .
    换句话说,u1=arg maxxr(x,M)\textbf u_{_1}=\argmax_{_\textbf x}r(\textbf x,\textbf M)r(u,M)=σ1(M)r(\textbf u,\textbf M)=\sigma_{_1}(\textbf M) 。 同理,若 M=PUi,M\textbf M^\prime=\textbf P_{U_{_i},\perp}\textbf M (即 M\textbf M 在与 Ui\textbf U_{_i} 正交的子空间上的投影),则 ui+1=arg maxxr(x,M)\textbf u_{_{i+1}}=\argmax_{_{\textbf x}}r(\textbf x,\textbf M^\prime) ,其中 ui+1\textbf u_{_{i+1}}M\textbf M 的第 (i+1)(i+1) 个奇异向量。
文章分类
人工智能
文章标签