在《机器学习数学基础》第 1 章介绍了向量空间,并且说明了机器学习问题通常是在欧几里得空间。然而,随着机器学习技术的发展,特别是 AI 技术开始应用于科学研究中,必然会涉及到其他类型的空间。本文即在《机器学习数学基础》一书所讲解的内容基础之上,简要介绍希尔伯特空间、函数空间的有关概念。
希尔伯特空间
在数学裡,希尔伯特空间(英语:Hilbert space)即完备的内积空间,也就是一个带有内积完备向量空间。
例如 R∞ 中的向量 vv 含有无限多个分量,即:
vv=⎣⎡v1v2⋮⎦⎤
若要使得以下定义依然成立:
∥∥vv∥∥2=v12+v22+⋯
则上述无穷级数应该收敛至一个有限数值,例如:vv=⎣⎡11/21/3⋮⎦⎤。
这样,向量的长度是有限的,对于空间中有限长度的向量 xx 和 yy ,则还会有:∥∥xx+yy∥∥≤∥∥xx∥∥+∥∥yy∥∥
且 axx (其中 a 是一个有限的标量)仍然是一个有限量。
由此容易证明向量空间的 8 条法则依然成立(《机器学习数学基础》第15页)。
这样的空间,就是希尔伯特空间,是一个保持一般几何性质的无限维向量空间。
希尔伯特空间是有限维欧几里得空间的一个推广,使之不局限于实数的情形和有限的维数,但又不失完备性(不像一般的非欧几里得空间那样破坏了完备性)。与欧几里得空间相仿,希尔伯特空间也是一个内积空间,其上有距离和角的概念(及由此引申而来的正交性与垂直性的概念)。此外,希尔伯特空间还是一个完备的空间。
微积分中的大部分概念都可以无障碍地推广到希尔伯特空间中。
希尔伯特空间以大卫·希尔伯特的名字命名,他在对积分方程的研究中研究了希尔伯特空间。冯·诺伊曼在其 1929 年出版的关于无界自伴算子的著作中,最早使用了“希尔伯特空间”这个名词。
一个抽象的希尔伯特空间中的元素往往被称为向量。在实际应用中,它可能代表了一列复数或是一个函数。
例如在量子力学中,一个物理系统可以表示为一个复希尔伯特空间,其中的向量是描述系统可能状态的波函数。
函数空间
设正弦函数 f(x)=sin(x) ,定义域为 0≤x≤2π ,视此函数为无限维向量,向量的各个分量即为连续区间内的函数值 sin(x) 。当向量的分量是连续时,其平方和可写成积分形式(即 f 的长度平方):
∥∥f∥∥2=∫02π(f(x))2dx=∫02π(sinx)2dx=π
上式说明,我们可以测量函数的长度,即可以将此函数看做向量,从而形成了向量空间,此向量空间的维数无限,显然是希尔伯特空间,也就是一个函数空间。
如果 f(x)=sin(x),g(x)=cos(x) ,计算内积:
⟨f,g⟩=∫02πf(x)g(x)dx=∫02πsin(x)cos(x)dx=0
故正弦和余弦正交。
线性函数
设函数 f 是:f:V→W ,对于任意向量 xx 和 yy ,以及任意实数 c ,若满足:
f(xx+yy)f(cxx)=f(xx)+f(yy)=cf(xx)
则 f 是线性函数。
-
几何向量空间
设 AA 是 m×n 阶实矩阵,xx∈Rn ,f(xx)=AxAx 是一个由 Rn 映至 Rm 的线性函数,则:
f(xx+yy)f(cxx)=AA(xx+yy)=AxAx+AyAy=f(xx)+f(yy)=AA(cxx)=c(AxAx)=cf(xx)
-
多项式空间
令 P 为所有多項式形成的向量空间,微分算子 D=d/dx 可視為由 P 映至 P 的函数,例如,D(2−x+x3)=−1+3x2。微分算子 D 是一个线性函数,利用导数基本性质,可知:
D(p(x)+q(x))D(cp(x))=D(p(x))+D(q(x))=cD(p(x))
求二次导数,记作:DD=D2 ,易知 D2p=p′′ 是线性函数,推广至更高次冪,D,D2,…,Dk 全部都是线性函数。
-
连续函数空间
令 C(−∞,∞) 表示所有连续函数形成的空间,L:C(−∞,∞)→C(−∞,∞) ,函数 u(x),q(x)∈C(−∞,∞) ,考虑以下的例子:
L(u(x))=q(x)u(x) ,则 L 是线性函数。
证明:
L(u(x)+v(x))L(cu(x))=q(x)(u(x)+v(x))=L(u(x))+L(v(x))=q(x)(cu(x))=c(q(x)u(x))=cL(u(x))
將微分算子 D 线性函数 L 结合成一个方程式便得到微分方程 D(u(x))=L(u(x))=q(x)u(x) 。
例如,设 y=u(x) ,q(x)=x ,就有 Dy=xy 或写成:y′=xy 。求解微分方程等于找 y 使得 Dy=Ly,由此可以逐步建立微分方程与线性代数的关联。
零空间
设 f:V→W 是一个线性函数,所有满足 f(xx)=00 的 xx 所形成的集合构成 V 里的一个子空间,称为零空间或核[2],记作 N(f) 或 kerf 。
设 uu,vv∈N(f) ,根据线性函数的基本性质,有:
f(uu+vv)f(cuu)=f(uu)+f(vv)=00+00=00=cf(uu)=c00=00
这说明 N(f) 满足向量加法和数量乘法封闭原则,所以 N(f) 是 V 的子空间。
将 f(xx)=00 称为齐次方程(homogeneouos equation)。齐次现象方程至少有一个零解,f(00)=00 ,也就是说零空间 N(f) 必定包含零向量。
理由如下:
f(00)=f(xx−xx)=f(xx)−f(xx)=00 ,或者 f(00)=f(0xx)=0⋅f(xx)=00 。
x+y−zx−y+z=0=0
或改写为矩阵形式:
f(x)=Ax=[111−1−11]⎣⎡xyz⎦⎤=[00]
利用高斯消元法,得:(x,y,z)=t(0,1,1) ,t 为任意实数,所以,A 的零空間由向量 ⎣⎡011⎦⎤ 张成,零空間 N(f) 与其表示矩阵 A 的零空間 N(A) 指的是同一回事。
微分算子 D=d/dx 作用在 C(−∞,∞) ,D 的零空间包含所有一次导数为零的实函数,由导数性质可知 N(D) 是一个包含所有常函数 y(x)=c 的子空间。
对于下面的齐次微分方程:
y′′−3y′+2y=0
也可以用微分算子表示为:(D2−3D+2)y=0
线性算子的线性组合仍为线性算子,故:L=D2−3D+2 也是线性。
求解齐次微分方程 Ly=0 ,即相当于计算 L 的零空间。
线性算子 L 的零空间由线性无关的函数 ex 和 e2x 张成,ex 和 e2x 是零空间 N(L) 的基底函数,故齐次解为其线性組合 y=c1ex+c2e2x 。从线性函数的角度,齐次解必定落在 L 的零空间内,亦即
Ly=l(c1ex+c2e2x)=c1L(ex)+c2L(e2x)=c10+c20=0
特征值与特征向量
假设一种线性变换 L:V→V ,还有向量 xx∈V ,通常 xx 和 L(xx) 之间没有什么特别的关系,但是,在某个条件下,会有如下关系:
L(xx)=λxx
这就是特征向量 xx 和特征值 λ 。
注意:零向量不是特征向量。这是因为,对于任意线性变换而言,任何 λ 都会满足L(00)=λ⋅00=00 。
如果特征值为零,则只要存在 xx=00 满足L(xx)=0xx=00 就行。显然,若线性变换 L 有零特征值,则 L 的零空间必定包含非零向量。
设 L:RRn→RRn 为线性变换,以矩陣表示为:L(xx)=Axx 。
例如:A=[1248]
容易解出其特征值 λ=0,9 ,特征向量分别为:[4−1],[12]。
注意,其次方程 Axx=00 对应 λ=0 ,故特征向量 [4−1] 张成 A 的零空间。
假设以下微分算式:
Dex=ex,De2x=2e2x,De−3x=−3e−3x
函数 ex,e2x,e−3x 是微分算子 D 的特征向量,对应特征值分别为 1,2,−3 。
推广:r 是任意数,Dkerx=rkerx ,则 erx 是 Dk 的特征向量,对应的特征值为 rk 。
考虑一个常系数齐次微分方程(前面用过的):y′′−3y′+2y=0
若有 L=D2−3D+2 ,则可以写为:Ly=(D2−3D+2)y=0
如前所述,求齐次微分方程的解,就等于计算 L 的零空间,也就是找出特征值为 λ=0 的特征向量,如下:
Lerx=(r2−3r+2)erx=0
因为 erx=0 ,则必有 λ=r2−3r+2=0 ,则 r=1,2 ,特征向量为 ex,e2x ,所对应的特征值均为 0 。
故:求解齊次微分方程的本質就是問線性算子 L 的哪些特徵向量對應零特徵值[1]。
非齐次方程
设 f:V→W 是一个线性函数,对应的非齐次方程:f(xx)=bb
下面证明叠加原理:若 xxp 是上述非齐次方程的一个特解(particular solution),xxh 是齐次方程 f(xx) 的一个解(称为齐次解),则 xxp+xxh 是非齐次方程的通解(或一般解,general solution)。
证明:
因为 xxp 是一个特解,则 f(xxp)=bb 。
又因为 f 是线性函数,所以:f(xx−xxp)=f(xx)−f(xxp)=bb−bb=00
故 xx−xxp 是齐次解,即 xx−xxp=xxh ,xxh 是零空间中的一个向量,故 xx=xxp+xxh 是通解。
以下述非齐次线性方程组为例:
{x+y−z=2x−y+z=4
其一个特解:x=3,y=1,z=2 ,前面已经计算过对应的齐次线性方程组的解:(x,y,z)=t(0,1,1) ,其中 t 是任意实数。故此非齐次线性方程组的通解是:(x,y,z)=(3,1,2)+t(0,1,1)
以下面的非齐次微分方程为例:y′′−3y′+2y=ex
用微分算子表示为:Ly=(D2−3D+2)y=ex 。
用待定系数法求出一个特解:
∵(D−1)ex=0
对于任何解 y(x) ,有:
(D−1)(D2−3D+2)y=(D−1)2(D−2)y=0
根据齐次微分方程的求解,y(x) 的形式必为:
y(x)=c1ex+c2e2x+c3xex
显然,前两项是齐次解,yh(x)=c2ex+c2e2x 。设 yp(x)=c3xex ,计算:
yp′(x)yp′′(x)=c3(xex+ex)=c3(xex+2ex)
代入到非齐次微分方程中,得:
c3(xex+2ex)−3c3(xex+ex)+2c3(xex)=ex
得到特解:yp=−xex
故通解为:y(x)=c1ex+c2e2x−xex
参考资料
[1]. 线代启示录:从几何向量空间到函数空间
[2]. 线性代数基本定理
本文由mdnice多平台发布