一、概述
将⼀维高斯分布推广到多变量中就得到了高斯网络,将多变量推广到无限维,就得到了高斯过程。高斯过程是定义在连续域(时间/空间)上的无限多个高斯随机变量所组成的随机过程。具体的形式化的定义如下:
对于时间轴上的随机变量序列{ξt}t∈T,T是一个连续域,如果∀n∈N+,t1,t2,⋯,tn∈T,满足{ξt1,ξt2,⋯,ξtn}≜ξt1−tn∼N(μt1−tn,Σt1−tn),那么{ξt}t∈T就是一个高斯过程(Gaussian Process)。
上面的定义中t称为index,ξt是随机变量。
一个高斯过程可以有两个函数,即均值函数m(t)和协方差函数k(s,t)来确定:
GP(m(t),k(s,t)){m(t)=E[ξt]k(s,t)=E[(ξs−E[ξs])(ξt−E[ξt)]
举个例子来说,下图的时间轴(也就是定义中的连续域)代表了人的一生,这里假设人能活100岁,从这个连续域里任意取多个时刻都会对应了一个高斯随机变量:

这里的每个随机变量可以认为是一个人在一生中这个阶段的表现值,服从一个高斯分布:

在这个人人生的每一个阶段,如果他比较努力,他的表现可能就比均值高,如果不努力可能表现就比均值低,将每个高斯分布采样的样本点连起来就是高斯过程的一个样本:

二、核贝叶斯线性回归-权重空间角度
之前的贝叶斯线性回归博客:贝叶斯线性回归
在处理线性数据时,我们可以直接采取贝叶斯线性回归的策略。对于非线性数据,一种有效的方法是利用核技术将其从低维空间映射到高维空间,然后再执行贝叶斯线性回归。这与支持向量机中的核技术有一定的相似性。如果最终的结果只与一个核函数(即关于x的内积)有关,那么就适合采用核技术。同样地,在执行非线性贝叶斯线性回归时,如果数据在被映射到高维空间后,其后验的均值和方差仅与一个核函数相关,那么这就证明了在贝叶斯线性回归中使用核技术是有效的。
对于线性数据的预测来说,有:
f(x∗)∣X,Y,x∗∼N((x∗)Tσ−2Λw−1XTY,(x∗)TΛw−1x∗),其中Λw=σ−2XTX+Σp−1
对于非线性数据,要使用核方法,首先要对其进行低维到高维的非线性转换:
If:ϕ:x↦z,x∈Rp,z=ϕ(x)∈Rq,q>pDefine:Φ=ϕ(X)=(ϕ(x1)ϕ(x2)⋯ϕ(xN))N×qTThen:f(x)=ϕ(x)Twf(x∗)∣X,Y,x∗∼N(σ−2ϕ(x∗)TΛw−1ΦTY,ϕ(x∗)TΛw−1ϕ(x∗)),Λw=σ−2ΦTΦ+Σp−1
上面的式子中,均值和方差都存在Λw−1,这一项可以通过伍德伯里矩阵恒等式(Woodbury Matrix Identity)求出来,该恒等式如下:
(A+UCV)−1=A−1−A−1U(C−1+VA−1U)−1VA−1其中A:n×n,U:n×k,C:k×k,V:k×n
按照伍德伯里矩阵恒等式的形式,我们可以将Λw对应为A+UCV:
Λw=AΣp−1+UΦTCσ−2IVΦ
代入恒等式求解得到Λw−1:
Λw−1=(Σp−1+ΦTσ−2IΦ)−1=Σp−ΣpΦT(σ2I+ΦΣpΦT)−1ΦΣp
将Λw−1代入就能f(x∗)∣X,Y,x∗,就能得到均值和方差,不过这里的均值直接代入比较复杂,可以通过对Λw做一些变换来得到均值:
Λw=σ−2ΦTΦ+Σp−1⇔ΛwΣp=σ−2ΦTΦΣp+I⇔ΛwΣpΦT=σ−2ΦTΦΣpΦT+ΦT⇔ΛwΣpΦT=σ−2ΦT(ΦΣpΦT+σ2I)⇔ΣpΦT=σ−2Λw−1ΦT(ΦΣpΦT+σ2I)⇔σ−2Λw−1ΦT=ΣpΦT(ΦΣpΦT+σ2I)−1⇔σ−2ϕ(x∗)TΛw−1ΦTY=ϕ(x∗)TΣpΦT(ΦΣpΦT+σ2I)−1Y
由此求得了f(x∗)∣X,Y,x∗的均值,将Λw−1带入方差可以计算得到方差:
ϕ(x∗)TΣpϕ(x∗)−ϕ(x∗)TΣpΦT(σ2I+ΦΣpΦT)−1ΦΣpϕ(x∗)
因此最终得到f(x∗)∣X,Y,x∗的概率分布如下:
f(x∗)∣X,Y,x∗∼N(ϕ(x∗)TΣpΦT(ΦΣpΦT+σ2I)−1Y,ϕ(x∗)TΣpϕ(x∗)−ϕ(x∗)TΣpΦT(σ2I+ΦΣpΦT)−1ΦΣpϕ(x∗))
通过上面式子的红色部分可以看出f(x∗)∣X,Y,x∗的分布只与K(x,x′)=ϕ(x)TΣpϕ(x′)这样的项有关,如果我们能够证明这是一个核函数(即能够表达为一个内积的形式),那么就意味着对于非线性数据,我们可以采用核技巧将数据映射到高维空间,然后再执行贝叶斯线性回归。接下来,我们将进行以下定义:
∵Σp:正定且对称,Σp=(Σp1/2)2∴K(x,x′)=ϕ(x)TΣp1/2Σp1/2ϕ(x′)=(Σp1/2ϕ(x))TΣp1/2ϕ(x′)=<ψ(x),ψ(x′)>,ψ(x)=Σp1/2ϕ(x)
因此这是一个核函数。
核贝叶斯线性回归也就是高斯过程回归,这个从参数w的角度进行推导的过程是高斯过程回归的权重空间角度。
三、从权重空间角度到函数空间角度
对于应用了核方法的贝叶斯线性回归,满足:
f(x)=ϕ(x)Twy=f(x)+εε∼N(0,σ2)
这里给定先验w满足一个高斯分布:
w∼N(0,Σp)
w是一个随机变量,那么f(x)也是一个随机变量,对于不同x,f(x)就是不同的随机变量,{f(x)}就是一些随机变量的组合。接下来,对于f(x),我们看一下它的均值和协方差:
E[f(x)]=E[ϕ(x)Tw]=ϕ(x)TE[w]=0cov(f(x),f(x′))=E[(f(x)−=0E[f(x)])(f(x′)−=0E[f(x′)])]=E[f(x)⋅f(x′)]=E[ϕ(x)Tw⋅ϕ(x′)Tw]=E[ϕ(x)TwwTϕ(x′)]=ϕ(x)TE[wwT]ϕ(x′)=ϕ(x)TE[(w−0)(wT−0)]ϕ(x′)=ϕ(x)TΣpϕ(x′)=K(x,x′)
很明显,f(x)的协方差是一个核函数。如果我们将其与高斯过程的定义进行比较,我们可以看到x相当于索引t,每个x对应一个随机变量f(x)。在这里,f(x)就像是ξt,只是f(x)和x之间有明确的函数关系,而ξt和t则没有。另外,f(x)的协方差也满足一个核函数的特性,这表明f(x)就是一个高斯过程。这也解释了为什么核贝叶斯线性回归就是高斯线性回归。
高斯过程回归的求解方法可以从权重空间和函数空间两个角度进行。在上一节中,我们从权重空间的角度出发,关注的是权重w。而从函数空间的角度,我们关注的是f(x)。在下一小节中,我们将介绍函数空间角度的求解方法。
四、函数空间角度
已有数据如下:
X=(x1x2⋯xN)N×pTY=(y1y2⋯yN)N×1T
对于f(X),满足:
f(X)∼N(μ(X),K(X,X))
对于Y,满足:
Y∼N(μ(X),K(X,X)+σ2I)
解释一下方差矩阵K(X,X)+σ2I的由来,对于方差矩阵对角线上的元素:
E[y⋅y]=E[(f(x)+ε)(f(x)+ε)]=E[f(x)⋅f(x)+2f(x)⋅ε+ε⋅ε]=f(x)的方差E[f(x)⋅f(x)]+2相互独立变量的协方差E[f(x)⋅ε]+ε的方差E[ε⋅ε]=K(x,x)+σ2
对于方差矩阵非对角线上的元素:
E[y⋅y′]=E[(f(x)+ε)(f(x′)+ε′)]=E[f(x)⋅f(x′)+ε⋅f(x′)+f(x)⋅ε′+ε⋅ε′]=E[f(x)⋅f(x′)]+相互独立变量的协方差E[ε⋅f(x′)]+相互独立变量的协方差E[f(x)⋅ε′]+相互独立变量的协方差E[ε⋅ε′]=K(x,x′)
预测问题也就是对于给定的新的数据X∗=(x1∗x2∗⋯xM∗),需要求解对应的Y∗=f(X∗)+ε。
我们把Y和f(X∗)拼接成一个向量,并且按照上面得到方差矩阵的方法简单推一下就可以得到这个拼接起来的向量的分布:
(Yf(X∗))∼N((μ(X)μ(X∗)),(K(X,X)+σ2IK(X∗,X)K(X,X∗)K(X∗,X∗)))
而对于预测问题,我们要求的是P(f(X∗)∣X,Y,X∗)这个概率,其实也就是P(f(X∗)∣Y),也就是上面拼接起来的向量的一个条件概率分布,而求解高维高斯分布的条件概率分布的方法在高斯分布这一篇中已经推导过了,有现成的公式可以套用:
x=(xaxb)=((μaμb),(ΣaaΣbaΣabΣbb))xb∣a∼N(ub∣a,Σb∣a)ub∣a=ΣbaΣaa−1(xa−μa)+μbΣb∣a=Σbb−ΣbaΣaa−1Σab
对应到上面的拼接向量也就是:
⎝⎛xaYxbf(X∗)⎠⎞∼N⎝⎛⎝⎛μaμ(X)μbμ(X∗)⎠⎞,⎝⎛ΣaaK(X,X)+σ2IΣbaK(X∗,X)ΣabK(X,X∗)ΣbbK(X∗,X∗)⎠⎞⎠⎞
套用公式得到概率P(f(X∗)∣Y):
P(f(X∗)∣Y)=N(K(X∗,X)(K(X,X)+σ2I)−1(Y−μ(X))+μ(X∗),K(X∗,X∗)−K(X∗,X)(K(X,X)+σ2I)−1K(X,X∗))
再加上噪声就得到Y∗的分布:
P(f(X∗)∣Y)=N(K(X∗,X)(K(X,X)+σ2I)−1(Y−μ(X))+μ(X∗),K(X∗,X∗)−K(X∗,X)(K(X,X)+σ2I)−1K(X,X∗)+σ2I)
显然比起权重空间角度的方法,从函数空间角度出发更容易求解这个问题。
“本文正在参加 人工智能创作者扶持计划”