这是我参与8月更文挑战的第21天,活动详情查看:8月更文挑战
指数族分布
定义
Exponential Families of Distributions。指数族分布包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Gamma 分布等一系列分布。
指数族分布指具有如下特定形式的概率分布的参数集合:
pX(x∣θ)=h(x)exp[η(θ)⋅T(x)−A(θ)]
其中,T(x)、h(x)、η(θ)、A(θ) 是已知函数,也就是说只有参数 θ 未知。θ 称为族的参数。A(θ)也叫 log partition-function(log配分函数)。
也有其它等效形式:
pX(x∣θ)=h(x)g(θ)exp[η(θ)⋅T(x)]
或:
pX(x∣θ)=exp[η(θ)⋅T(x)−A(θ)+B(x)]
或
pX(x∣θ)=h(x)exp[η(θ)⋅T(x)]⋅exp[−A(θ)]=exp[A(θ)]1h(x)exp[η(θ)⋅T(x)]
配分函数
p(x∣θ)=z1p^(x∣θ)z是归一化因子,跟x没有关系
配分函数是一个归一化的函数,目的使函数积分值为1。
∫p(x∣θ)dx=∫z1p^(x∣θ)dx=1z=∫p^(x∣θ)dx
A(θ) 其实是这么来的:
p(x∣θ)=exp[A(θ)]1h(x)exp[η(θ)⋅T(x)]∫p(x∣θ)dx=∫exp[A(θ)]1h(x)exp[η(θ)⋅T(x)]dx=1
所以,
A(θ)=log∫h(x)exp[η(θ)⋅T(x)]dx
充分统计量
就是 T(x),统计量就是关于样本的一个函数,充分就表示该统计量包含了表示样本总体特征。有这个充分统计量,就可以不用考虑样本,这样的好处是节省空间。比如高斯分布的充分统计量就是均值和方差,这样通过计算样本的均值和方差进而得到其明确的分布。
共轭
指数族分布常常具有共轭的性质。共轭先验使得先验和后验的形式一样,便于计算。
什么是共轭?
我们先看贝叶斯公式
p(z∣x)=∫zp(x∣z)p(z)dzp(x∣z)p(z)
后验 p(z∣x),由于分母上的积分是比较难求的,所以直接求后验是比较困难的。共轭的意思就是给定特殊的似然 p(x∣z) 下,后验 p(z∣x) 和先验 p(z) 会形成相同的分布。那计算上就不用求分母那么复杂的积分了。
例如,如果似然 p(x∣z) 为二项分布,p(z) 为Beta分布,那么后验分布也为 p(z∣x) 也为Beta分布。即 p(z∣x)∝p(x∣z)p(z)。
最大熵
指数族分布满足最大熵原理。
什么是最大熵?
首先信息熵的定义:
H(p)=∫−p(x)logp(x)dx(连续)H(p)=−n=1∑Np(x)logp(x)dx(离散)
假设数据是离散的,对一个离散随机变量x,有 n 个特征,其概率为 pn ,现在要求最大的信息熵,那么最大熵可以表示成一个约束优化问题:
max{H(p)}=min{n=1∑Npnlogpn}s.t.n=1∑Npn=1
这种熟悉的约束优化问题呢,我们可以利用拉格朗日乘子法来求解,
L(p,λ)=n=1∑Npnlogpn+λ(1−n=1∑Npn)
求导下,
∂pn∂L=logpn+1−λ=0⟹pn=exp(λ−1)
λ是常数,所以 p^1=p^2=...=p^n=N1
可以发现离散条件下, pn 服从均匀分布的时候熵最大。也就是说,离散条件下,随机变量在无信息先验下的最大熵分布就是均匀分布。
那当我们有部分数据集时,即可以从数据集中获得一些先验知识,比如经验分布 p^(x)=Ncount(x),可以进一步计算得其经验期望:
Ep^[f(x)]=Δ
那么我们可以把这些先验知识也加进约束。于是最大熵为
max{H(p)}=min{x∑p(x)logp(x)}s.t.n=1∑Npn=1,Ep^[f(x)]=Δ
还是应用拉格朗日乘子法,
L(p,λ0,λ)=n=1∑Np(xn)logp(xn)+λ0(1−n=1∑Npn)+λT(Δ−Ep^[f(x)])
求导,
∂p(x)∂L=n=1∑N(logp(x)+1)−n=1∑Nλ0−n=1∑NλTf(x)=0⟹p(x)=exp{λ0−1+λTf(x)}
这是一个指数族分布。可以得出,在满足既定事实的条件下,随机变量对应的最大熵分布是一个指数族分布。
几种指数族分布
下面介绍常见的几种指数族分布。
高斯分布
若随机变量 X 服从一个均值为 μ,方差为 σ 的高斯分布,记为:X∼N(μ,σ2)
其概率密度函数为:
f(x∣μ,σ)=σ2π1e−2σ2(x−μ)2
写成指数形式:
f(x∣μ,σ)=2π1exp{σ2μx−2σ21x2−2σ21μ2−2logσ2}
变量服从高斯分布时,独立一定不相关,不相关一定独立。
相关性反应的实际上是一种线性关系,而独立性则反映的是更为一般的线性无关性。
伯努利分布
写成指数形式:
f(x∣π)=πx(1−π)1−x=exp{xlog(1−ππ)+log(1−π)}
泊松分布与指数分布
泊松分布表达式:
- X∼P(λ),λ=X
- P(X=k)=k!λke−λ
- E(X)=λ
写成指数形式:
p(x∣λ)=x!1exp{xlogλ−λ}
泊松过程:引入时间段,t
- 公式:P(X=k,t)=k!(λt)ke−λt
指数分布表达式:
- Y∼Exp(λ)
- E(Y)=λ1
由分布函数:F(y)=P(Y≤y)={1−e−λy0y⩾0y<0 ,
求导可得概率密度函数,也就是指数分布:
p(y)={λe−λy0y⩾0y<0
写成指数形式:
p(y∣λ)=λe−λy=exp{−λy+log(λ)}
指数分布和几何分布一样具有无记忆性。
伽马分布
写成指数形式:
f(x∣k,θ)=Γ(k)θk1xk−1eθ−x=exp{(k−1)log(x)−θx−klog(θ)−logΓ(k)}
参考
- 机器学习白板推导系列课程
- 指数族分布|机器学习推导系列(九) - 简书 (jianshu.com)