指数族分布

1,195 阅读3分钟

这是我参与8月更文挑战的第21天,活动详情查看:8月更文挑战

指数族分布

定义

Exponential Families of Distributions。指数族分布包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Gamma 分布等一系列分布。

指数族分布指具有如下特定形式的概率分布的参数集合:

pX(xθ)=h(x)exp[η(θ)T(x)A(θ)]p_X(x\mid \theta)=h(x)exp[\eta(\theta)\cdot T(x)-A(\theta)]

其中,T(x)h(x)η(θ)A(θ)T(x)、h(x)、\eta(\theta)、A(\theta) 是已知函数,也就是说只有参数 θ\theta 未知。θ\theta 称为族的参数。A(θ)A(\theta)也叫 log partition-function(log配分函数)。

也有其它等效形式:

pX(xθ)=h(x)g(θ)exp[η(θ)T(x)]p_X(x\mid \theta)=h(x)g(\theta)exp[\eta(\theta)\cdot T(x)]

或:

pX(xθ)=exp[η(θ)T(x)A(θ)+B(x)]p_X(x\mid \theta)=exp[\eta(\theta)\cdot T(x)-A(\theta)+B(x)]

pX(xθ)=h(x)exp[η(θ)T(x)]exp[A(θ)]=1exp[A(θ)]h(x)exp[η(θ)T(x)]\begin{aligned} p_X(x\mid \theta)&=h(x)exp[\eta(\theta)\cdot T(x)] \cdot exp[-A(\theta)]\\ &=\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)] \end{aligned}

配分函数

p(xθ)=1zp^(xθ)z是归一化因子,跟x没有关系p(x|\theta)=\dfrac{1}{z}\hat{p}(x|\theta)\qquad z\text{是归一化因子,跟x没有关系}

配分函数是一个归一化的函数,目的使函数积分值为1。

p(xθ)dx=1zp^(xθ)dx=1z=p^(xθ)dx\int p(x|\theta)dx=\int \dfrac{1}{z}\hat{p}(x|\theta)dx=1 \\ z=\int\hat{p}(x|\theta)dx

A(θ)A(\theta) 其实是这么来的:

p(xθ)=1exp[A(θ)]h(x)exp[η(θ)T(x)]p(xθ)dx=1exp[A(θ)]h(x)exp[η(θ)T(x)]dx=1p(x|\theta)=\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)] \\ \int p(x|\theta)dx=\int\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)]dx=1

所以,

A(θ)=logh(x)exp[η(θ)T(x)]dxA(\theta)=\log\int h(x)exp[\eta(\theta)\cdot T(x)]dx

充分统计量

就是 T(x)T(x),统计量就是关于样本的一个函数,充分就表示该统计量包含了表示样本总体特征。有这个充分统计量,就可以不用考虑样本,这样的好处是节省空间。比如高斯分布的充分统计量就是均值和方差,这样通过计算样本的均值和方差进而得到其明确的分布。

共轭

指数族分布常常具有共轭的性质。共轭先验使得先验和后验的形式一样,便于计算。

什么是共轭?

我们先看贝叶斯公式

p(zx)=p(xz)p(z)zp(xz)p(z)dzp(z|x)=\dfrac{p(x|z)p(z)}{\int_zp (x|z)p(z)dz}

后验 p(zx)p(z|x),由于分母上的积分是比较难求的,所以直接求后验是比较困难的。共轭的意思就是给定特殊的似然 p(xz)p(x|z) 下,后验 p(zx)p(z|x) 和先验 p(z)p(z) 会形成相同的分布。那计算上就不用求分母那么复杂的积分了。

例如,如果似然 p(xz)p(x|z) 为二项分布,p(z)p(z) 为Beta分布,那么后验分布也为 p(zx)p(z|x) 也为Beta分布。即 p(zx)p(xz)p(z)p(z|x) \propto p(x|z)p(z)

最大熵

指数族分布满足最大熵原理。

什么是最大熵?

首先信息熵的定义:

H(p)=p(x)logp(x)dx(连续)H(p)=n=1Np(x)logp(x)dx(离散)H(p)=\int-p(x)\log p(x)dx \qquad(\text{连续}) \\ H(p)=-\sum_{n=1}^N p(x)\log p(x)dx \qquad(\text{离散})

假设数据是离散的,对一个离散随机变量x,有 nn 个特征,其概率为 pnp_n ,现在要求最大的信息熵,那么最大熵可以表示成一个约束优化问题:

max{H(p)}=min{n=1Npnlogpn}s.t.n=1Npn=1\max\{H(p)\}=\min\{\sum_{n=1}^N p_n\log p_n\}\quad s.t. \sum_{n=1}^N p_n=1

这种熟悉的约束优化问题呢,我们可以利用拉格朗日乘子法来求解,

L(p,λ)=n=1Npnlogpn+λ(1n=1Npn)L(p,\lambda)=\sum_{n=1}^N p_n\log p_n+\lambda(1-\sum_{n=1}^N p_n)

求导下,

Lpn=logpn+1λ=0pn=exp(λ1)\dfrac{\partial L}{\partial p_n}=\log p_n+1-\lambda=0 \\ \Longrightarrow p_n=exp(\lambda-1)

λ\lambda是常数,所以 p^1=p^2=...=p^n=1N\hat{p}_1=\hat{p}_2=...=\hat{p}_n=\dfrac{1}{N}

可以发现离散条件下, pn p_n 服从均匀分布的时候熵最大。也就是说,离散条件下,随机变量在无信息先验下的最大熵分布就是均匀分布。

那当我们有部分数据集时,即可以从数据集中获得一些先验知识,比如经验分布 p^(x)=count(x)N\hat{p}(x)=\frac{count(x)}{N},可以进一步计算得其经验期望:

Ep^[f(x)]=ΔE_{\hat{p}}[f(x)]=\Delta

那么我们可以把这些先验知识也加进约束。于是最大熵为

max{H(p)}=min{xp(x)logp(x)}s.t.n=1Npn=1,Ep^[f(x)]=Δ\max\{H(p)\}=\min\{\sum_x p(x)\log p(x)\}\quad s.t. \sum_{n=1}^N p_n=1,E_{\hat{p}}[f(x)]=\Delta

还是应用拉格朗日乘子法,

L(p,λ0,λ)=n=1Np(xn)logp(xn)+λ0(1n=1Npn)+λT(ΔEp^[f(x)])L(p,\lambda_0,\lambda)=\sum_{n=1}^N p(x_n)\log p(x_n)+\lambda_0(1-\sum_{n=1}^N p_n)+\lambda^T(\Delta-E_{\hat{p}}[f(x)])

求导,

p(x)L=n=1N(logp(x)+1)n=1Nλ0n=1NλTf(x)=0p(x)=exp{λ01+λTf(x)}\begin{aligned} \dfrac{\partial }{\partial p(x)}L&=\sum_{n=1}^N(\log p(x)+1)-\sum_{n=1}^N\lambda_0-\sum_{n=1}^N\lambda^Tf(x)=0\\ &\Longrightarrow p(x)=exp\{\lambda_0-1+\lambda^Tf(x)\} \end{aligned}

这是一个指数族分布。可以得出,在满足既定事实的条件下,随机变量对应的最大熵分布是一个指数族分布。

几种指数族分布

下面介绍常见的几种指数族分布。

高斯分布

若随机变量 XX 服从一个均值为 μ\mu,方差为 σ\sigma 的高斯分布,记为:XN(μ,σ2)X\sim N(\mu,\sigma^2)

概率密度函数为:

f(xμ,σ)=1σ2πe(xμ)22σ2f(x\mid \mu,\sigma)=\dfrac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

写成指数形式

f(xμ,σ)=12πexp{μσ2x12σ2x212σ2μ2logσ22}f(x\mid \mu,\sigma)=\dfrac{1}{\sqrt{2\pi}}exp\{\dfrac{\mu}{\sigma^2}x-\dfrac{1}{2\sigma^2}x^2-\dfrac{1}{2\sigma^2}\mu^2-\dfrac{log\sigma^2}{2}\}

变量服从高斯分布时,独立一定不相关,不相关一定独立。

相关性反应的实际上是一种线性关系,而独立性则反映的是更为一般的线性无关性。

伯努利分布

写成指数形式

f(xπ)=πx(1π)1x=exp{xlog(π1π)+log(1π)}f(x\mid \pi)=\pi^x(1-\pi)^{1-x}=exp\{xlog(\dfrac{\pi}{1-\pi})+log(1-\pi) \}

泊松分布与指数分布

泊松分布表达式

  • XP(λ),λ=XX \sim P(\lambda),\lambda=\overline X
  • P(X=k)=λkk!eλP(X=k)=\dfrac{\lambda ^k}{k!}e^{-\lambda}
  • E(X)=λE(X)=\lambda

写成指数形式

p(xλ)=1x!exp{xlogλλ}p(x\mid \lambda)=\dfrac{1}{x!}exp\{xlog\lambda-\lambda \}

泊松过程:引入时间段,t

  • 公式:P(X=k,t)=(λt)kk!eλtP(X=k,t)=\dfrac{(\lambda t)^k}{k!}e^{-\lambda t}

指数分布表达式:

  • YExp(λ)Y\sim Exp(\lambda)
  • E(Y)=1λE(Y)=\dfrac{1}{\lambda}

由分布函数:F(y)=P(Yy)={1eλyy00y<0F(y)=P(Y\le y)=\begin{cases}1-e^{-\lambda y}&y\geqslant 0\\0&y<0\end{cases} ,

求导可得概率密度函数,也就是指数分布:

p(y)={λeλyy00y<0p(y)=\begin{cases}\lambda e^{-\lambda y}&y\geqslant 0\\0&y<0\end{cases}

写成指数形式:

p(yλ)=λeλy=exp{λy+log(λ)}p(y\mid \lambda)=\lambda e^{-\lambda y}=exp\{-\lambda y+log(\lambda)\}

指数分布和几何分布一样具有无记忆性。

伽马分布

写成指数形式

f(xk,θ)=1Γ(k)θkxk1exθ=exp{(k1)log(x)xθklog(θ)logΓ(k)}f(x\mid k,\theta)=\dfrac{1}{\Gamma(k)\theta^k}x^{k-1}e^{\frac{-x}{\theta}}=exp\{(k-1)log(x)-\dfrac{x}{\theta}-klog(\theta)-log\Gamma(k) \}

参考

  1. 机器学习白板推导系列课程
  2. 指数族分布|机器学习推导系列(九) - 简书 (jianshu.com)