经验分布函数简介

262 阅读1分钟

1 概念

如果我们想知道某个随机变量XX的分布FF,这在一般情况下当然是无法准确知道的,但如果我们手上有它的一些独立同分布的样本,可不可以利用这些样本?一个很简单的办法就是,把这些样本的“频率”近似为随机变量的“概率”。

经验分布函数empirical distribution function):给每个点1/n1/n的概率质量,得到CDF:

F^n(x)=i=1nI(Xix)n\hat{F}_n(x) = \dfrac{\sum_{i=1}^{n}I(X_i\leq x)}{n}

2 性质

经验分布函数,有什么性质?它可以很好地近似真实的分布函数吗?我们给出如下几个定理。

定理:对于任意给定的xx,有

  • E(F^n(x))=F(x)E(\hat{F}_n(x) )=F(x)
  • V(F^n(x))=F(x)(1F(x))n0V(\hat{F}_n(x) )=\dfrac{F(x)(1-F(x))}{n}\to 0
  • MSE=F(x)(1F(x))n0\text{MSE} = \dfrac{F(x)(1-F(x))}{n}\to 0
  • F^n(x)PF(x)\hat{F}_n(x)\stackrel{P}{\longrightarrow}F(x)

Glivenko-Cantelli定理X1,,XnFX_1,\ldots,X_n\sim F,那么

supxF^n(x)F(x)P0\sup_x |\hat{F}_n(x)-F(x)|\stackrel{P}{\longrightarrow}0

更准确地说,上式其实是几乎必然收敛的。

Dvoretzky-Kiefer-Wolfowitz (DKW) InequityX1,,XnFX_1,\ldots,X_n\sim F,那么ϵ>0\forall \epsilon\gt 0,有

P(supxF^n(x)F(x)>ϵ)2e2nϵ2P\left(\sup_x |\hat{F}_n(x)-F(x)|\gt \epsilon\right) \leq 2e^{-2n\epsilon^2}

利用DKW不等式,可以构造出FF的非参数的1α1-\alpha置信带:定义L(x)=max{F^n(x)ϵn,0}L(x)=\max\left\{\hat{F}_n(x)-\epsilon_n,0\right\}U(x)=max{F^n(x)+ϵn,0}U(x)=\max\left\{\hat{F}_n(x)+\epsilon_n,0\right\},其中ϵn=12nlog(2α)\epsilon_n=\sqrt{\dfrac{1}{2n}\log(\dfrac{2}{\alpha})},那么有

P[L(x)F(x)U(x),x]1αP[L(x)\leq F(x)\leq U(x),\forall x] \geq 1-\alpha

3 应用

经验分布函数有什么用?它可以用来计算一些statistical functional(统计泛函)。

假设要计算的statistical functional为T(F)T(F),那么,可以利用经验分布函数,代替未知的分布函数,计算出θ=T(F)\theta=T(F)plug-in estimator(嵌入式估计量):θ^=T(F^n)\hat\theta=T(\hat{F}_n)

如果存在某个r(x)r(x)使得T(F)=r(x)dF(x)T(F)=\int r(x) dF(x),那么TT就称为linear functional(线性泛函),这是因为这样的TT必定满足T(aF+bG)=aT(F)+bT(G)T(aF+bG)=aT(F)+bT(G)。对于这样的linear functional T(F)T(F),它的plug-in estimator可以写为:

T(F^n)=r(x)dF^n=1ni=1nr(Xi)T(\hat{F}_n)=\int r(x)d \hat{F}_n=\dfrac{1}{n}\sum_{i=1}^{n}r(X_i)