1 概念
如果我们想知道某个随机变量X的分布F,这在一般情况下当然是无法准确知道的,但如果我们手上有它的一些独立同分布的样本,可不可以利用这些样本?一个很简单的办法就是,把这些样本的“频率”近似为随机变量的“概率”。
经验分布函数(empirical distribution function):给每个点1/n的概率质量,得到CDF:
F^n(x)=n∑i=1nI(Xi≤x)
2 性质
经验分布函数,有什么性质?它可以很好地近似真实的分布函数吗?我们给出如下几个定理。
定理:对于任意给定的x,有
- E(F^n(x))=F(x);
- V(F^n(x))=nF(x)(1−F(x))→0;
- MSE=nF(x)(1−F(x))→0;
- F^n(x)⟶PF(x)。
Glivenko-Cantelli定理:X1,…,Xn∼F,那么
xsup∣F^n(x)−F(x)∣⟶P0
更准确地说,上式其实是几乎必然收敛的。
Dvoretzky-Kiefer-Wolfowitz (DKW) Inequity:X1,…,Xn∼F,那么∀ϵ>0,有
P(xsup∣F^n(x)−F(x)∣>ϵ)≤2e−2nϵ2
利用DKW不等式,可以构造出F的非参数的1−α置信带:定义L(x)=max{F^n(x)−ϵn,0},U(x)=max{F^n(x)+ϵn,0},其中ϵn=2n1log(α2),那么有
P[L(x)≤F(x)≤U(x),∀x]≥1−α
3 应用
经验分布函数有什么用?它可以用来计算一些statistical functional(统计泛函)。
假设要计算的statistical functional为T(F),那么,可以利用经验分布函数,代替未知的分布函数,计算出θ=T(F)的plug-in estimator(嵌入式估计量):θ^=T(F^n)。
如果存在某个r(x)使得T(F)=∫r(x)dF(x),那么T就称为linear functional(线性泛函),这是因为这样的T必定满足T(aF+bG)=aT(F)+bT(G)。对于这样的linear functional T(F),它的plug-in estimator可以写为:
T(F^n)=∫r(x)dF^n=n1i=1∑nr(Xi)