离散型随机变量及其常见分布律

237 阅读4分钟

1. 随机变量

  • 设随机试验的样本空间为S={e}S=\{e\}. X=X(e)X=X(e) 是定义在样本空间SS上的实值单值函数。称X=X(e)X=X(e)随机变量

2. 离散型随机变量

  • 定义: 全部可能取到的值为有限个或可列无限多个,这种随机变量称为离散型随机变量

    骰子的点数,打靶环数,某城市120急救电话一昼夜收到的呼叫次数,都是离散型随机变量

  • 设离散型随机变量XX所有可能取的值为xk(k=1,2,)x_k(k=1,2,\cdots)XX取各个可能值的概率,即事件X=xk{X=x_k} 的概率,为 P{X=xk}=Pk,k=1,2,P\{X=x_k\}=P_k, k=1,2,\cdots

    我们称该式为离散型随机变量的分布律

    • 性质:

      • 1o1^o pk0,k=1,2,3,;p_k \geq 0, \quad k=1,2,3,\cdots;

      • 2o2^o k=1pk=1.\sum\limits_{k=1}^{\infty}{p_k=1.}

      稍后介绍常见分布的时候,pk0p_k \geq 0 这个的证明很简单,不在赘述,我会给出k=1pk=1.\sum\limits_{k=1}^{\infty}{p_k=1.} 的必要性证明。

3. 离散型随机变量常见分布

3.1 (01)(0-1)分布

  • 设随机变量可能的取值只有0011,它的分布律为 P{X=k}=pk(1p)1k,k=0,1P\{X=k\} = p^k(1-p)^{1-k}, \quad k=0,1 ,记做XX服从以pp为参数的(01)\pmb{(0-1)}分布或两点分布

    XX0011
    pkp_k1p1-ppp

    新生儿性别,抛硬币,产品质量是否合格 等可以用(01)(0-1)分布的离散型随机变量来表示

3.2 二项分布

  • 设试验EE只有两种可能结果:AAA\overline A ,则称EE伯努利试验 。 设P(A)=p,则P(A)=1pP(A) = p ,则P(\overline A) = 1 - p .

  • EE 独立重复地进行nn次, 则称这一连串独立的重复试验为n\pmb n重伯努利试验

    例如,抛硬币,AA表示正面,这就是伯努利试验,将硬币抛nn次,就是nn重伯努利试验。 掷骰子,AA表示等到11点,A\overline A 表示得到的是非11点,也叫一次伯努利试验等

  • XX表示nn重伯努利试验中,事件AA发生的次数,pp表示事件AA发生的概率,q=1pq=1-p 表示AA不发生的概率(即A\overline A发生的概率) ,则有

    P{X=k}=(kn)pkqnkk=0,1,2,nP\{X=k\} = (_k^n)p^kq^{n-k} \quad k=0,1,2\cdots, n

    • 必要性证明 : k=0nP{X=k}=k=0n(kn)pkqnk=(p+q)n=1\sum\limits_{k=0}^{n}{P\{X=k\}} = \sum\limits_{k=0}^{n}{(_k^n)p^kq^{n-k}} = (p+q)^n=1

    • 二项式 (a+b)n=(0n)an0b0+(1n)an1b1++(n1n)an(n1)bn1+(nn)annbn=k=0n(kn)ankbk(a+b)^n = (_0^n)a^{n-0}b^{0}+(_1^n)a^{n-1}b^{1}+\cdots+(_{n-1}^n)a^{n-(n-1)}b^{n-1}+(_n^n)a^{n-n}b^{n} = \sum\limits_{k=0}^{n}{(_k^n)a^{n-k}b^{k}}

    我们发现 (kn)pkqnk(_{k}^{n})p^kq^{n-k} 刚好是 (p+q)n(p+q)^n 展开式中出现pkp^k的那一项,因此,我们称随机变量XX服从以npn,p为参数的二项分布,记做 Xb(n,p)\pmb{X\sim b(n,p)}

3.3 泊松分布

  • 设随机变量XX的可能取值为0,1,2,0,1,2,\cdots 而各个取值的概率为 P{X=k}=λkk!eλk=0,1,2,P\{X=k\}= \frac{\lambda^k}{k!}e^{-\lambda} \quad k=0,1,2,\cdots 其中λ>0\lambda > 0 为常数,则称XX服从以λ\lambda为参数的泊松分布,记做 Xπ(λ)\pmb{X \sim \pi(\lambda)}

    • 必要性证明 :

      k=0P{X=k}=k=0λkk!eλ=eλk=0λkk!=eλeλ=1\begin{aligned}\sum\limits_{k=0}^{\infty}P\{X=k\}= \sum\limits_{k=0}^{\infty}\frac{\lambda^k}{k!}e^{-\lambda}=e^{-\lambda}\sum\limits_{k=0}^{\infty}\frac{\lambda^k}{k!} = e^{-\lambda} \cdot e^\lambda = 1\end{aligned}

    • 其中 k=0λkk!=eλ\sum\limits_{k=0}^{\infty}\frac{\lambda^k}{k!} = e^\lambda 证明如下,需要用到泰勒公式

    泰勒公式

    如果函数f(x)f(x)x0x_0的某个邻域U(x0)U(x_0)内具有(n+1)阶导数,那么对任一xU(x0)x \in U(x_0)
    f(x)=f(x0)+f(x0)(xx0)+f(x0)2!(xx0)2++f(n)(x0)n!(xx0)n+Rn(x)\begin{aligned}f(x)=f(x_0)+f^{'}(x_0)(x-x_0)+\frac{f^{''}(x_0)}{2!}(x-x_0)^2+\\\cdots+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_{n}(x)\end{aligned}

    f(x)=n=0Nf(n)(x0)n!(xx0)n+Rn(x)f(x)=\sum\limits_{n=0}^{N}\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n+R_{n}(x)x0=0x_0=0 时,有 f(x)=n=0Nf(n)(0)n!xn+Rn(x)f(x)=\sum\limits_{n=0}^{N}\frac{f^{(n)}(0)}{n!}x^n+R_{n}(x)

    此时有 ex=n=0N(ex)(n)(0)n!xn+Rn(x)(ex)(n)=ex(ex)(n)(0)=1ex=n=0N1n!xn+Rn(x)Rn(x)为关于xn的高阶无穷小,则exn=0N1n!xne^x=\sum\limits_{n=0}^{N}\frac{(e^x)^{(n)}(0)}{n!}x^n+R_{n}(x) \\ \because (e^x)^{(n)}=e^x \therefore (e^x)^{(n)}(0) = 1 \\ \therefore e^x= \sum\limits_{n=0}^{N}\frac{1}{n!}x^n+R_{n}(x),R_{n}(x) 为关于x^n的高阶无穷小,则 e^x \approx \sum\limits_{n=0}^{N}\frac{1}{n!}x^n eλ=k=0λkk!成立\therefore 有 e^\lambda = \sum\limits_{k=0}^{\infty}\frac{\lambda^k}{k!} 成立

一本书一页中的印刷错误数,某医院在一天内的急诊病人数,某一个地区一个时间间隔内发生交通事故的次数等均服从泊松分布

  • 泊松定理λ>0\lambda >0是一个常数,nn是任意正整数,设npn=λnp_n=\lambda ,则对于任一固定的非负整数kk,有limn(kn)pnk(1pn)nk=λkeλk!\lim_{n\rightarrow\infty}(_k^n)p_n^k(1-p_n)^{n-k}=\frac{\lambda^ke^{-\lambda}}{k!}

证明如下 :

λ=npnpn=λnlimn(kn)pnk(1pn)nk=limnn!k!(nk)!λknk(1λn)nk=limnλkk!(nk+1)!nk(1λn)n(1λn)k=limnλkk![1(11n)(12n)(1k1n)](1λn)n(1λn)klimn[1(11n)(12n)(1k1n)]=1limn(1λn)n=eλlimn(1λn)k=1limn(kn)pnk(1pn)nk=λkeλk!\begin{aligned}\because \lambda = np_n \quad \therefore p_n &= \frac{\lambda}{n} \\ \lim_{n\rightarrow\infty}(_k^n)p_n^k(1-p_n)^{n-k} &= \lim_{n\rightarrow\infty} \frac{n!}{k!(n-k)!}\frac{\lambda^k}{n^k}(1-\frac{\lambda}{n})^{n-k} \\&= \lim_{n\rightarrow\infty}\frac{\lambda^k}{k!}\frac{(n-k+1)!}{n^k}(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k} \\&=\lim_{n\rightarrow\infty}\frac{\lambda^k}{k!}[1\cdot(1-\frac{1}{n})(1-\frac{2}{n})\cdots(1-\frac{k-1}{n})](1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k} \\ \because &\lim_{n\rightarrow\infty}[1\cdot(1-\frac{1}{n})(1-\frac{2}{n})\cdots(1-\frac{k-1}{n})] = 1 \\ &\lim_{n\rightarrow\infty}(1-\frac{\lambda}{n})^{n} = e^{-\lambda}\\ &\lim_{n\rightarrow\infty}(1-\frac{\lambda}{n})^{-k} = 1\\ \therefore \lim_{n\rightarrow\infty}(_k^n)p_n^k(1-p_n)^{n-k} &= \frac{\lambda^ke^{-\lambda}}{k!}\end{aligned}

  • 该定理说明,当nn很大,pp很小时,二项分布可用泊松分布近似 即 (kn)pk(1p)nkλkeλk!(λ=np)(_k^n)p^k(1-p)^{n-k} \approx \frac{\lambda^ke^{-\lambda}}{k!} \quad (\lambda=np)

    一般地,当 n100,np10n \geq 100,np \leq 10 时,即可用泊松分布来近似计算二项分布

3.4 几何分布

  • 在伯努利试验中,记每次试验中事件AA发生的概率为pp,试验进行到事件AA出现时停止,此时所进行的试验次数为XX,其分布率为 P{X=k}=(1p)k1pk=1,2,3,P\{X=k\}=(1-p)^{k-1}p \quad k = 1,2,3,\cdots , 则称XX服从pp为参数的几何分布,记作 XG(p)\pmb{X \sim G(p)}

    必要性证明:

    k=1P{X=k}=k=1(1p)k1p=pk=1(1p)k1=p1(1p)k1(1p)1(1p)=1(1p)k0p1k+k=1P{X=k}=1\begin{aligned}\sum_{k=1}^{\infty}P\{X=k\} &= \sum_{k=1}^{\infty}(1-p)^{k-1}p \\&= p\sum_{k=1}^{\infty}(1-p)^{k-1} \\ &= p \frac{1-(1-p)^{k-1}(1-p)}{1-(1-p)} \\ &= 1-(1-p)^k \\ &\because 0\leq p \leq1 \quad k \rightarrow +\infty \\ \therefore \sum_{k=1}^{\infty}P\{X=k\}&=1 \end{aligned}

  • 几何分布用来描述nn次伯努利试验中,事件AA首次发生的概率

3.5 超几何分布

  • 在产品质量的不放回抽检中,若NN件产品中有MM件次品,抽检nn件时所得次品数X=kX=k,此时有P{X=k}=(kM)(nkNM)(nN)k=0,1,,min{n,M}.P\{X=k\}=\frac{(_k^M)(_{n-k}^{N-M})}{(_n^N)} \quad k= 0,1,\cdots,min\{n,M\}.

    XX服从以nNMn,N,M 为参数的超几何分布,记做XH(n,M,N)\pmb{X\sim H(n,M,N)}

    必要性证明 :

    k=0min{n,M}P{X=k}=k=0min{n,M}(kM)(nkNM)(nN)=1(nN)k=0min{n,M}(kM)(nkNM)(式子中只有k是变量,因此(nN)是常数,可以提出来)=1(nN)(nN)(范德蒙恒等式)=1\begin{aligned}\sum\limits_{k=0}^{min\{n,M\}}P\{X=k\} &=\sum\limits_{k=0}^{min\{n,M\}}\frac{(_k^M)(_{n-k}^{N-M})}{(_n^N)}\\&=\frac{1}{(_n^N)}\cdot\sum\limits_{k=0}^{min\{n,M\}}(_k^M)(_{n-k}^{N-M})\quad(式子中只有k是变量,因此(_n^N)是常数,可以提出来) \\ &= \frac{1}{(_n^N)}\cdot(_n^N) \quad(范德蒙恒等式) \\&=1\end{aligned}

    范德蒙恒等式:Cm+nk=i=0kCmiCnkiC_{m+n}^k = \sum\limits_{i=0}^{k}C_{m}^iC_{n}^{k-i}

    证明比较简单,用二项展开式即可:

    (1+x)m+n=Cm+n0xm+n+Cm+n1xm+n1++Cm+nm+nx0(1)(1+x)m+n=(1+x)m(1+x)n=(Cm0xm+Cm1xm1++Cmmx0)(Cn0xn+Cn1xn1++Cnnx0)=Cm0Cn0xm+n+(Cm0Cn1+Cm1Cn0)xm+n1++CmmCnmx0(2)根据式(1)和式(2)对应项系数相等,可以知道Cm+nk=i=0kCmiCnki\begin{aligned}(1+x)^{m+n} &= C_{m+n}^0x^{m+n}+C_{m+n}^1x^{m+n-1}+\cdots + C_{m+n}^{m+n}x^{0} \quad(1) \\(1+x)^{m+n} &= (1+x)^{m}(1+x)^{n}=(C_{m}^0x^{m}+C_{m}^1x^{m-1}+\cdots + C_{m}^{m}x^{0})(C_{n}^0x^{n}+C_{n}^1x^{n-1}+\cdots + C_{n}^{n}x^{0})\\ &= C_{m}^0C_{n}^0x^{m+n}+(C_{m}^0C_{n}^1+C_{m}^1C_{n}^0)x^{m+n-1}+\cdots+C_{m}^mC_{n}^mx^{0} \quad (2) \\ 根据式(1)和式(2)对应项系数相等,可以知道 C_{m+n}^k = \sum\limits_{i=0}^{k}C_{m}^iC_{n}^{k-i} \end{aligned}

    关于 范德蒙恒等式的证明方式有很多,感兴趣的可以查看相关资料

  • N+N\rightarrow +\infty时,超几何分布可用二项分布近似计算,此时有 MNP\frac{M}{N}\rightarrow P

    证明如下:

    首先我们要明确要证明的等式是 当N+N\rightarrow +\inftyP{X=k}=(kM)(nkNM)(nN)=(kn)pkqnkP\{X=k\}=\frac{(_k^M)(_{n-k}^{N-M})}{(_n^N)} = (_k^n)p^kq^{n-k} ,即 limn+(kM)(nkNM)(nN)=(kn)pkqnk\lim\limits_{n\rightarrow+\infty}\frac{(_k^M)(_{n-k}^{N-M})}{(_n^N)} = (_k^n)p^kq^{n-k}.

    limn+(kM)(nkNM)(nN)=limn+M!k!(Mk)!(NM)!(nk)!(NMn+k)!n!(Nn)!N!=limn+n!k!(nk)!M(M1)(Mk+1)Nk(NM)!(nk)!(NMn+k)!NkN(N1)(Nn+1)(Nk为构造出来的中间量)n!k!(nk)!=(kn),limn+M(M1)(Mk+1)Nk=limn+MN(MN1N)(MNkN+1N)=(MN)k,NkN(N1)(Nn+1)=NkN(N1)(Nk+1)(Nk)(Nk1)(Nn+1)=11(11N)(12N)(1kN+1N)(Nk)(Nk1)(Nn+1)limn+NkN(N1)(Nn+1)=limn+1(Nk)(Nk1)(Nn+1),limn+(kM)(nkNM)(nN)=limn+(kn)(MN)k(NM)(NM1)(NMn+k+1)NnkNnk(Nk)(Nk1)(Nn+1)(Nnk为构造出来的中间量)=limn+(kn)(MN)k[(1MN)(1MN1N)(1MNnk1N)][1(1kN)(1k+1N)(1n1N)]=(kn)(MN)k(1MN)nk命题得证\begin{aligned} \lim_{n\rightarrow+\infty}\frac{(_k^M)(_{n-k}^{N-M})}{(_n^N)} &= \lim_{n\rightarrow+\infty}\frac{M!}{k!(M-k)!}\frac{(N-M)!}{(n-k)!(N-M-n+k)!}\frac{n!(N-n)!}{N!} \\ &= \lim_{n\rightarrow+\infty} \frac{n!}{k!(n-k)!}\frac{M(M-1)\cdots(M-k+1)}{N^k}\frac{(N-M)!}{(n-k)!(N-M-n+k)!} \frac{N^k}{N(N-1)\cdots(N-n+1)} \quad (N^k 为构造出来的中间量) \\ &\frac{n!}{k!(n-k)!} = (_k^n) ,\\ & \lim_{n\rightarrow+\infty}\frac{M(M-1)\cdots(M-k+1)}{N^k} = \lim_{n\rightarrow+\infty}\frac{M}{N}(\frac{M}{N}-\frac{1}{N})\cdots(\frac{M}{N}-\frac{k}{N}+\frac{1}{N})=(\frac{M}{N})^k,\\ &\frac{N^k}{N(N-1)\cdots(N-n+1)}= \frac{N^k}{N(N-1)\cdots(N-k+1)(N-k)(N-k-1)\cdots(N-n+1)} = \frac{1}{1\cdot(1-\frac{1}{N})(1-\frac{2}{N})\cdots(1-\frac{k}{N}+\frac{1}{N})(N-k)(N-k-1)\cdots(N-n+1)} \\ &\therefore \lim_{n\rightarrow+\infty}\frac{N^k}{N(N-1)\cdots(N-n+1)}= \lim_{n\rightarrow+\infty}\frac{1}{(N-k)(N-k-1)\cdots(N-n+1)},\\ \therefore \lim_{n\rightarrow+\infty}\frac{(_k^M)(_{n-k}^{N-M})}{(_n^N)} &=\lim_{n\rightarrow+\infty}(_k^n)(\frac{M}{N})^k\frac{(N-M)(N-M-1)\cdots(N-M-n+k+1)}{N^{n-k}}\frac{N^{n-k}}{(N-k)(N-k-1)\cdots(N-n+1)} \quad (N^{n-k}为构造出来的中间量) \\ &=\lim_{n\rightarrow+\infty}(_k^n)(\frac{M}{N})^k[(1-\frac{M}{N})(1-\frac{M}{N}-\frac{1}{N})\cdots(1-\frac{M}{N}-\frac{n-k-1}{N})][\frac{1}{(1-\frac{k}{N})(1-\frac{k+1}{N})\cdots(1-\frac{n-1}{N})}] \\ &= (_k^n)(\frac{M}{N})^k(1-\frac{M}{N})^{n-k} \\ \therefore 命题得证 \end{aligned}

    • 需要注意的是,前面我们说到,计算二项分布时,可用泊松分布近似,因此在利用二项分布近似计算超几何分布时,可根据情况,对二项分布使用泊松进行分布进行近似计算