概率论公式

75 阅读2分钟

我们做随机实验(ramdom trial),记为 EE ,把实验的所有结果的集合叫作样本空间(sample sapce),记为 Ω\Omega

随机事件(random event) 是样本空间的子集,简单称为事件

频率 PP

那么,我们假设在同一条件下进行了 nn 次实验,再假设随机事件 AA 在实验中发生了 kk 次,那么就事件的频率为 :

fn(A)=knf_n(A)=\frac{k}{n}

nn 很大的时候,频率 kn\frac{k}{n} 趋于某一数值 pp ,则称 pp 为事件 AA 发生的概率,记为:

P(A)=pP(A) = p

公理化的定义是说,P(A)P(A) 满足以下公理:

  • 非负性:P(A)0P(A)\geq0

  • 规范性:P(Ω)=1P(\Omega) = 1

  • 可数可加性:P(n=1An)=n=1P(An)P(\cup^{\infty}_{n=1}A_n) = \sum^{\infty}_{n=1}P(A_n)

条件概率 P(AB)=P(AB)P(B)P(A|B) = \frac{P(AB)}{P(B)}

我们说,在事件 BB 发生的前提下,事件 AA 发生的条件概率为:

P(AB)=P(AB)P(B)P(A|B) = \frac{P(AB)}{P(B)}

条件概率 P(AB)P(A|B) 满足以下公理:

  • 对任一事件 AA ,有 P(AB)0P(A|B) \geq 0
  • P(ΩB)=1P(\Omega|B) = 1
  • P(i=1AiB)=i=1P(AiB)P(\cup^{\infty}_{i=1}A_i|B) = \sum^{\infty}_{i=1}P(A_i|B)

另外,乘法公式是说,当 P(B)>0P(B) > 0 时,则有:

P(AB)=P(B)P(AB)P(AB) = P(B)P(A|B)

全概率公式 P(B)=i=1nP(Ai)P(BAi)P(B)=\sum^{n}_{i=1}P(A_i)P(B|A_i)

我们定义 A1,A2,...,AnA_1, A_2, ..., A_n 为样本空间 Ω\Omega 的一个划分,它满足:

  • 划分中的任两个事件之间不相容
  • 划分中的所有事件的总和构成样本空间

那么,这里我们认定事件 BB 为样本空间 Ω\Omega 中的任意事件,因为 P(BΩ)=P(B)P(Ω)=P(B)1=P(B)P(B\Omega) = P(B) * P(\Omega) = P(B) * 1 = P(B)

,所以这里给出公式推理:

P(B)=P(BΩ)=P(B(A1A2An))=P(BA1BA2BAn)=P(BA1)+P(BA2)++P(BAn)=P(A1)P(BA1)+P(A2)P(BA2)++P(An)P(BAn)\begin{aligned} P(B) &= P(B\Omega)= P(B(A_1 \cup A_2 \cup \cdots \cup A_n))\\ &= P(BA_1 \cup BA_2 \cup \cdots \cup BA_n) \\ &= P(BA_1) + P(BA_2) + \cdots + P(BA_n) \\ &= P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + \cdots + P(A_n)P(B|A_n) \end{aligned}

贝叶斯公式 P(AiB)=P(BAi)P(Ai)j=1nP(BAi)P(Aj)P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum^{n}_{j=1}P(B|A_i)P(A_j)}

贝叶斯公式由条件概率和全概率公式组合而来,推理如下:

P(AiB)=P(AiB)P(B)=P(BAi)P(B)=P(BAi)P(Ai)P(B)=P(BAi)P(Ai)j=1nP(BAj)P(Aj)\begin{aligned} P(A_i|B) &= \frac{P(A_iB)}{P(B)} = \frac{P(BA_i)}{P(B)}\\ &= \frac{P(B|A_i)P(A_i)}{P(B)} \\ &= \frac{P(B|A_i)P(A_i)}{\sum^{n}_{j=1}P(B|A_j)P(A_j)} \end{aligned}

一般来说,我们将划分 A1,A2,...,AnA_1,A_2,...,A_n 作为已知的结果,是说我们通过实验或者以往的信息经验之类的得到了 P(Aj)P(A_j) 的值,所以我们称 P(Aj)P(A_j)先验概率。此外,我们称 P(AiB)P(A_i|B)后验概率,因为 P(AiB)P(A_i|B) 是说在事件 BB 发生后,AiA_i 再发生的概率。

通俗来说,就是我们通过了那么多的事件 A1,A2,...,AnA_1,A_2,...,A_n 得到了结果,也就是事件 BB 的概率,但是我们还想要知道这个结果,也就是事件 BB 发生的情况下,某个 AjA_j 发生的概率是多少这样。

分布函数 F(x)=P{Xx}F(x)=P\{X \leq x \}

我们这里给出一个函数为:

X=X(A)X = X(A)

这里,我们把样本空间 Ω\Omega 中的每一个结果,或者说每一个事件都放入函数里,得到一个实数,比如 X1=X(A1),X2=X(A2),,Xn=X(An)X_1 = X(A_1),X_2=X(A_2),\dots,X_n=X(A_n)

这样做的好处是,我们将一些实验的结果用数字进行替代,比如,我们要在一个装有红、绿、蓝小球的箱子里摸球,我们可以用数字来替代红、绿、蓝的结果,X()=1,X(绿)=2X()=3X(红)=1,X(绿)=2,X(蓝)=3

因为我们的函数 XX 的值会随着实验的不同结果而变化,所以我们称 XX 函数为随机变量(random variable)

当然,我们一般用区间对 XX 的值进行描述,因为有时候不能将每一个值都列出来,所以我们会说随机变量 XX 的取值落在区间 (x1,x2](x_1,x_2] 的概率,就是要求 P{x1Xx2}P\{x_1\leq X \leq x_2\} 的值。

P{x1Xx2}P\{x_1\leq X \leq x_2\} 的值就相当于要计算 P{Xx2}P{Xx1}P\{X \leq x_2\} - P\{ X \leq x_1\} 的值,那么就很容易知道我们其实是要研究 P{Xx}P\{X \leq x \} 的概率问题了。因为它的值也是随着不同的 xx 而变化的,所以我们叫 P{Xx}P\{X \leq x \}P{Xx}P\{X \leq x \} ,这里给出它的公式:

F(x)=P{Xx}F(x) = P\{X \leq x\}

分布函数有以下特点:

  • F(x2)F(x1)=P{x1<Xx2}>0F(x_2) - F(x_1) = P\{x_1 < X \leq x_2 \} > 0

  • 0F(x)10 \leq F(x) \leq1

我们在这里对随机变量有个区分:

  • 离散型随机变量:随机变量的取值为有限个或者可数无穷多个

  • 连续型随机变量:随机变量的取值连续地充满某个区间

离散型随机变量-两点分布 X(01)X \sim (0-1)

当随机变量 XX 的取值只有 x1x_1x2x_2 这两个结果时,它的分布为:

P{X=x1}=p,P{X=x2}=1p,0<p<1\begin{aligned} P\{ X=x_1 \} &= p \quad , \\ P\{ X=x_2 \} &= 1 - p \quad, \quad0 < p < 1 \\ \end{aligned}

我们称 XX 服从参数为 pp两点分布,也叫 (0-1) 分布,记作 X(01)X \sim (0-1)

离散型随机变量-二项分布 Xb(n,p)X\sim b(n, p)

当随机变量 XX 的分布满足:

P{X=k}=Cnkpk(1p)nkP\{X=k\} = C_n^k p ^k(1-p)^{n-k}

则称 XX 为服从参数为 nn , pp二项分布(binomial distribution),记作 Xb(n,p)X\sim b(n, p)

一般我们会使用 泊松(Posisson)定理 来进行近似计算,这里做个简单介绍。

npn=λnp_n = \lambda ,对任意非负整数有:

limxCnkpnk(1p)nk=λkeλk!\lim\limits_{x\rightarrow\infty}C^k_np^k_n(1-p)^{n-k}=\frac{\lambda^ke^{-\lambda}}{k!}

离散型随机变量-泊松分布 XP(λ)X \sim P(\lambda)

当随机变量 XX 的分布满足:

P{X=k}=λkeλk!,k=0,1,2,,P\{X=k\} = \frac{\lambda^ke^{-\lambda}}{k!} \quad,\quad k=0,1,2,\dots,

则称 XX 为服从参数为 λ\lambda 的泊松分布(poisson distribution),记作 XP(λ)X \sim P(\lambda),其中 λ\lambda 为常数。

概率密度函数 f(x)f(x)

这里介绍一个概念,概率密度函数(density sunction)。它可以用来描述随机变量 XX 的分布函数 F(x)F(x)

F(x)=xf(t)dxF(x) = \int^x_{\infty}f(t)dx

它有以下特点:

  • f(x)0f(x) \geq 0

  • +f(x)dx=1\int^{{+\infty}}_{-\infty}f(x)dx = 1

  • P{x1<X<x2}=F(x2)F(x1)=x1x2f(t)dxP\{ x_1 < X <x_2 \} = F(x_2) - F(x_1) = \int^{x_2}_{x_1}f(t)dx

连续型随机变量-均匀分布 XU(a,b)X\sim U(a,b)

当随机变量 XX 具有概率密度:

f(x)={1ba,a<x<b,0,其他.f(x)=\left\{ \begin{aligned} & \frac{1}{b-a},& a<x<b,\\ &0,& 其他. \end{aligned} \right.

则称 XX 在区间 (a,b)(a, b) 上服从均匀分布(unniform distribution),记作 XU(a,b)X\sim U(a,b)

积分求得 XX 的分布函数:

F(x)={0,x<a,xaba,ax<b,1,xb.F(x)=\left\{ \begin{aligned} & 0,& x < a,\\ & \frac{x-a}{b-a},&a \leq x < b,\\ & 1,& x \geq b. \end{aligned} \right.

连续型随机变量-指数分布 XE(λ)X\sim E(\lambda)

当随机变量 XX 具有概率密度:

f(x)={λeλx,x>0,0,x0.f(x)=\left\{ \begin{aligned} & \lambda e^{-\lambda x}, &x > 0,\\ &0,& x \leq 0. \end{aligned} \right.

则称 XX 服从 λ\lambda指数分布(exponential distribution),记作 XE(λ)X\sim E(\lambda),其中 λ\lambda 为常数。

积分求得 XX 的分布函数:

F(x)={1eλx,x>0,0,x0.F(x)=\left\{ \begin{aligned} & 1-e^{-\lambda x},& x > 0,\\ & 0,&x \leq 0.\\ \end{aligned} \right.

连续型随机变量-正态分布 XN(μ,σ2)X \sim N(\mu, \sigma^2)

当随机变量 XX 具有概率密度:

f(x)=12πσe(xμ)22σ2,<x<+f(x)= \frac{1}{\sqrt{2\pi}\sigma}e^{- \frac{(x-\mu)^2}{2 \sigma^2}},-\infty<x<+\infty

则称 XX 服从参数为 μ\mu , σ\sigma正态分布(normal distribution),记作 XN(μ,σ2)X \sim N(\mu, \sigma^2), 其中 μ\muσ(σ>0)\sigma (\sigma>0) 为常数。

积分求得 XX 的分布函数:

F(x)=12πσxe(tμ)22σ2dtF(x) = \frac{1}{\sqrt{2\pi}\sigma}\int^x_{-\infty}e^{-\frac{(t-\mu)^2}{2 \sigma^2}}dt

特别的,当 μ=0,σ=1\mu=0,\sigma=1时,我们称 XX 服从标准正态分布 N(0,1)N(0,1),这时它的概率密度表示为:

φ(x)=12πσex22\varphi(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2}}

分布函数表示为:

ϕ(x)=12πxet22dt\phi(x)=\frac{1}{\sqrt{2\pi}} \int ^x _{-\infty} e^{\frac{t^2}{2}}dt

一般地,若 XN(μ,σ2)X \sim N(\mu, \sigma^2) ,那么 XμσN(0,1)\frac{X-\mu}{\sigma}\sim N(0, 1),我们可以通过正态函数表来计算正态分布:

P{μσ<X<μ+σ}=ϕ(1)ϕ(1)=2ϕ(1)1=0.6826P{μ2σ<X<μ+2σ}=ϕ(2)ϕ(2)=2ϕ(2)1=0.9544P{μ3σ<X<μ+3σ}=ϕ(3)ϕ(3)=2ϕ(3)1=0.9974\begin{aligned} P\{ \mu-\sigma < X < \mu + \sigma \} = \phi(1) - \phi(-1) = 2\phi(1) -1 = 0.6826\\ P\{ \mu-2\sigma < X < \mu + 2\sigma \} = \phi(2) - \phi(-2) = 2\phi(2) -1 = 0.9544\\ P\{ \mu-3\sigma < X < \mu + 3\sigma \}= \phi(3) - \phi(-3) = 2\phi(3) -1 = 0.9974 \end{aligned}

联合分布函数 F(x,y)=P{Xx,Yy}F(x,y) = P\{ X \leq x, Y \leq y\}

在这里,我们考虑两个随机变量 X(e)X(e)Y(e)Y(e) 的组合。我们把 (X(e),Y(e))(X(e), Y(e)) 称为二维随机向量(2-dimensional random vector),简单记作 (X,Y)(X, Y)

显然,我们可以得到二维随机向量 (X,Y)(X, Y) 的分布函数,或者说,随机变量 XX 和随机变量 YY联合分布函数

F(x,y)=P{Xx,Yy}F(x,y) = P\{ X \leq x, Y \leq y\}

边缘分布函数 FX(x),FY(y)F_X(x), F_Y(y)

我们说到联合分布函数是二维随机变量 (X,Y)(X, Y) 的分布函数,自然随机变量 XXYY 是有分布函数的,那么我们通过联合分布函数来求得变量 XXYY 的分布函数,就可以得二维随机变量 (X,Y)(X, Y) 关于 XXYY 的边缘分布函数(marginal distribution function):

FX(x)=P{Xx}=P{Xx,Y<+}=F(x,+)FY(y)=P{Yy}=P{X<+,Yy}=F(+,y)\begin{aligned} F_X(x) &= P\{X \leq x \} = P\{X \leq x, Y < +\infty \} = F(x, +\infty)\\ F_Y(y) &= P\{Y \leq y \} = P\{X < +\infty, Y \leq y \} = F(+\infty, y) \end{aligned}

数学期望 E(X)E(X)

我们现在知道一个离散型变量 XX 的分布律为:

P{X=xk}=pk,k=1,2.P\{X = x_k\} = p_k, k=1,2.\dots

如果满足条件 k=1xkpk\sum^{\infty}_{k=1}x_kp_k 绝对收敛,那么有数学期望(mathematical expectation),记作 E(X)E(X),即:

E(X)=k=1xkpkE(X) =\sum^{\infty}_{k=1}x_kp_k

当然,如果是一个连续型的随机变量 XX 的话,我们就假设它有概率密度函数 f(x)f(x)

如果满足积分 +xf(x)dx\int^{+\infty}_{-\infty}xf(x)dx 绝对收敛,那么同样有数学期望为:

E(X)=+xf(x)dxE(X) = \int^{+\infty}_{-\infty}xf(x)dx

数学期望有一些性质:

  • E(c)=cE(c) = c ,其中 cc 为常数;
  • E(cX)=cE(X)E(cX) = cE(X)
  • E(X+Y)=E(X)+E(Y)E(X+Y) = E(X) + E(Y)
  • E(XY)=E(X)E(Y)E(XY) = E(X)E(Y),其中 X,YX,Y 相互独立。
(01)(0-1)分布二项分布泊松分布均匀分布指数分布正态分布
E(X)E(X)ppnpnpλ\lambdaa+b2\frac{a+b}{2}1λ\frac{1}{\lambda}μ\mu

方差 D(X)D(X)

数学期望描述了随机变量取值的“平均数”,而**方差(variance)**是用来度量随机变量取值的分散程度的,记作 D(X)D(X),即:

D(X)=E[XE(X)]2=E(X2)[E(X)]2D(X) = E[X-E(X)]^2 = E(X^2) - [E(X)]^2

其中,我们称 D(X)\sqrt{D(X)} 为随机变量 XX标准差(standard deviation),或均方差(mean square deviation),记作 σ(X) \sigma(X)

方差有一些性质:

  • D(c)=0D(c) = 0,其中 cc 为常数;
  • D(cX)=c2D(X)D(cX) = c^2D(X)
  • D(X±Y)=D(X)+D(Y)±2E[(XE(X))(YE(Y))]D(X±Y) = D(X) + D(Y) ±2E[(X-E(X))(Y-E(Y))]
  • D(X±Y)=D(X)+D(Y)D(X±Y) = D(X) + D(Y),其中 X,YX,Y 相互独立。
(01)(0-1)分布二项分布泊松分布均匀分布指数分布正态分布
D(X)D(X)p(1p)p(1-p)np(1p)np(1-p)λ\lambda(a+b)212\frac{(a+b)^2}{12}1λ2\frac{1}{\lambda^2}σ2\sigma^2

协方差 cov(X,Y)cov(X, Y)

数学期望和方差反映的都是随机变量自身的内容,这里我们考虑随机变量相互之间的影响,一般会使用协方差(convariance) 来描述,即:

cov(X,Y)=E{[XE(X)][YE(Y)]}cov(X, Y) = E\{[X-E(X)][Y-E(Y)]\}

其中,我们称 cov(X,Y)D(X)D(Y)\frac{cov(X, Y)}{\sqrt{D(X)}{\sqrt{D(Y)}}} 为随机变量 X,YX,Y相关系数(correlation corfficient),或标准协方差(standard convariance),记作 ρXY\rho_{XY} ,即:

ρXY=cov(X,Y)D(X)D(Y)\rho_{XY} =\frac{cov(X, Y)}{\sqrt{D(X)}{\sqrt{D(Y)}}}

一些实用的计算公式:

D(X±Y)=D(X)+D(Y)±2cov(X,Y)cov(X,Y)=E(XY)E(X)E(Y)D(X±Y) = D(X) + D(Y) ± 2cov(X, Y)\\ cov(X, Y) = E(XY) - E(X)E(Y)