我们做随机实验(ramdom trial),记为 E ,把实验的所有结果的集合叫作样本空间(sample sapce),记为 Ω 。
随机事件(random event) 是样本空间的子集,简单称为事件。
频率 P
那么,我们假设在同一条件下进行了 n 次实验,再假设随机事件 A 在实验中发生了 k 次,那么就事件的频率为 :
fn(A)=nk
当 n 很大的时候,频率 nk 趋于某一数值 p ,则称 p 为事件 A 发生的概率,记为:
公理化的定义是说,P(A) 满足以下公理:
-
非负性:P(A)≥0
-
规范性:P(Ω)=1
-
可数可加性:P(∪n=1∞An)=∑n=1∞P(An)
条件概率 P(A∣B)=P(B)P(AB)
我们说,在事件 B 发生的前提下,事件 A 发生的条件概率为:
P(A∣B)=P(B)P(AB)
条件概率 P(A∣B) 满足以下公理:
- 对任一事件 A ,有 P(A∣B)≥0
- P(Ω∣B)=1
- P(∪i=1∞Ai∣B)=∑i=1∞P(Ai∣B)
另外,乘法公式是说,当 P(B)>0 时,则有:
P(AB)=P(B)P(A∣B)
全概率公式 P(B)=∑i=1nP(Ai)P(B∣Ai)
我们定义 A1,A2,...,An 为样本空间 Ω 的一个划分,它满足:
- 划分中的任两个事件之间不相容
- 划分中的所有事件的总和构成样本空间
那么,这里我们认定事件 B 为样本空间 Ω 中的任意事件,因为 P(BΩ)=P(B)∗P(Ω)=P(B)∗1=P(B)
,所以这里给出公式推理:
P(B)=P(BΩ)=P(B(A1∪A2∪⋯∪An))=P(BA1∪BA2∪⋯∪BAn)=P(BA1)+P(BA2)+⋯+P(BAn)=P(A1)P(B∣A1)+P(A2)P(B∣A2)+⋯+P(An)P(B∣An)
贝叶斯公式 P(Ai∣B)=∑j=1nP(B∣Ai)P(Aj)P(B∣Ai)P(Ai)
贝叶斯公式由条件概率和全概率公式组合而来,推理如下:
P(Ai∣B)=P(B)P(AiB)=P(B)P(BAi)=P(B)P(B∣Ai)P(Ai)=∑j=1nP(B∣Aj)P(Aj)P(B∣Ai)P(Ai)
一般来说,我们将划分 A1,A2,...,An 作为已知的结果,是说我们通过实验或者以往的信息经验之类的得到了 P(Aj) 的值,所以我们称 P(Aj) 为先验概率。此外,我们称 P(Ai∣B) 为后验概率,因为 P(Ai∣B) 是说在事件 B 发生后,Ai 再发生的概率。
通俗来说,就是我们通过了那么多的事件 A1,A2,...,An 得到了结果,也就是事件 B 的概率,但是我们还想要知道这个结果,也就是事件 B 发生的情况下,某个 Aj 发生的概率是多少这样。
分布函数 F(x)=P{X≤x}
我们这里给出一个函数为:
这里,我们把样本空间 Ω 中的每一个结果,或者说每一个事件都放入函数里,得到一个实数,比如 X1=X(A1),X2=X(A2),…,Xn=X(An) 。
这样做的好处是,我们将一些实验的结果用数字进行替代,比如,我们要在一个装有红、绿、蓝小球的箱子里摸球,我们可以用数字来替代红、绿、蓝的结果,X(红)=1,X(绿)=2,X(蓝)=3。
因为我们的函数 X 的值会随着实验的不同结果而变化,所以我们称 X 函数为随机变量(random variable)。
当然,我们一般用区间对 X 的值进行描述,因为有时候不能将每一个值都列出来,所以我们会说随机变量 X 的取值落在区间 (x1,x2] 的概率,就是要求 P{x1≤X≤x2} 的值。
求 P{x1≤X≤x2} 的值就相当于要计算 P{X≤x2}−P{X≤x1} 的值,那么就很容易知道我们其实是要研究 P{X≤x} 的概率问题了。因为它的值也是随着不同的 x 而变化的,所以我们叫 P{X≤x} 为P{X≤x} ,这里给出它的公式:
F(x)=P{X≤x}
分布函数有以下特点:
我们在这里对随机变量有个区分:
离散型随机变量-两点分布 X∼(0−1)
当随机变量 X 的取值只有 x1 和 x2 这两个结果时,它的分布为:
P{X=x1}P{X=x2}=p,=1−p,0<p<1
我们称 X 服从参数为 p 的两点分布,也叫 (0-1) 分布,记作 X∼(0−1)。
离散型随机变量-二项分布 X∼b(n,p)
当随机变量 X 的分布满足:
P{X=k}=Cnkpk(1−p)n−k
则称 X 为服从参数为 n , p 的二项分布(binomial distribution),记作 X∼b(n,p)。
一般我们会使用 泊松(Posisson)定理 来进行近似计算,这里做个简单介绍。
设 npn=λ ,对任意非负整数有:
x→∞limCnkpnk(1−p)n−k=k!λke−λ
离散型随机变量-泊松分布 X∼P(λ)
当随机变量 X 的分布满足:
P{X=k}=k!λke−λ,k=0,1,2,…,
则称 X 为服从参数为 λ 的泊松分布(poisson distribution),记作 X∼P(λ),其中 λ 为常数。
概率密度函数 f(x)
这里介绍一个概念,概率密度函数(density sunction)。它可以用来描述随机变量 X 的分布函数 F(x):
F(x)=∫∞xf(t)dx
它有以下特点:
-
f(x)≥0
-
∫−∞+∞f(x)dx=1
-
P{x1<X<x2}=F(x2)−F(x1)=∫x1x2f(t)dx
连续型随机变量-均匀分布 X∼U(a,b)
当随机变量 X 具有概率密度:
f(x)=⎩⎨⎧b−a1,0,a<x<b,其他.
则称 X 在区间 (a,b) 上服从均匀分布(unniform distribution),记作 X∼U(a,b)
积分求得 X 的分布函数:
F(x)=⎩⎨⎧0,b−ax−a,1,x<a,a≤x<b,x≥b.
连续型随机变量-指数分布 X∼E(λ)
当随机变量 X 具有概率密度:
f(x)={λe−λx,0,x>0,x≤0.
则称 X 服从 λ 的指数分布(exponential distribution),记作 X∼E(λ),其中 λ 为常数。
积分求得 X 的分布函数:
F(x)={1−e−λx,0,x>0,x≤0.
连续型随机变量-正态分布 X∼N(μ,σ2)
当随机变量 X 具有概率密度:
f(x)=2πσ1e−2σ2(x−μ)2,−∞<x<+∞
则称 X 服从参数为 μ , σ 的正态分布(normal distribution),记作 X∼N(μ,σ2), 其中 μ 和 σ(σ>0) 为常数。
积分求得 X 的分布函数:
F(x)=2πσ1∫−∞xe−2σ2(t−μ)2dt
特别的,当 μ=0,σ=1时,我们称 X 服从标准正态分布 N(0,1),这时它的概率密度表示为:
φ(x)=2πσ1e−2x2
分布函数表示为:
ϕ(x)=2π1∫−∞xe2t2dt
一般地,若 X∼N(μ,σ2) ,那么 σX−μ∼N(0,1),我们可以通过正态函数表来计算正态分布:
P{μ−σ<X<μ+σ}=ϕ(1)−ϕ(−1)=2ϕ(1)−1=0.6826P{μ−2σ<X<μ+2σ}=ϕ(2)−ϕ(−2)=2ϕ(2)−1=0.9544P{μ−3σ<X<μ+3σ}=ϕ(3)−ϕ(−3)=2ϕ(3)−1=0.9974
联合分布函数 F(x,y)=P{X≤x,Y≤y}
在这里,我们考虑两个随机变量 X(e) 和 Y(e) 的组合。我们把 (X(e),Y(e)) 称为二维随机向量(2-dimensional random vector),简单记作 (X,Y)。
显然,我们可以得到二维随机向量 (X,Y) 的分布函数,或者说,随机变量 X 和随机变量 Y 的联合分布函数:
F(x,y)=P{X≤x,Y≤y}
边缘分布函数 FX(x),FY(y)
我们说到联合分布函数是二维随机变量 (X,Y) 的分布函数,自然随机变量 X 和 Y 是有分布函数的,那么我们通过联合分布函数来求得变量 X 和 Y 的分布函数,就可以得二维随机变量 (X,Y) 关于 X 和 Y 的边缘分布函数(marginal distribution function):
FX(x)FY(y)=P{X≤x}=P{X≤x,Y<+∞}=F(x,+∞)=P{Y≤y}=P{X<+∞,Y≤y}=F(+∞,y)
数学期望 E(X)
我们现在知道一个离散型变量 X 的分布律为:
P{X=xk}=pk,k=1,2.…
如果满足条件 ∑k=1∞xkpk 绝对收敛,那么有数学期望(mathematical expectation),记作 E(X),即:
E(X)=k=1∑∞xkpk
当然,如果是一个连续型的随机变量 X 的话,我们就假设它有概率密度函数 f(x) 。
如果满足积分 ∫−∞+∞xf(x)dx 绝对收敛,那么同样有数学期望为:
E(X)=∫−∞+∞xf(x)dx
数学期望有一些性质:
- E(c)=c ,其中 c 为常数;
- E(cX)=cE(X);
- E(X+Y)=E(X)+E(Y);
- E(XY)=E(X)E(Y),其中 X,Y 相互独立。
| (0−1)分布 | 二项分布 | 泊松分布 | 均匀分布 | 指数分布 | 正态分布 |
|---|
| E(X) | p | np | λ | 2a+b | λ1 | μ |
方差 D(X)
数学期望描述了随机变量取值的“平均数”,而**方差(variance)**是用来度量随机变量取值的分散程度的,记作 D(X),即:
D(X)=E[X−E(X)]2=E(X2)−[E(X)]2
其中,我们称 D(X) 为随机变量 X 的标准差(standard deviation),或均方差(mean square deviation),记作 σ(X)。
方差有一些性质:
- D(c)=0,其中 c 为常数;
- D(cX)=c2D(X);
- D(X±Y)=D(X)+D(Y)±2E[(X−E(X))(Y−E(Y))];
- D(X±Y)=D(X)+D(Y),其中 X,Y 相互独立。
| (0−1)分布 | 二项分布 | 泊松分布 | 均匀分布 | 指数分布 | 正态分布 |
|---|
| D(X) | p(1−p) | np(1−p) | λ | 12(a+b)2 | λ21 | σ2 |
协方差 cov(X,Y)
数学期望和方差反映的都是随机变量自身的内容,这里我们考虑随机变量相互之间的影响,一般会使用协方差(convariance) 来描述,即:
cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
其中,我们称 D(X)D(Y)cov(X,Y) 为随机变量 X,Y 的相关系数(correlation corfficient),或标准协方差(standard convariance),记作 ρXY,即:
ρXY=D(X)D(Y)cov(X,Y)
一些实用的计算公式:
D(X±Y)=D(X)+D(Y)±2cov(X,Y)cov(X,Y)=E(XY)−E(X)E(Y)