概率论公式当开始提到概率论，一切都要从这里开始：我们开始做随机实验，把实验的所有结果的集合叫样本空间，随机事件是样本空间

我们做随机实验(ramdom trial)，记为 $E$ ，把实验的所有结果的集合叫作样本空间(sample sapce)，记为 $\Omega$ 。

随机事件(random event) 是样本空间的子集，简单称为事件。

频率 $P$

那么，我们假设在同一条件下进行了 $n$ 次实验，再假设随机事件 $A$ 在实验中发生了 $k$ 次，那么就事件的频率为 :

f_n(A)=\frac{k}{n}

当 $n$ 很大的时候，频率 $\frac{k}{n}$ 趋于某一数值 $p$ ，则称 $p$ 为事件 $A$ 发生的概率，记为：

P(A) = p

公理化的定义是说， $P(A)$ 满足以下公理：

非负性： $P(A)\geq0$
规范性： $P(\Omega) = 1$
可数可加性： $P(\cup^{\infty}_{n=1}A_n) = \sum^{\infty}_{n=1}P(A_n)$

条件概率 $P(A|B) = \frac{P(AB)}{P(B)}$

我们说，在事件 $B$ 发生的前提下，事件 $A$ 发生的条件概率为:

P(A|B) = \frac{P(AB)}{P(B)}

条件概率 $P(A|B)$ 满足以下公理：

对任一事件 $A$ ，有 $P(A|B) \geq 0$
$P(\Omega|B) = 1$
$P(\cup^{\infty}_{i=1}A_i|B) = \sum^{\infty}_{i=1}P(A_i|B)$

另外，乘法公式是说，当 $P(B) > 0$ 时，则有：

P(AB) = P(B)P(A|B)

全概率公式 $P(B)=\sum^{n}_{i=1}P(A_i)P(B|A_i)$

我们定义 $A_1, A_2, ..., A_n$ 为样本空间 $\Omega$ 的一个划分，它满足：

划分中的任两个事件之间不相容
划分中的所有事件的总和构成样本空间

那么，这里我们认定事件 $B$ 为样本空间 $\Omega$ 中的任意事件，因为 $P(B\Omega) = P(B) * P(\Omega) = P(B) * 1 = P(B)$

，所以这里给出公式推理：

\begin{aligned} P(B) &= P(B\Omega)= P(B(A_1 \cup A_2 \cup \cdots \cup A_n))\\ &= P(BA_1 \cup BA_2 \cup \cdots \cup BA_n) \\ &= P(BA_1) + P(BA_2) + \cdots + P(BA_n) \\ &= P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + \cdots + P(A_n)P(B|A_n) \end{aligned}

贝叶斯公式 $P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum^{n}_{j=1}P(B|A_i)P(A_j)}$

贝叶斯公式由条件概率和全概率公式组合而来，推理如下：

\begin{aligned} P(A_i|B) &= \frac{P(A_iB)}{P(B)} = \frac{P(BA_i)}{P(B)}\\ &= \frac{P(B|A_i)P(A_i)}{P(B)} \\ &= \frac{P(B|A_i)P(A_i)}{\sum^{n}_{j=1}P(B|A_j)P(A_j)} \end{aligned}

一般来说，我们将划分 $A_1,A_2,...,A_n$ 作为已知的结果，是说我们通过实验或者以往的信息经验之类的得到了 $P(A_j)$ 的值，所以我们称 $P(A_j)$ 为先验概率。此外，我们称 $P(A_i|B)$ 为后验概率，因为 $P(A_i|B)$ 是说在事件 $B$ 发生后， $A_i$ 再发生的概率。

通俗来说，就是我们通过了那么多的事件 $A_1,A_2,...,A_n$ 得到了结果，也就是事件 $B$ 的概率，但是我们还想要知道这个结果，也就是事件 $B$ 发生的情况下，某个 $A_j$ 发生的概率是多少这样。

分布函数 $F(x)=P\{X \leq x \}$

我们这里给出一个函数为：

X = X(A)

这里，我们把样本空间 $\Omega$ 中的每一个结果，或者说每一个事件都放入函数里，得到一个实数，比如 $X_1 = X(A_1),X_2=X(A_2),\dots,X_n=X(A_n)$ 。

这样做的好处是，我们将一些实验的结果用数字进行替代，比如，我们要在一个装有红、绿、蓝小球的箱子里摸球，我们可以用数字来替代红、绿、蓝的结果， $X(红)=1,X(绿)=2，X(蓝)=3$ 。

因为我们的函数 $X$ 的值会随着实验的不同结果而变化，所以我们称 $X$ 函数为随机变量(random variable)。

当然，我们一般用区间对 $X$ 的值进行描述，因为有时候不能将每一个值都列出来，所以我们会说随机变量 $X$ 的取值落在区间 $(x_1,x_2]$ 的概率，就是要求 $P\{x_1\leq X \leq x_2\}$ 的值。

求 $P\{x_1\leq X \leq x_2\}$ 的值就相当于要计算 $P\{X \leq x_2\} - P\{ X \leq x_1\}$ 的值，那么就很容易知道我们其实是要研究 $P\{X \leq x \}$ 的概率问题了。因为它的值也是随着不同的 $x$ 而变化的，所以我们叫 $P\{X \leq x \}$ 为 $P\{X \leq x \}$ ，这里给出它的公式：

F(x) = P\{X \leq x\}

分布函数有以下特点：

$F(x_2) - F(x_1) = P\{x_1 < X \leq x_2 \} > 0$
$0 \leq F(x) \leq1$

我们在这里对随机变量有个区分：

离散型随机变量：随机变量的取值为有限个或者可数无穷多个
连续型随机变量：随机变量的取值连续地充满某个区间

离散型随机变量-两点分布 $X \sim (0-1)$

当随机变量 $X$ 的取值只有 $x_1$ 和 $x_2$ 这两个结果时，它的分布为：

\begin{aligned} P\{ X=x_1 \} &= p \quad , \\ P\{ X=x_2 \} &= 1 - p \quad, \quad0 < p < 1 \\ \end{aligned}

我们称 $X$ 服从参数为 $p$ 的两点分布，也叫 (0-1) 分布，记作 $X \sim (0-1)$ 。

离散型随机变量-二项分布 $X\sim b(n, p)$

当随机变量 $X$ 的分布满足：

P\{X=k\} = C_n^k p ^k(1-p)^{n-k}

则称 $X$ 为服从参数为 $n$ , $p$ 的二项分布(binomial distribution)，记作 $X\sim b(n, p)$ 。

一般我们会使用 泊松(Posisson)定理 来进行近似计算，这里做个简单介绍。

设 $np_n = \lambda$ ，对任意非负整数有：

\lim\limits_{x\rightarrow\infty}C^k_np^k_n(1-p)^{n-k}=\frac{\lambda^ke^{-\lambda}}{k!}

离散型随机变量-泊松分布 $X \sim P(\lambda)$

当随机变量 $X$ 的分布满足：

P\{X=k\} = \frac{\lambda^ke^{-\lambda}}{k!} \quad,\quad k=0,1,2,\dots,

则称 $X$ 为服从参数为 $\lambda$ 的泊松分布(poisson distribution)，记作 $X \sim P(\lambda)$ ，其中 $\lambda$ 为常数。

概率密度函数 $f(x)$

这里介绍一个概念，概率密度函数(density sunction)。它可以用来描述随机变量 $X$ 的分布函数 $F(x)$ ：

F(x) = \int^x_{\infty}f(t)dx

它有以下特点：

$f(x) \geq 0$
$\int^{{+\infty}}_{-\infty}f(x)dx = 1$
$P\{ x_1 < X <x_2 \} = F(x_2) - F(x_1) = \int^{x_2}_{x_1}f(t)dx$

连续型随机变量-均匀分布 $X\sim U(a,b)$

当随机变量 $X$ 具有概率密度：

f(x)=\left\{ \begin{aligned} & \frac{1}{b-a},& a<x<b,\\ &0,& 其他. \end{aligned} \right.

则称 $X$ 在区间 $(a, b)$ 上服从均匀分布(unniform distribution)，记作 $X\sim U(a,b)$

积分求得 $X$ 的分布函数：

F(x)=\left\{ \begin{aligned} & 0,& x < a,\\ & \frac{x-a}{b-a},&a \leq x < b,\\ & 1,& x \geq b. \end{aligned} \right.

连续型随机变量-指数分布 $X\sim E(\lambda)$

当随机变量 $X$ 具有概率密度：

f(x)=\left\{ \begin{aligned} & \lambda e^{-\lambda x}, &x > 0,\\ &0,& x \leq 0. \end{aligned} \right.

则称 $X$ 服从 $\lambda$ 的指数分布(exponential distribution)，记作 $X\sim E(\lambda)$ ，其中 $\lambda$ 为常数。

积分求得 $X$ 的分布函数：

F(x)=\left\{ \begin{aligned} & 1-e^{-\lambda x},& x > 0,\\ & 0,&x \leq 0.\\ \end{aligned} \right.

连续型随机变量-正态分布 $X \sim N(\mu, \sigma^2)$

当随机变量 $X$ 具有概率密度：

f(x)= \frac{1}{\sqrt{2\pi}\sigma}e^{- \frac{(x-\mu)^2}{2 \sigma^2}},-\infty<x<+\infty

则称 $X$ 服从参数为 $\mu$ , $\sigma$ 的正态分布(normal distribution)，记作 $X \sim N(\mu, \sigma^2)$ ，其中 $\mu$ 和 $\sigma (\sigma>0)$ 为常数。

积分求得 $X$ 的分布函数：

F(x) = \frac{1}{\sqrt{2\pi}\sigma}\int^x_{-\infty}e^{-\frac{(t-\mu)^2}{2 \sigma^2}}dt

特别的，当 $\mu=0,\sigma=1$ 时，我们称 $X$ 服从标准正态分布 $N(0,1)$ ，这时它的概率密度表示为：

\varphi(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2}}

分布函数表示为：

\phi(x)=\frac{1}{\sqrt{2\pi}} \int ^x _{-\infty} e^{\frac{t^2}{2}}dt

一般地，若 $X \sim N(\mu, \sigma^2)$ ，那么 $\frac{X-\mu}{\sigma}\sim N(0, 1)$ ，我们可以通过正态函数表来计算正态分布：

\begin{aligned} P\{ \mu-\sigma < X < \mu + \sigma \} = \phi(1) - \phi(-1) = 2\phi(1) -1 = 0.6826\\ P\{ \mu-2\sigma < X < \mu + 2\sigma \} = \phi(2) - \phi(-2) = 2\phi(2) -1 = 0.9544\\ P\{ \mu-3\sigma < X < \mu + 3\sigma \}= \phi(3) - \phi(-3) = 2\phi(3) -1 = 0.9974 \end{aligned}

联合分布函数 $F(x,y) = P\{ X \leq x, Y \leq y\}$

在这里，我们考虑两个随机变量 $X(e)$ 和 $Y(e)$ 的组合。我们把 $(X(e), Y(e))$ 称为二维随机向量(2-dimensional random vector)，简单记作 $(X, Y)$ 。

显然，我们可以得到二维随机向量 $(X, Y)$ 的分布函数，或者说，随机变量 $X$ 和随机变量 $Y$ 的联合分布函数：

F(x,y) = P\{ X \leq x, Y \leq y\}

边缘分布函数 $F_X(x), F_Y(y)$

我们说到联合分布函数是二维随机变量 $(X, Y)$ 的分布函数，自然随机变量 $X$ 和 $Y$ 是有分布函数的，那么我们通过联合分布函数来求得变量 $X$ 和 $Y$ 的分布函数，就可以得二维随机变量 $(X, Y)$ 关于 $X$ 和 $Y$ 的边缘分布函数(marginal distribution function)：

\begin{aligned} F_X(x) &= P\{X \leq x \} = P\{X \leq x, Y < +\infty \} = F(x, +\infty)\\ F_Y(y) &= P\{Y \leq y \} = P\{X < +\infty, Y \leq y \} = F(+\infty, y) \end{aligned}

数学期望 $E(X)$

我们现在知道一个离散型变量 $X$ 的分布律为：

P\{X = x_k\} = p_k, k=1,2.\dots

如果满足条件 $\sum^{\infty}_{k=1}x_kp_k$ 绝对收敛，那么有数学期望(mathematical expectation)，记作 $E(X)$ ，即：

E(X) =\sum^{\infty}_{k=1}x_kp_k

当然，如果是一个连续型的随机变量 $X$ 的话，我们就假设它有概率密度函数 $f(x)$ 。

如果满足积分 $\int^{+\infty}_{-\infty}xf(x)dx$ 绝对收敛，那么同样有数学期望为：

E(X) = \int^{+\infty}_{-\infty}xf(x)dx

数学期望有一些性质：

$E(c) = c$ ，其中 $c$ 为常数；
$E(cX) = cE(X)$ ；
$E(X+Y) = E(X) + E(Y)$ ；
$E(XY) = E(X)E(Y)$ ，其中 $X,Y$ 相互独立。

	$(0-1)$ 分布	二项分布	泊松分布	均匀分布	指数分布	正态分布
$E(X)$	$p$	$np$	$\lambda$	$\frac{a+b}{2}$	$\frac{1}{\lambda}$	$\mu$

方差 $D(X)$

数学期望描述了随机变量取值的“平均数”，而**方差(variance)**是用来度量随机变量取值的分散程度的，记作 $D(X)$ ，即：

D(X) = E[X-E(X)]^2 = E(X^2) - [E(X)]^2

其中，我们称 $\sqrt{D(X)}$ 为随机变量 $X$ 的标准差(standard deviation)，或均方差(mean square deviation)，记作 $\sigma(X)$ 。

方差有一些性质：

$D(c) = 0$ ，其中 $c$ 为常数；
$D(cX) = c^2D(X)$ ；
$D(X±Y) = D(X) + D(Y) ±2E[(X-E(X))(Y-E(Y))]$ ；
$D(X±Y) = D(X) + D(Y)$ ，其中 $X,Y$ 相互独立。

	$(0-1)$ 分布	二项分布	泊松分布	均匀分布	指数分布	正态分布
$D(X)$	$p(1-p)$	$np(1-p)$	$\lambda$	$\frac{(a+b)^2}{12}$	$\frac{1}{\lambda^2}$	$\sigma^2$

协方差 $cov(X, Y)$

数学期望和方差反映的都是随机变量自身的内容，这里我们考虑随机变量相互之间的影响，一般会使用协方差(convariance) 来描述，即：

cov(X, Y) = E\{[X-E(X)][Y-E(Y)]\}

其中，我们称 $\frac{cov(X, Y)}{\sqrt{D(X)}{\sqrt{D(Y)}}}$ 为随机变量 $X,Y$ 的相关系数(correlation corfficient)，或标准协方差(standard convariance)，记作 $\rho_{XY}$ ，即：

\rho_{XY} =\frac{cov(X, Y)}{\sqrt{D(X)}{\sqrt{D(Y)}}}

一些实用的计算公式：

D(X±Y) = D(X) + D(Y) ± 2cov(X, Y)\\ cov(X, Y) = E(XY) - E(X)E(Y)

概率论公式

频率 PPP

条件概率 P(A∣B)=P(AB)P(B)P(A|B) = \frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB)​

全概率公式 P(B)=∑i=1nP(Ai)P(B∣Ai)P(B)=\sum^{n}_{i=1}P(A_i)P(B|A_i)P(B)=∑i=1n​P(Ai​)P(B∣Ai​)

贝叶斯公式 P(Ai∣B)=P(B∣Ai)P(Ai)∑j=1nP(B∣Ai)P(Aj)P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum^{n}_{j=1}P(B|A_i)P(A_j)}P(Ai​∣B)=∑j=1n​P(B∣Ai​)P(Aj​)P(B∣Ai​)P(Ai​)​

分布函数 F(x)=P{X≤x}F(x)=P\{X \leq x \}F(x)=P{X≤x}

离散型随机变量-两点分布 X∼(0−1)X \sim (0-1)X∼(0−1)

离散型随机变量-二项分布 X∼b(n,p)X\sim b(n, p)X∼b(n,p)

离散型随机变量-泊松分布 X∼P(λ)X \sim P(\lambda)X∼P(λ)

概率密度函数 f(x)f(x)f(x)

连续型随机变量-均匀分布 X∼U(a,b)X\sim U(a,b)X∼U(a,b)

连续型随机变量-指数分布 X∼E(λ)X\sim E(\lambda)X∼E(λ)

连续型随机变量-正态分布 X∼N(μ,σ2)X \sim N(\mu, \sigma^2)X∼N(μ,σ2)

联合分布函数 F(x,y)=P{X≤x,Y≤y}F(x,y) = P\{ X \leq x, Y \leq y\}F(x,y)=P{X≤x,Y≤y}

边缘分布函数 FX(x),FY(y)F_X(x), F_Y(y)FX​(x),FY​(y)

数学期望 E(X)E(X)E(X)

方差 D(X)D(X)D(X)

协方差 cov(X,Y)cov(X, Y)cov(X,Y)

频率 $P$

条件概率 $P(A|B) = \frac{P(AB)}{P(B)}$

全概率公式 $P(B)=\sum^{n}_{i=1}P(A_i)P(B|A_i)$

贝叶斯公式 $P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum^{n}_{j=1}P(B|A_i)P(A_j)}$

分布函数 $F(x)=P\{X \leq x \}$

离散型随机变量-两点分布 $X \sim (0-1)$

离散型随机变量-二项分布 $X\sim b(n, p)$

离散型随机变量-泊松分布 $X \sim P(\lambda)$

概率密度函数 $f(x)$

连续型随机变量-均匀分布 $X\sim U(a,b)$

连续型随机变量-指数分布 $X\sim E(\lambda)$

连续型随机变量-正态分布 $X \sim N(\mu, \sigma^2)$

联合分布函数 $F(x,y) = P\{ X \leq x, Y \leq y\}$

边缘分布函数 $F_X(x), F_Y(y)$

数学期望 $E(X)$

方差 $D(X)$

协方差 $cov(X, Y)$