第三周:数据分布

884 阅读13分钟

基本概念

随机变量

表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)各种结果的变量(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等等,都是随机变量的实例。

古典概率

古典概率通常又叫事前概率,是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率。计算公式如下:

P(A)=\frac{m}{n}

如果一次实验中可能出现的结果有n个,而且所有结果出现的可能性都相等,那么每一个基本事件的概率都是\frac{1}{n};如果某个事件A包含的结果有m个,那么事件A的概率为P(A)= \frac{m}{n}

条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。计算公式如下:

P(A|B)=\frac{P(AB)}{P(B)}

P(AB)表示事件A、B同时发生的概率。

离散变量与连续变量

变量按其数值表现是否连续,分为连续变量和离散变量:

  • 离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。如职工人数、工厂数、机器台数等。
  • 在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如身高、体重等

期望值

试验中每次可能结果的概率乘以其结果的总和。

期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。需要注意的是,期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。

离散变量概率分布

伯努利分布

伯努利试验是单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果,是由瑞士科学家雅各布·伯努利(1654 - 1705)提出来的。其概率分布称为伯努利分布,也称为两点分布或者0-1分布,是最简单的离散型概率分布。我们记成功概率为p(0≤p≤1),则失败概率为q=1-p

P(x)=P^x(1-p)^{1-x}=\begin{cases}
 p & \text {, } x=1 \\ 
 q & \text {, } x=0 \\ 
\end{cases}

二项分布

在实际运用中,一般用“成功”表示我们感兴趣的结果发生,用“失败”表示我们不感兴趣的结果发生,这一类事件或活动被称为伯努利试验,也被形象地称为二项分布试验。它的概率分布称为二项分布。二项分布有以下特点:

  • 每次试验只有两种可能的结果:“成功”与“失败”,两个结果只会出现一个;
  • 每次试验前,如果“成功”的概率是p,那么“失败”的概率q就是(1-p);
  • 每次试验相互独立,每次试验结果不受其他各次试验结果的影响。 公式如下:
P(X=x)=C_n^xp^xq^{n-x}=\frac{n!}{x!(n-x)!}p^xq^{n-x}

n为试验总次数,x为试验成功的次数,p为单个事件成功的概率,q为单个事件失败的概率。
可以将二项分布的概率质量函数表示为x\sim B(n,p)

多项分布

多项分布是二项分布的推广,二项分布的试验结果只有两个,而多项分布的试验结果则多于两个。如果事件的结果有三个,则是三项分布;如果结果有五个,则是五项分布。与二项分布相同,多项分布也是一个概率分布族,随着多项分布的决定参数改变,多项分布的形态也将随之变化。现实生活中也有很多符合多项分布的例子。例如,足球比赛的结果有胜、平、负三种;随机询问路人的户籍所在地,结果将有31种(中国有31个省、直辖市和自治区)。比照二项分布试验的性质,多项分布试验的性质如下:

  • 每次多项分布试验有N种可能的结果,但是N种结果只会出现一个;
  • 每次试验,每种结果都有各自发生的概率,所有结果的发生概率之和为100%;
  • 各次试验相互独立,每次试验结果都不受其他各次试验结果的影响。

假设某个多项分布试验可能发生的结果数量为k,依据历史数据,每种结果发生的统计概率分别为p1,p2,……,pk。现在进行n次多项分布试验,假设观测到结果a1的次数为x1,结果a2的次数为x2,……,结果ak的次数为xk,那么多项分布的联合概率质量函数为:

p(x_1,x_2,...,x_k)=\binom{n}{x_1 ... x_k}p_1^{x_1}p_2^{x_2}...p_k^{x_k}=\frac{n!}{x_1!x_2! ... x_k!}p_1^{x_1}p_2^{x_2}...p_k^{x_k}

超几何分布

在二项分布试验和多项分布试验中,每次试验结果的发生概率是不变的,而超几何分布试验结果的概率会随着每一次试验的发生而改变。以抽样试验为例,二项分布试验和多项分布试验是有放回抽样(总体的数量不变)或从无限总体中抽样(无论是有放回抽样还是无放回抽样,由于总体数量远远大于抽取的样本数量,总体数量近乎不变),因此,每次试验开始前,每种结果的发生概率是保持不变的。而超几何分布试验则是在有限总体中进行无放回抽样(总体数量不断减少),所以每次试验开始前,每种试验结果发生的概率将发生变化。

超几何分布是一种重要的离散型概率分布,它的概率质量函数可以这样定义:假设有限数据总体包含N个数值(个案),其中符合要求的个案数量为m个,如果从该有限数据总体中抽取n个个案,其中有k个是符合要求个案的概率计算公式为:

f(k;n,m,N)=\frac{C_m^kC_{N-m}^{n-k}}{C_N^n}
  • C_N^n表示从包含N个个案的有限总体中抽取n个个案的方法数目;
  • C_m^k表示从m个符合要求的个案中抽取出其中k个的方法数目;
  • C_{N-m}^{n-k}表示从剩余的N-m个个案中抽取n-k个个案的方法数目。

泊松分布

泊松概率分布考虑的是在连续时间或空间单位上发生随机事件次数的概率。通俗的解释为:基于过去某个随机事件在某段时间或某个空间内发生的平均次数,预测该随机事件在未来同样长的时间或同样大的空间内发生n次的概率。泊松分布经常被用于销量较低的商品库存控制,特别是价格昂贵、需求量不大的商品。例如,某家海鲜酒楼在过去一年的时间里,每月平均卖出7只龙虾,如果该餐厅希望今后能有95%的把握满足顾客的龙虾需求,需要存储多少只龙虾呢?像这一类问题就能用泊松概率分布来解决。

泊松分布的概率质量函数:

P(X=k)=C_n^k

式中,n代表伯努利试验的次数;x代表n次试验中“成功”的次数;p代表每次试验“成功”的概率;q代表每次试验“失败”的概率。

连续变量概率分布

均匀分布

均匀概率分布是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,所有的连续型数据结果所对应的概率相等。

f(x)=\begin{cases}
 \frac{1}{b-a} & \text {, } a<x<b \\ 
 0 & \text {, } x<a,x>b \\ 
\end{cases}

正态分布

正态概率分布是所有概率分布中最重要的形式,因为它表明被测事物处在稳定的状态下,测量数据的波动是由偶然因素引起的,所以在实践中有着广泛的应用。自然环境和人类社会的很多事物都会自发形成稳定的系统,因此,在这些环境下,许多事物和现象的分布都服从正态分布。例如,人的身高、体重和智商;各种商品的尺寸和质量;自然环境的温度、湿度和降雨量;高考成绩等。正态分布的重要性还体现在样本数据推断总体时,当样本的数量足够大,可以利用样本的某些特征数据服从正态分布,从而能够完成推断过程,得到准确的推断结果。因此,正态分布在抽样理论中占有重要地位。

f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-u)^2}{2\sigma^2}}
  • μ表示均值;
  • σ表示标准差。

指数分布

指数分布描述的是两次随机事件发生的时间间隔的概率分布情况,这里的时间间隔指的是一次随机事件发生到下一次随机事件再发生的时间间隔。放在二维坐标内理解,纵轴表示概率密度,横轴代表时间间隔长度,因为时间间隔长度可以取任意连续的数值,所以指数分布是一种连续型的概率分布。在现实生活中,指数分布的应用广泛。例如,某医院过去平均每10分钟出生一个婴儿,求接下来5分钟内有婴儿出生的概率;某公司的客服人员平均5分钟接一次电话,那么接下来2分钟内有电话打入的概率;某品牌的电脑平均10年出现一次重大事故,求该电脑5年内发生故障的概率等。

指数分布与泊松分布正好互补。泊松分布能够根据过去单位时间内随机事件的平均发生次数,推断未来相同的单位时间内随机事件发生不同次数的概率。而指数分布的作用是根据随机事件发生一次的平均等待时间来推断某个时间段内,随机事件发生的概率。

f(x)=\begin{cases}
 0 & \text {, } x<0 \\ 
 \frac{1}{u}e^{-\frac{1}{u}x}=\lambda e^{-\lambda x} & \text {, } x\geq0 \\ 
\end{cases}
  • x表示给定的时间长度;
  • μ表示随机事件发生一次的平均等待时间;
  • λ是μ的倒数,可以解释为单位时间内随机事件发生的次数。

伽玛分布

假设随机变量X为等到第α件事发生所需之等候时间, 密度函数为:

f(x,\beta,\alpha)=\frac{\beta^{\alpha}}{\tau(\alpha)}x^{\alpha-1}
e^{-\beta x},x>0

偏态分布

偏态分布是与“正态分布”相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种。可以通过峰度和偏度的计算,衡量偏态的程度。可分为正偏态和负偏态,前者曲线右侧偏长,左侧偏短;后者曲线左侧偏长,右侧偏短。

偏态分布分为正偏态分布和负偏态分布。 正偏态分布是相对正态分布而言的。当用累加次数曲线法检验数据是否为正态分布时,若M>Me>Mo时,即平均数大于中数,中数又大于众数,则数据的分布是属于正偏态分布。正偏态分布的特征是曲线的最高点偏向X轴的左边,位于左半部分的曲线比正态分布的曲线更陡,而右半部分的曲线比较平缓,并且其尾线比起左半部分的曲线更长,无限延伸直到接近X轴。 负偏态分布也是相对正态分布而言的。当用累加次数曲线法检验数据是否为正态分布时,若M<Me<Mo时,即平均数小于中数,中数又小于众数,则数据的分布是属于负偏态分布。负偏态分布的特征是曲线的最高点偏向X轴的右边,位于右半部分的曲线比正态分布的曲线更陡,而左半部分的曲线比较平缓,并且其尾线比起右半部分的曲线更长,无限延伸直到接近X轴

贝塔分布

贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。
概率密度函数:

f(x;\alpha,\beta)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}

威布尔分布

韦布尔分布,即韦伯分布(Weibulldistribution),又称韦氏分布或威布尔分布,是可靠性分析和寿命检验的理论基础。其概率密度为:

f(x;\lambda,k)=\begin{cases}
\frac{k}{\lambda} (\frac{x}{\lambda})^{k-1}e^{-(x/\lambda)^k} & \text {, } x\geq0\\

 0 & \text {, }  x<0 \\

\end{cases}

其中,x是随机变量,λ>0是比例参数(scale parameter),k>0是形状参数(shape parameter)。

卡方分布

卡方统计量

卡方统计量是一个随机变量,它能够表明样本方差和总体方差之间的比值关系。卡方统计量决定的抽样分布就是卡方分布。

\chi^2=\frac{(n-1)s^2}{\sigma^2}
  • χ2是希腊字母,读作“卡方”;s2代表样本方差;· σ2代表总体方差;(n-1)代表自由度。

卡方分布

如果样本量为n的所有可能样本均取自方差为σ2的正态分布总体,对每一个样本都计算它的卡方值(χ2),那么这些卡方值将构成关于样本方差和总体方差的卡方分布。卡方分布是一个连续型概率分布,它的概率密度函数为:

f(\chi ^2)=c(\chi^2)^{\frac{v}{2}-1}e^{-\frac{\chi^2}{2}}
  • χ2代表卡方统计量;e是自然底数,等于2.72;
  • v代表自由度,等于样本容量n-1;
  • c代表调节常数,使得卡方分布曲线下方的总面积等于1。

F分布

F统计量

研究两个正态分布总体之间的方差关系,假设第一个正态分布总体的方差为\sigma_1^2,第二个正态分布总体的方差为\sigma_2^2,分别从两个正态分布总体中抽取样本容量为n1和n2的样本,样本方差分别为s_1^2s_2^2,设定F统计量,它的计算公式为:

F=\frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2}=\frac{s_1^2\sigma_2^2}{s_2^2\sigma_1^1}

F分布

F分布是以英国统计学家Fisher的名字命名的连续型概率分布,与T分布和卡方分布一样,F分布也是一个概率分布族,由分子和分母的两个自由度决定一个F分布曲线,F分布的概率密度函数为:

f(F)=cF^{\frac{v_1}{2}-1}(1+\frac{v_1F}{v_2})^{\frac{(v_1+v_2)}{2}}
  • F代表F统计量;
  • v1表示F统计量分子的自由度;
  • v2表示F统计量分母的自由度;
  • c代表修正常数,它使得F分布曲线下方的总面积等于1。