统计
贝叶斯公式
乘法公式
全概率公式
贝叶斯公式
常见的概率分布函数
| 分布 | 分布函数 | 参数 | 期望 | 方差 |
|---|---|---|---|---|
| 0-1分布、两点分布、伯努利分布 | ||||
| 二项分布 | ||||
| 几何分布 | ||||
| 均匀分布 | ||||
| 泊松分布 | ||||
| 指数分布 | ||||
| 正态分布 | ||||
| 卡方分布 |
业务场景
| 分布 | 分布函数 | 业务场景 |
|---|---|---|
| 0-1分布、两点分布、伯努利分布 | ||
| 二项分布 | 第一次成功所需要的试验次数的概率分布 | |
| 几何分布 | ||
| 均匀分布 | ||
| 泊松分布 | ||
| 指数分布 | ||
| 正态分布 | ||
| 卡方分布 |
泊松分布
- 电话呼叫中心的接听数量,即单位时间内呼叫中心接收到的电话数量,假设呼叫是随机独立发生的;
- 道路上交通事故的数量,即在一段时间内发生的交通事故的数量;
- 网络流量的数量,例如单位时间内网络传输的数据包数量;
- 机器故障的数量,即单位时间内机器发生故障的次数;
- 信号脉冲的数量,例如一个雷达在一段时间内接收到的脉冲数量。
指数分布
指数分布适用于描述某些事件发生的时间间隔的概率分布。以下是一些常见的应用场景:
- 等待时间问题,例如一个银行窗口的客户等待时间、一个超市结账队列的等待时间等;
- 产品寿命分析,例如电子元器件的寿命、机器的寿命等;
- 信号传输延迟问题,例如数据包从源到目的地所需的时间;
- 生物学中的间隔时间问题,例如两个相邻脉冲之间的间隔时间。
指数分布的一个重要假设是事件之间的时间间隔是独立的,且时间间隔服从指数分布。因此,指数分布通常适用于描述无记忆性的随机事件,例如无记忆的故障、生命的衰退等。在实际应用中,指数分布常用于对随机事件的时间间隔的建模和预测。
卡方分布
卡方分布(Chi-square distribution)适用于描述多个独立随机变量平方和的概率分布。以下是一些常见的应用场景:
- 统计学中的假设检验,例如卡方检验和拟合优度检验;
- 生物学和医学中的实验设计,例如用于分析蛋白质结构的晶体学实验、用于判断治疗方法是否有效的随机试验等;
- 金融学中的资产组合风险度量,例如用于计算投资组合的波动率、风险价值等。
卡方分布的形状取决于自由度参数,自由度越大,卡方分布越接近正态分布。在实际应用中,卡方分布常用于对实验数据进行分析和假设检验。
切比雪夫不等式
实际意义
切比雪夫不等式的应用非常广泛,其中一些常见的用处包括:
- 在没有更多信息的情况下,切比雪夫不等式提供了一个比较宽松的上界,可以用来估计随机变量偏离期望值的程度;
- 在探索性数据分析中,可以使用切比雪夫不等式来计算任意分布的置信区间,这些置信区间可以被用于判断哪些数据点是异常值;
- 在机器学习中,可以使用切比雪夫不等式来估计模型预测误差的上限,从而避免过度拟合;
- 在信号处理中,切比雪夫不等式可以用来计算信号的功率谱的上界,这些上界可以被用于帮助设计滤波器。
总之,切比雪夫不等式为概率论和统计学提供了一个有用的工具,可以帮助我们理解和估计随机变量的行为和性质。
分布的特征数
k阶矩
k阶矩应用:
- 描述分布的形态:矩可以用来描述分布的形态和特征,例如,一阶矩可以用来表示分布的中心位置,二阶矩可以用来表示分布的离散程度,三阶矩可以用来表示分布的偏斜程度,更高阶的矩可以用来描述更多的分布特征。
- 建立模型:矩可以用来选择合适的概率分布模型。例如,一阶矩和二阶矩可以用来选择正态分布模型,三阶矩可以用来选择偏态分布模型,更高阶的矩可以用来选择更复杂的分布模型。
- 预测风险:矩可以用来预测风险和波动性。例如,一阶矩和二阶矩可以用来计算资产的期望收益和方差,从而评估其风险和波动性。
- 降维和特征选择:在数据挖掘和机器学习中,可以使用矩来进行特征选择和降维。例如,可以使用一阶矩和二阶矩来选择最具代表性的特征,从而减少数据维度和复杂度。
变异系数
方差(或标准差)反映了随机变量取值的波动程度,但在比较两个随机变量的波动大小时,如果仅看方差(或标准差)的大小有时会产生不合理的现象。这有两个原因:(1)随机变量的取值有量纲,不同量纲的随机变量用其方差(或标准差)去比较它们的波动大小不太合理.(2)在取值的量纲相同的情况下,取值的大小有一个相对性问题,取值较大的随机变量的方差(或标准差)也允许大一些。
所以要比较两个随机变量的波动大小时,在有些场合使用以下定义的变异系数来进行比较,更具可比性。
- 比较数据的变异程度:变异系数可以用来比较不同数据集的变异程度。例如,假设有两个城市的人口数据,它们的均值都是100万,但一个城市的人口波动性更大,这时我们可以通过比较它们的变异系数来判断哪个城市的人口更加不稳定。
- 风险评估:变异系数可以用来评估投资风险和财务风险。例如,在资产组合中,如果某种投资的变异系数比其他投资更高,则可能表明该投资的风险更大,需要更多的注意和管理。
- 质量控制:变异系数可以用来控制产品质量。例如,在生产过程中,如果某种产品的变异系数比标准值更高,则可能表明该产品的质量不稳定,需要对生产过程进行调整。
- 数据挖掘:变异系数可以用来进行特征选择和数据降维。例如,可以使用变异系数来筛选具有代表性和稳定性的特征,从而减少数据的复杂度和维度。
分位数
偏度系数
应用:
- 描述分布形态:偏度系数可以用来描述数据分布的形态和偏斜程度。例如,如果一个数据集的偏度系数为正,那么我们可以知道该数据集的分布是右偏的,即分布的均值右侧有更多的数据点。
- 选择分布模型:偏度系数可以用来选择合适的分布模型。例如,正偏态分布通常可以用对数正态分布来描述,而负偏态分布通常可以用逆高斯分布来描述。
- 识别异常值:偏度系数可以用来识别数据集中的异常值。例如,在正偏态分布中,偏度系数较大的数据点通常是左侧的异常值。
- 预测风险:在金融领域,偏度系数可以用来预测市场风险。一般而言,正偏度分布的市场波动性更大,因此正偏度分布的市场可能存在更高的风险。
峰度系数
应用:
- 描述分布形态:峰度系数可以用来描述数据分布的峰态。例如,如果一个数据集的峰度系数为正,那么我们可以知道该数据集的分布相对尖峭,即分布在均值附近的数据点更多,分布的尾部数据点相对较少。
- 选择分布模型:峰度系数可以用来选择合适的分布模型。例如,当数据分布峰态比正态分布更尖峭时,可以使用峰度系数较高的超几何分布和负二项分布来进行建模。
- 识别异常值:峰度系数可以用来识别数据集中的异常值。例如,在数据分布峰态比正态分布更尖峭时,偏离均值较远的数据点可能是异常值。
- 预测风险:在金融领域,峰度系数可以用来预测市场风险。一般而言,高峰度系数的数据分布可能存在更高的风险。
大数定律与中心极限定理
大数定律
概率的收敛性
依概率收敛
按分布收敏、弱收敛
引例
定理
下面的定理说明依概率收敛是一种比按分布收敛更强的收敛性
中心极限定理
中心极限定理表明在独立重复实验中,当样本量足够大时,样本平均值的分布会趋向于正态分布。
具体来说,如果对一个样本进行n次独立重复实验,每次实验的结果都是一个随机变量,且这些随机变量的分布相同,且具有有限的均值和方差,
则样本平均值的分布会随着n的增加而趋向于正态分布
,且均值为总体均值,方差为总体方差除以n。中心极限定理的意义在于,它提供了一种用于估计总体均值和方差的方法,即通过对大量样本进行随机抽样,计算样本均值的分布,从而得到总体均值和方差的近似值。这种方法在很多领域都有广泛的应用,例如在统计推断、抽样调查、质量控制和金融风险管理等方面。
中心极限定理的另一个重要意义在于,它揭示了很多自然现象的本质规律。事实上,许多现象都是由大量小的随机变化所引起的,例如天气变化、股票价格波动、人口增长等等。这些现象都具有随机性和复杂性,难以直接进行建模和预测。然而,通过中心极限定理,我们可以将这些随机变化的影响逐渐抵消,得到一个稳定的、可预测的分布,从而更好地理解和控制这些现象的演变。
三大抽样分布
卡方分布
卡方分布描述的是一个随机变量服从正态分布时,其期望除以方差的比值的分布。
具体来说,假设有n个独立同分布的随机变量,且这些随机变量都服从标准正态分布,即均值为0,方差为1。将这些随机变量的平方值相加并除以方差的比值,得到一个新的随机变量Y,即Y=。则Y服从自由度为n的卡方分布,记为。
卡方分布在实际应用中有着广泛的应用,尤其在统计学中。例如,在假设检验和方差分析中,卡方分布常常被用来计算p值和置信区间。此外,卡方分布还可用于计算协方差矩阵的逆矩阵和最小二乘法的回归系数等。总之,卡方分布是概率论中一个重要的概率分布,具有广泛的应用价值。
F分布
F分布是概率论中的一种连续型概率分布,描述的是两个独立的卡方分布的比值的分布。具体来说,设U和V分别为两个独立的卡方分布,自由度分别为m和n,则它们的比值U/V服从自由度为(m, n)的F分布。
F分布在实际应用中有着广泛的应用,尤其在统计学中。例如,在方差分析中,F分布可用于计算F值,从而比较不同组之间的方差是否显著不同。此外,F分布还可用于计算协方差矩阵的逆矩阵和最小二乘法的回归系数等。总之,F分布是概率论中一个重要的概率分布,具有广泛的应用价值。
t分布
t分布是概率论中的一种连续型概率分布,描述的是从正态分布总体中随机抽取的样本均值与总体均值之间的偏差所服从的分布。具体来说,设X1、X2、...、Xn为从正态总体中随机抽取的样本,且这些样本相互独立,样本大小为n,总体均值为μ,总体方差为σ^2,则样本均值的标准化变量(即t统计量)服从自由度为n-1的t分布,其中X̄为样本均值,S为样本标准差。
t分布在实际应用中有着广泛的应用,尤其在统计学中。例如,在假设检验中,t分布可用于计算p值,从而判断一个假设是否显著。此外,在回归分析中,t分布可用于计算回归系数的显著性,从而判断自变量对因变量的影响是否显著。总之,t分布是概率论中一个重要的概率分布,具有广泛的应用价值。
数理统计
点估计- 最大似然估计
用实验推测参数,然后计算实验结果的概率是多少,概率越大的,那么这个假设的参数就越可能是真的。
点估计的评价
相合性
无偏性
有效性
均方误差
贝叶斯估计
信息
总体信息
总体信息即总体分布或总体所属分布族提供的信息. 譬如,若已知“总体是正态分布”,则我们就知道很多信息. 譬如:总体的一切阶矩都存在;总体密度函数关于均值对称;总体的所有性质由其一、二阶矩决定;有许多成熟的统计推断方法可供我们选用等. 总体信息是很重要的信息,为了获取此种信息往往耗资巨大. 比如,我国为确认国产轴承寿命分布为韦布尔分布前后花了五年时间,处理了几千个数据后才定下的.
样本信息
样本信息即抽取样本所得观测值提供的信息. 譬如,在有了样本观测值后,我们可以根据它大概知道总体的一些特征数,如总体均值、总体方差等等在一个什么范围内. 这是最“新鲜”的信息,并且越多越好,希望通过样本对总体分布或总体的某些特征作出较精确的统计推断. 没有样本就没有统计学可言.
先验信息
如果我们把抽取样本看作做一次试验,则样本信息就是试验中得到的信息. 实际中,人们在试验之前对要做的问题在经验上和资料上总是有所了解的,这些信息对统计推断是有益的. 先验信息即是抽样(试验)之前有关统计问题的一些信息. 一般说来,先验信息来源于经验和历史资料.先验信息在日常生活和工作中是很重要的. 先看一个例子.
贝叶斯学派的基本观点是: **任一未知量都可看作随机变量, 可用一个概率分布去描述, 这个分布称为先验分布; ** 在获得样本之后, 总体分布、样本与先验分布通过贝叶斯公式结合起来得到一个关于未知量新的分布 — 后验分布; 任何关于的统计推断都应该基于的后验分布进行。
密度函数形式
后验分布概率:
-
总体依赖于参数的概率函数在经典统计中记为, 它表示参数空间中不同的对应不同的分布。在贝叶斯统计中应记为,它表示在随机变量取某个给定值时总体的条件概率函数
-
根据参数 的先验信息确定先验分布
-
从贝叶斯观点看,样本的产生要分两步进行:
-
首先设想从先验分布产生一个样本,这一步是“老天爷”做的, 人们是看不到的, 故用“设想”二字
-
第二步从中产生一组样本. 这时样本的联合条件概率函数为:
这个分布综合了总体信息和样本信息
-
-
由于是设想出来的, 仍然是未知的, 它是按先验分布产生的。为把先验信息综合进去, 不能只考虑, 对的其他值发生的可能性也要加以考虑, 故要用进行综合. 这样一来,样本和参数的联合分布为
这个联合分布把总体信息、样本信息和先验信息三种可用信息都综合进去了
-
我们的目的是要对未知参数作统计推断,在没有样本信息时, 我们只能依据先验分布对作出推断. 在有了样本观察值之后, 我们应依据对作出推断. 若把作如下分解:
其中是的边际概率函数:
它与无关, 或者说中不含的任何信息。因此能用来对作出推断的仅是条件分布
这个条件分布称为的后验分布, 它集中了总体、样本和先验中有关的一切信息。上述公式就是用密度函数表示的贝叶斯公式, 它也是用总体和样本对先验分布作调整的结果, 它要比更接近 的实际情况。
贝叶斯估计
由后验分布估计有三种常用的方法:
- 使用后验分布的密度函数最大值点作为的点估计的最大后验估计
- 使用后验分布的中位数作为的点估计的后验中位数估计
- 使用后验分布的均值作为的点估计的后验期望估计
用得最多的是后验期望估计,它一般也简称为贝叶斯估计,记为的
区间估计
点估计VS区间估计
参数的点估计给出了一个具体的数值, 便于计算和使用, 但其精度如何点估计本身不能回答,需要由其分布来反映。实际中, 度量一个点估计的精度的最直观的方法就是给出未知参数的一个区间, 这便产生区间估计的概念。
summary
| 检验方式 | 统计量 | 置信区间 | |
|---|---|---|---|
| 已知 | u检验 | ||
| 未知 | t检验 | ||
区间估计概念
同等置信区间、置信上限、置信下限
构造置信区间 - 轴度量法
单个正态总体参数的置信区间 - 方差已知
单个正态总体参数的置信区间 - 方差未知
的置信区间
大样本置信区间
两个正态总体的置信区间 -
方差已知
方差未知
已知时
当m 和n 都很大时的近似置信区间
可以证明:
由此可给出的近似置信区间为:
两个正态总体的置信区间 -
假设检验
假设检验基本步骤
建立假设
在假设检验中,常把一个被检验的假设称为原假设,用表示,通常将不应轻易加以否定的假设作为原假设. 当被拒绝时而接收的假设称为备择假设,用表示,它们常常成对出现。
选择检验统计量,给出拒绝域形式
选择显著性水平
假设检验会推断出两种结果:
-
接受零假设,拒绝备择假设,也就是说实验组和对照组的指标是相同的
-
接受备择假设,拒绝零假设,也就是说实验组和对照组的指标是不同的
**定义:**统计上的定义是拒绝了事实上是正确的零假设
在 A/B 测试中,零假设是两组的指标是相同的,当假设检验推断出两组指标不同,但事实上两组指标相同时,就是第⼀类错误。我们把两组指标不同称作阳性(Positive)。所以,第⼀类错误⼜叫假阳性(False Positive)。
发⽣第⼀类错误的概率⽤α表⽰,也被称为显著⽔平(Significance Level)。“显著”是指错误发⽣的概率⼤,统计上把发⽣率⼩于 5% 的事件称为⼩概率事件,代表这类事件不容易发⽣。因此显著⽔平⼀般也为 5%。
第⼆类错误(Type II Error)
定义: 统计上的定义是接受了事实上是错误的零假设。
在 A/B 测试中,当假设检验推断出两组指标相同,但事实上两组指标是不同时,就是第⼆类错误。
我们把两组指标相同称作阴性(Negative),所以第⼆类错误⼜叫假阴性(FalseNegative)。发⽣第⼆类错误的概率⽤β表⽰,统计上⼀般定义为 20%。
势函数
显著性水平
给出拒绝域
p值
定义:在统计上,P 值就是当零假设成⽴时,我们所观测到的样本数据出现的概率
在 A/B 测试 的语境下,P 值就是当对照组和实验组指标事实上是相同时,在 A/B 测试中⽤样本数据所观测到的“实验组和对照组指标不同”出现的概率。
假设零假设是正确的,我们通过真实数据样本观测到零假设事件发⽣的概率。这个发⽣概率很低,说明通过样本数据,其实零假设事件发⽣是个很低概率事件,甚⾄低于我们最⼩可以接受的概率值(显著性⽔平),应该按照⼩概率事件不可能发⽣原理,零假设事件不会发⽣,即拒绝零假设。
与此相反的是,当我们在 A/B 测试中观测到“实验组和对照组指标不同”的概率(P 值) 很⼤,⽐如 70%,那么在零假设成⽴时,我们观测到这个事件还是很有可能的。所以这个时候我们接受零假设,拒绝备择假设,即两组指标是相同的。
在统计中,我们会⽤ P 值和显著⽔平α进⾏⽐较,⼜因为α⼀般取 5%,所以就⽤ P 值和5% 进⾏⽐较,就可以得出假设检验的结果了:
- 当P值⼩于5%时,我们拒绝零假设,接受备择假设,得出两组指标是不同的结论,⼜叫做结果显著
- 当P值⼤于5%时,我们接受零假设,拒绝备择假设,得出两组指标是相同的结论,⼜叫做结果不显著
置信区间
置信区间是⼀个范围,⼀般前⾯会跟着⼀个百分数,最常⻅的是 95% 的置信区间。这是什么意思呢?在统计上,对于⼀个随机变量来说,有 95% 的概率包含总体平均值(Population mean)的范围,就叫做 95% 的置信区间。
置信区间的统计定义其实不是特别好懂,其实你可以直接把它理解为随机变量的波动范围,95% 的置信区间就是包含了整个波动范围的 95% 的区间。
置信⽔平表⽰置信区间包含真正的实验效应的频率(100次有多少次)
A/B 测试本质上就是要判断对照组和实验组的指标是否相等,那怎么判断呢?
答案就是计算实验组和对照组指标的差值。因为指标是随机变量,所以它们的差值也会是随机变量,具有⼀定的波动性。
这就意味着,我们就要计算出的置信区间,然后看看这个置信区间是否包括 0。
- 如果包括 0 的话,则说明有可能为 0,意味着两组指标有可能相同
- 如果不包括 0,则说明两组指标不同
例如,计算得出两组指标差值的 95% 置信区间为,不包含 0,也可以推断出两组指标显著不同。
若实验组和对照组分别的置信区间有95%区域不重叠,则实验效应应该是统计显著的,此时.
**理解95%:**95%表⽰经过许多研究计算得到的95%置信区间,例如进⾏100次研究计算,会得到100个对应的95%置信区间,⽽在这100个95%置信区间中,有多少频率、有⼏个置信区间会包含真正的实验效应。
正态总体均值假设检验
单个正态总体假设检验
| 检验方式 | 统计量 | 拒绝域 | ||||
|---|---|---|---|---|---|---|
| 已知 | u检验 | |||||
| $W={ | u | \geq u_{1-\alpha/2}}$ | ||||
| 未知 | t检验 | |||||
| $W={ | t | \geq t_{1-\alpha/2}(n-1)}$ |
两个正态总体假设检验
正态总体方差的检验
勘误:
F检验,两个正态总体方差的检验
* 指数分布参数的假设检验
* 比例p检验
* 大样本检验
分布拟合的检验
总体分布只取有限个值的情况
若已知
若不完全已知
列联表检验
正态性检验
- qq-plot
- 夏皮洛–威尔克(Shapiro-Wilk)检验
夏皮洛–威尔克(Shapiro-Wilk)检验