数分统计学

107 阅读6分钟

描述统计

集中趋势

均值 中位数 众数

离散趋势

方差:(x-均值)^2/N,意味着整组值偏离平均值的程度

标准差:方差的平方根,是衡量变量值围绕其平均值变化的指标。低标准差意味着,这些变量值越接近平均值,高标准差意味着更广的分布,标准差通常用于判断哪些值是异常值,那些不是。四分位差 变异系数

统计量

z score:(x-μ)/σ,表示变量到样本均值之间的距离是多少个标准差,是在符合正态分布的情况下,衡量不同事件的标准化方法。将 z-score 和表中对应,可得出样本在整个分布中的水平。

举例:小王的高数成绩为 86,假设高数考试平均分为 60,标准差为 20,并且符合正态分布,通过计算即可知道z分位数为 (86-60)/20 = 1.3,通过下图查表,即超过了 90.32% 的同学。怎么样?是不是已经特别厉害了

分布形态

偏态 峰态

推断统计

通过样本数据去推断总体数据的统计方法

变量

分类变量:无序分类变量,有序分类变量 数值型变量:连续型,离散型

概率

随机事件:随机现象某种可能的观察结果称为随机事件

概率:度量随机事件发生可能性的大小

小概率事件:统计学当中,发生的概率小于等于0.05,我们就认为他是一个小概率事件 随机变量:随机事件的数量化。离散型随机变量和连续型随机变量。

随机抽样:等概率抽取。

总体参数:刻画总体特征的指标称为总体参数,例如总体均值,总体标准差,总体比例

统计量:刻画样本特征的指标称为统计量,例如样本均值(x_bar),样本标准差(s),样本比例(p)

抽样误差:随机抽样造成的样本统计量与总体指标之间的差异称为抽样误差

概率分布

随机变量的概率存在一定的规律,这个概率分布分离散型和连续型。离散型随机变量的概率分布分为二项分布和泊松分布,连续型随机变量的概率分布分为正态分布。

二项分布

伯努利试验是单次随机试验,只有两种结果(1或0)。二项分布是n次伯努利试验。

二项分布公式

P(X=k)=(nk)pk(1p)nkP(X = k) = \binom{n}{k} p^k (1-p)^{n-k}

Excel计算方式=BINOM.DIST(number_s,trials,probability_s,cumulative) number_s 实验成功次数,Trials独立实验次数,Probability_s每次实验成功的概率,cumulative,如果cumulative为TRUE,则BINOM.DIST返回累积分布函数,即最多存在number_s次成功的概率,如果为FALSE,则返回概率密度函数,即存在number_s次成功的概率。

泊松分布

在指定时间范围内或一定体积内,某一时间出现的次数的分布,他们对应的随机变量的概率分布为泊松分布。例如:某企业每月某设备出现故障的次数,单位时间内到达某一服务台需要服务的顾客人数。二项分布的极限。

excel计算方式:poisson.dist(x,mean,culmative)

正态分布

标准正态分布:均值为0,标准差为1的正态分布N(0,1)的正态分布 excel进行标准化正态分布:norm.s.dist() 连续型随机变量概率计算:直方图的面积

抽样分布

统计推断:通过样本数据对总体进行推测。 多次抽样之后,可以进行统计量分析,可以证明是服从正态分布的概率分布。 总体标准误差:由总体标准差/根号n得出 大数定理(中心极限定理):当样本充分大时,样本均值的抽样分布近似服从总体均值μ,方差为σ^2/n的正态分布。

t分布

若随机变量X服从标准正态分布N(0,1),随机变量Y服从自由度为n的卡方分布,且X和Y独立,则服从t分布。样本量足够大时(自由度n足够大),随机变量的分布也是趋近于正态分布的。

简单来说,t分布就是标准正态分布除以均方的根,主要处理小样本问题,样本量小于30。均方是一组数的平方和的平均值.

卡方分布

卡方分布在实际应用中主要是解决方差相关的问题

  1. 设X~N(μ,σ^2),则z=X-μ/σ~N(0,1)
  2. 设Y=z^2,则Y服从自由度为1的x^2分布,即Y~x^2(1)
  3. sum(xμ/σ)2sum(x-μ/σ)^2~x^2(n) 总而言之,卡方分布就是多个标准正态分布的平方和。

卡方分布的特点:

  • 分布的变量值始终为正
  • 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐区域对称。(样本量足大时,趋近于正态分布)。
  • 期望为n,方差为2n

F分布

概念:两个分别服从自由度为m和n的卡方分布的比值,就得到F(m,n)的F分布。 运用于方差分析和线性回归分析

参数估计

点估计:通过样本均值这个点,推估总体均值,模糊不严谨。
区间估计:根据响应标准误的大小,按照一定的可信度给出的一个总体参数可能的取值范围。该区间被称为可信区间。具体计算根据标准正态分布的面积规律,应当由95%的样本均数在该范围内。 置信水平:置信区间中包含总体参数真值的次数所占的比例。95%

graph TD
待估参数 --> 均值 --> 大样本,大于30 -->z分布
待估参数 --> 均值 --> 小样本,小30 -->正态总体σ已知 -->z分布
待估参数 --> 比例 --> 大样本 -->z分布
待估参数 --> 均值 --> 小样本,小30 -->正态总体σ未知 -->t分布
待估参数 --> 方差 --> 卡方分布
待估参数 --> 方差比 -->F分布

假设检验

概念:

流程:

建立假设,原假设H0,备择假设H1 进行一次随机抽样 计算最终结果,跟z值比较或者p<0.05(α)此次事件是小概率事件,不可能发生。

p值是从H0假设的总体中抽出现有样本(及更极端情况)的概率,即p值

单双侧检验

单侧检验:强调一方的检测,比如显著“大于”,“小于”

双侧检验:双边只强调差异,不强调方向

第一类错误/第二类错误/置信区间

第一类错误:消极的被判断成积极的。 α 为犯第一类错误的概率,把没有犯第一类错误的概率 1-α 称为置信水平。一般情况下,α取值为0.05。

第二类错误:积极的被判断成消极的。β 为犯第二类错误的概率,把统计功效定义为1-β,一般情况下,β取值0.2,则统计功效的取值为0.8。

reference: bilibili——ailsa