第五周

1,159 阅读4分钟

统计量

样本均值

\bar{x}=\frac{x_1+x_2+\cdot \cdot \cdot+x_n}{n}

样本方差

s^2=\frac{\sum _{i=1}^{n}(x_i-\bar{x})}{n-1}

s^2为样本方差,s为样本标准差,n为样本容量,\bar{x}为样本均值

样本变异系数

v_s=\frac{s}{\bar{x}}

样本K阶矩

EX_i^k

X_i为样本

样本K阶中心矩

E(X_i-\bar{X})^k

X_i为样本,\bar{X}为样本期望

二阶中心距,也叫作方差,它告诉我们一个随机变量在它均值附近波动的大小,方差越大,波动性越大。方差也相当于机械运动中以重心为转轴的转动惯量。

三阶中心距告诉我们一个随机密度函数向左或向右偏斜的程度。

样本偏度

样本三阶中心矩除以样本二阶中心矩的3/2次幂的商,记为Sk。

Sk=E[(\frac{X-\mu}{\sigma})^3]=\frac{E[(X-\mu)^3]}{(E[(X-\mu)^2])^{\frac{3}{2}}}=\frac{k_3}{k_2^{\frac{3}{2}}}

若偏度为负,则均值左侧的离散度比右侧强;若偏度为正,则均值左侧的离散度比右侧弱。

样本峰度

样本四阶中心矩除以样本二阶中心矩平方的商再减去3,记为Ku

ku=E[(\frac{X-\mu}{\sigma})^4]-3=\frac{E[(X-\mu)^4]}{(E[(X-\mu)^2])^{2}}-3

样本峰度常用以作总体峰度的估计量。正态分布的峰度为零。非正态分布的峰度是以正态分布的峰度为标准来描述其分布密度形状为陡峭或平坦的一个数字特征。

次序统计量

设 X1,X2, …, Xn是取自总体X的样本,X(i) 称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2), …,x(n),则称X(1),X(2), …,X(n)为顺序统计量。

充分统计量

我们把任何关于样本集D的函数都称为一个统计量,一个充分统计量就是一个关于样本集D的函数s(允许是向量形式的函数),其中包含了能有助于估计某种参数θ的全部相关信息,就是说我们希望充分统计量的定义能够有这样的约束条件:p(θ|s,D)=p(θ|s)p(θ|s,D)=p(θ|s) 举个例子说:对于高斯分布,期望和协方差矩阵就是它的充分统计量,因为如果这两个参数已知,就可以唯一确定一个高斯分布,而对于高斯分布的其他统计量,例如振幅,高阶矩等在这种时候都是多余的。

抽样分布

卡方分布

卡方统计量:

\chi ^2=\frac{(n-1)s^2}{\sigma^2}

s^2代表样本方差;\sigma^2代表总体方差;(n-1)代表自由度。

如果样本量为n的所有可能样本均取自方差为σ2的正态分布总体,对每一个样本都计算它的卡方值(χ2),那么这些卡方值将构成关于样本方差和总体方差的卡方分布。卡方分布是一个连续型概率分布,它的概率密度函数为:

f(\chi^2)=c(\chi^2)^{\frac{v}{2}-1}e^{-\frac{\chi^2}{2}}

\chi^2代表卡方统计量;e是自然底数;v代表自由度,等于样本容量n-1;c代表调节常数,使得卡方分布曲线下方的总面积等于1。

T分布

T统计量:

t(v)=t(n-1)=\frac{\bar{x}-\mu_z}{\frac{s}{\sqrt{n}}}

\bar{x}代表样本均值;s代表样本标准差;u代表总体均值;v代表自由度;n代表样本容量;t代表T统计量的值。

如果已知等待分析的总体服从正态分布,从总体中抽取容量为n的所有可能样本,对每个样本都计算出它们相应的T统计量,则所有T统计量的值将组成一个连续型概率分布,这个分布就是T分布,T分布的概率密度函数为:

f(t)=c(1+\frac{t^2}{v})^{-(v+1)/2}

t代表T统计量的值; v表示自由度,等于样本容量n-1; c为常数,使T分布函数曲线下的面积等于1。

F分布

F分布处理的则是两个总体之间的关系,即通过两个样本之间的关系推导出两个总体之间的关系。

假设第一个正态分布总体的方差为\sigma_1^2,第二个正态分布总体的方差为\sigma_2^2,分别从两个正态分布总体中抽取样本容量为n1和n2的样本,样本方差分别为s_1^2s_2^2,设定F统计量,它的计算公式为:

F=\frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2}=\frac{s_1^2\sigma_2^2}{s_2^2\sigma_1^2}

F统计量其实可以被认为是由两个卡方(χ2)统计量相除得到的,因此F分布也被称为方差比分布。F分布的概率密度函数为:

f(F)=cF^{\frac{v_1}{2}-1}(1+\frac{v_1F}{v_2})^{\frac{v_1+v_2}{2}}

F代表F统计量; v1表示F统计量分子的自由度; v2表示F统计量分母的自由度; c代表修正常数,它使得F分布曲线下方的总面积等于1。

中心极限定理

样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。