抽样方法和中心极限定理

210 阅读4分钟

1. 抽样方法

1.1 简单随机抽样

总体中每个单元或个体都有相同的可能性被选中。

1.2 系统随机抽样

随机选取一个起始点,然后每第 k 个总体单位被抽取出来进入样本。(k 等于总体容量除以样本容量)

注意:在使用系统随机抽样之前,应该观察总体的实物顺序。当实物顺序与总体的特征相关时,不能使用系统随机抽样。例如,要从2000张销售发票中抽取100张发票用于估计平均收入,如果发票是按销售额递增的次序归档,那么系统随机抽样将不能保证得到一个随机样本,这时就要使用其他的抽样方法。

1.3 分层随机抽样

总体被分成若干个组,每个组被称作一层,并且从每一层里随机地抽取一个样本。

从每一层中抽取的样本个数与总体中相应层的相对频数成比例。

分层抽样的优点是:在某些情形下,比简单随机抽样和系统随机抽样能更精确地反映总体特征。

1.4 整群抽样

利用自然形成的地理的或其他的界限将总体分成群。然后,随机地抽取若干群并且从每一群里随机的抽取一个样本。

这种方法常用于对散布在一个较大的地理区域上的总体进行样本抽样时来降低成本。

2. 抽样误差

一个样本统计量与其所对应的总体参数之间的差异。

3. 样本均值的抽样分布

一个给定样本容量的所有可能的样本均值的概率分布。

总体分布和样本的抽样分布之间的重要关系:

  • 样本均值的平均值精确地等于总体均值,即μx=μ\mu_{\overline{x}}=\mu
  • 样本均值抽样分布的散布范围比总体分布的散布范围更狭小
  • 样本均值抽样分布的形状接近于钟形分布,并且近似于正态概率分布

4. 中心极限定理

中心极限定理相关描述

如果给定样本容量的所有可能的样本抽取自任意总体,样本均值的抽样分布近似于一个正态分布。这一近似程度随着样本容量的增加而提高。

in other words:
中心极限定理指出,不管总体分布的形状如何,样本均值抽样分布将趋向于正态概率分布。

中心极限定理的正式描述:

  • 如果总体服从正态概率分布,那么对于任意的样本容量,样本均值的抽样分布也将服从正态概率分布。
  • 如果总体的分布是对称的(但非正态),当样本容量为10时,样本均值的抽样分布就会出现正态形状。
  • 如果是偏斜分布的总体或厚尾分布的总体,那么可能需要30或30以上的样本容量,才能观察到正态特征。
  • 大多数统计学家认为,若一个样本的样本容量为30或以上,那么该样本的样本容量就大到足以应用中心极限定理。

重要结论

  1. 抽样分布的均值等于总体均值,即μX=μ\mu_{\overline{X}}=\mu,并且如果总体的标准差是 σ\sigma,那么样本均值的标准差是σn\frac{\sigma}{\sqrt{n}},其中n是每个样本的观测值的个数。称σn\frac{\sigma}{\sqrt{n}}均值的标准误差 (standard error of the mean)。实际上,它的全称是样本均值抽样分布的标准差。

  2. σX=σn\sigma_{\overline{X}}=\frac{\sigma}{\sqrt{n}},说明了样本均值抽样分布的离散程度将会比总体的离散程度小。注意,当我们增加样本容量时,样本均值分布的标准差将减少。

5. 样本均值抽样分布的应用

利用 z=Xμσz = \frac{X-\mu}{\sigma} 可以将任一正态分布转换为标准正态分布,其中 XX 是随机变量的值,μ\mu 是总体均值, σ\sigma是总体标准差。

然而大多数时候涉及的是一个样本,而不只是一次观测。因而,我们感兴趣的是样本均值 X\overline{X} ,而不是一个观测值 XX ,这是我们要对上式做的第一个改变。第二个改变是我们利用的是 n 个观测值的均值的标准差,而不是总体的标准差。也就是说,在分母中我们利用的是 σ/n{\sigma} / {\sqrt{n}} ,而不是 σ\sigma

因此,为了求出样本均值落在一个确定区域中的可能性,首先要利用下式求出对应的 zz 值,然后查表确定概率。

总体标准差已知时计算 XXzzz=Xμσ/nz = \frac{\overline{X} -\mu} {{\sigma} / {\sqrt{n}}}