统计学part5---样本和抽样分布

622 阅读7分钟

image.png

学习完描述统计和概率论,下面我们开始介绍统计推断。统计推断分为参数估计和假设检验以及贝叶斯统计三部分,为了更好的学习统计推断的内容,我们先了解一些概念,以便于后期我们更好的接受统计推断的知识。

总体与样本

总体(population)

总体: 试验的全部可能的观察值

个体: 每一个观察值

总体的容量: 总体中所包含的个体的个数(总体的容量可能是有限的,也可能是无限的)

由于一个总体包含了众多观察值,那么一个总体对应于一个随机变量X,每一个个体就对应每一个随机变量的取值。对总体的研究就是对一个随机变量X的研究,X的分布函数和数字特征就称为总体的分布函数和数字特征

在实际中,总体的分布一般是未知的,或只知道它具有某种形式而其中包含着未知参数(比如我们知道某一个总体符合正态分布,但是我们缺不知道该正态分布的对称轴,也就是这个分布的期望、分布的均值具体在什么位置,那这个分布的期望也就是分布的均值就是这个总体的未知参数)。

image.png

上图中,假如蓝色的图标代表男生,红色的图标代表女生,每一个人就是一个个体,假设这些同学是某一个班级的学生,我们想要了解该班级的成绩,那么班级里全部的学生就组成了一个总体 这个例子中个体数少,但是假设我们想要了解某一种药物对疾病的治疗效果,这时总体就变成了全部患有该疾病的病人了,再比如我们想了解全国房价的变化趋势,这时的总体就应该是全国的楼盘房价信息......对于这些样本数巨大的数据我们一时没有办法获取,但是我们可以获取一部分同类型的数据,然后基于这些数据给我们提供的信息去对总体的情况做一个推测。

样本(sample)

由于总体含有未知参数,所以我们经常从总体中抽取一部分个体,根据获得的数据来对总体分布做出推断。被抽出的部分个体叫做总体的一个样本。所以我们说样本是统计推断的依据。

从总体抽取一个个体,就是对总体X进行一次观察并记录其结果。

这是因为总体是由个体组成的,如果我们知道了所有个体的情况,就相当于我们知道了总体的情况

在相同的条件下对总体X进行n次重复的、独立的观察,将n次观察结果按试验的次序记为X1,X2,...XnX_1,X_2,... X_n ,每一个X1,X2,...XnX_1,X_2,... X_n 就称为来自总体X的一个简单随机样本,n称为样本容量。

对于X1,X2,...XnX_1,X_2,... X_n 而言,每一个样本都是互相独立的,我们没办法通过任何一个Xi(1i n)X_i(1\le i \le n) 了解到Xj(1j n,ji)X_j(1\le j \le n, j \not=i) 的信息;此外,我们还可以以为X1,X2,...XnX_1,X_2,... X_n 都是与总体X具有相同分布的随机变量,这意味着,X1,X2,...XnX_1,X_2,... X_n 中每一个Xk(1k n)X_k(1 \le k \le n) 本身就是一个随机变量,它可能的取值和取值出现的概率都跟总体x是一致的

当n次观察一经完成,我们就得到一组实数x1,x2,...,xnx_1,x_2,...,x_n , 它们是X1,X2,...,XnX_1,X_2,...,X_n 的观察值,称为样本值

image.png

样本的抽取没有固定的规则,我们可以随机抽取个体组成样本。

抽样分布

虽然,我们可以获取一部分同类型的数据,然后基于这些数据给我们提供的信息去对总体的情况做一个推测,但是我们往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断。

统计量

X1,X2,...,XnX_1,X_2, ...,X_n 是来自总体X的一个样本g(X1,X2,Xn)g(X_1,X_2,X_n) X1,X2,...,XnX_1, X_2,...,X_n 的函数若g中不含未知参数则称g(X1,X2,Xn)g(X_1,X_2,X_n) 是一个统计量,我们上面说的,用来对总体进行统计推断的函数称为统计量。

image.png

常用统计量

X1,X2,...,XnX_1,X_2, ...,X_n 是来自总体X的一个样本,x1,x2,...,xnx_1,x_2,...,x_n 是这一样本的样本值

  • 样本均值: g(X1,X2,Xn)=X=i=1nXing(X_1,X_2,X_n)=\overline{X}=\frac{\displaystyle\sum_{i=1}^nX_i}{n} ,其观察值为g(x1,x2,xn)=x=i=1nxing(x_1,x_2,x_n)=\overline{x}=\frac{\displaystyle\sum_{i=1}^nx_i}{n}
  • 样本方差: S2=i=1n(XiX)2n1S^2=\frac{\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2}{n-1} ,其观察值为S2=i=1n(xix)2n1S^2=\frac{\displaystyle\sum_{i=1}^n(x_i-\overline{x})^2}{n-1}
  • 样本标准差: S = S2S = \sqrt{S^2}

image.png

来自正态总体的几个常用统计量的分布

image.png

由于我们对总体的推测不是直接利用样本进行的,而是基于样本的出的统计量进行的,那么统计量的分布情况极其重要。

卡方分布(chi-square distribution)

什么是卡方分布

image.png

首先我们有一个来自标准正态分布的样本,在这个总体N(0,1)里面,我们抽取一部分个体记为X1,X2,...,XnX_1,X_2, ...,X_n ,那么X1,X2,...,XnX_1,X_2, ...,X_n 就是来着总体的一个样本,基于这个样本构造统计量:χ2=X12+X22+...+Xn2\chi^2=X_1^2+X_2^2+...+X_n^2 ,这时,我们构造的统计量χ2\chi^2 服从自由度为n的卡方分布, 记为χ2  χ2(n)\chi^2 \sim \chi^2(n)

自由度(df: degree of freedom) = 独立变量的个数

在上面的样本X1,X2,...,XnX_1,X_2, ...,X_n 中,独立变量的个数就是n

卡方分布的概率密度函数图

了解一个分布最直观的方式就是通过可视化图表进行观察,下面我们绘制卡方分布的概率密度函数图

import numpy as np
from scipy.stats import chi2
import matplotlib.pyplot as plt
x = np.linspace(0,20, 50)
plt.plot(x, chi2.pdf(x,df=1), 'g--',label='df=1')
plt.plot(x, chi2.pdf(x,df=2), 'k-',label='df=2')
plt.plot(x, chi2.pdf(x,df=4), 'b-',label='df=4')
plt.plot(x, chi2.pdf(x,df=8), 'r-',label='df=8')
plt.plot(x, chi2.pdf(x,df=16), 'y-',label='df=16')
plt.legend()
plt.show()

通过图我们可以看出,卡方分布的统计量是大于0的,通过对比不同的自由度,我们可以看出当自由度df增大时,卡方分布的最值也在逐渐往右偏移且最大值逐渐减小。

卡方分布的性质

  • 可加性:χ12χ2(n1),χ22χ2(n2)\chi_1^2\sim\chi^2(n_1),\chi_2^2\sim\chi^2(n_2) ,并且χ12,χ22\chi_1^2,\chi_2^2 相互独立,则有χ12+χ22χ2(n1+n2)\chi_1^2+\chi_2^2\sim\chi^2(n_1+n_2)
  • 期望(均值)和方差:E(χ2) = n,Var(χ2) = 2nE(\chi^2) = n,Var(\chi^2) = 2n

t分布(t distribution)

什么是t分布

image.png

我们还是针对一个来自标准正态分布的样本,在总体N(0,1)里面获取两个变量XN(0,1),Y χ2(n)X\sim N(0,1),Y\sim \chi^2(n) ,X、Y相互独立,我们在X、Y的基础上构造一个统计量t=XYnt=\frac{X}{\sqrt\frac{Y}{n}} ,我们将t称为服从自由度为n的t分布, 记为t t(n)t\sim t(n) ,t分布也称为Student分布。

可以看出关于t分布的介绍中,我们尚未提及到样本,那么t分布的样本在哪呢?

答案是:我们的变量X,Y已经是统计量了,无论是X还是Y都是基于样本构造出来的,我们可以直观的理解为:X是基于X1,X2,...,XnX_1,X_2,...,X_n 构造出来的样本均值,Y是基于样本构造出来的样本方差

t分布的概率密度函数图

import numpy as np
from scipy.stats import norm
from scipy.stats import t
import matplotlib.pyplot as plt

x = np.linspace(-3, 3, 100)
plt.plot(x, t.pdf(x,1), label='df=1')
plt.plot(x, t.pdf(x,2), label='df=20')
plt.plot(x, t.pdf(x,100), label = 'df=100')
plt.plot(x[::5], norm.pdf(x[::5]),'k*', label='normal')
plt.legend()
plt.show()

我们可以看出,df的值越大,t分布的曲线越接近标准正态分布(*型线)

F分布

什么是F分布

image.png

针对一个来自标准正态分布的样本,在总体N(0,1)里面获取一些样本,基于样本我们构建一些服从卡方分布的统计量Uχ2(n1),Vχ2(n)U\sim\chi^2(n_1),V\sim\chi^2(n_) ,U和V相互独立,我们基于U和V构造统计量:F=Un1Vn2F=\frac{\frac U {n_1}}{\frac{V}{n_2}} ,我们把F称为服从自由度(n1,n2)(n_1, n_2) F分布,记为FF(n1,n2)F\sim F(n_1,n_2)

F分布的概率密度函数图

我们通过上面的介绍可以看出,F分布是由n1,n2n_1,n_2 决定的,下面我们分别研究两者对F分布的影响

import numpy as np
from scipy.stats import f
import matplotlib.pyplot as plt

x = np.linspace(0, 4.5, 10000)
plt.plot(x, f.pdf(x, 20, 40), 'g-', label='y=f(x,20,40)')
plt.plot(x, f.pdf(x, 10, 40), 'k-', label='y=f(x,10,40)')
plt.plot(x, f.pdf(x, 5, 40), 'b-', label='y=f(x,5,40)')
plt.legend()
plt.show()

我们可以看见,在n2n_2 固定的情况下,随着n1n_1 的减小,F分布的最值越来越小,且最值出现的值越来越往左偏移

import numpy as np
from scipy.stats import f
import matplotlib.pyplot as plt

x = np.linspace(0, 4.5, 10000)
plt.plot(x, f.pdf(x, 20, 40), 'g-', label='y=f(x,20, 40)')
plt.plot(x, f.pdf(x, 20, 20), 'k-', label='y=f(x,20, 20)')
plt.plot(x, f.pdf(x, 20, 10), 'b-', label='y=f(x,20, 10)')
plt.legend()
plt.show()

n1n_1 固定的情况下,随着n2n_2 的减小,F分布的最值越来越小,且最值出现的值越来越往左偏移,但是变化程度没有固定n2n_2 时那么明显

正态总体的样本均值和样本方差的分布

设总体X的均值为μμ,方差为σ2σ^2,X1,X2,...,XnX_1,X_2,..., X_n是来自总体X的一个样本,X,S2\overline{X},S^2 分别为样本均值和样本方差,则有:E(X) = μ,Var(X) = σ2n,E(S2)=σ2E(\overline X) = \mu,Var(\overline X) = \frac{\sigma^2}{n},E(S^2)=\sigma^2

注意:我们没有限定总体X的分布

公式证明:

E(X)=E(X1+X2+...+Xnn)=1nE(X1)+1nE(X2)+...+1nE(Xn)=1n(μ+μ+...+μ)=1n× nμ=μE(\overline X)=E(\frac {X_1+X_2+...+X_n} {n})=\frac{1}{n}E(X_1)+\frac{1}{n}E(X_2)+...+\frac{1}{n}E(X_n)=\frac1n(\mu+\mu+...+\mu)= \frac1n\times n\mu=\mu

Var(X) = Var(X1+X2+...+Xnn)=Var(1nX1+1nX2+...+1nXn)=1n2Var(X1)+1n2Var(X2)+...+1n2Var(Xn)=1n2(σ2+σ2+...+σ2)=σ2nVar(\overline X) = Var(\frac{X_1+X_2+...+X_n}{n})=Var(\frac1nX_1+\frac1nX_2+...+\frac1nX_n)=\frac{1}{n^2}Var(X_1)+\frac{1}{n^2}Var(X_2)+...+\frac{1}{n^2}Var(X_n)=\frac{1}{n^2}(\sigma^2+\sigma^2+...+\sigma^2)=\frac{\sigma^2}n

定理介绍

定理一X1,X2,...XnX_1,X_2,...X_n是来自正态总体N(μ,σ2)N(μ,σ^2)的一个样本X\overline{X} 是样本均值,则有XN(μ,σ2n)\overline{X}\sim N(\mu, \frac{\sigma^2}{n})

我们刚刚已经介绍过了样本均值和样本方差,那么为什么样本均值一定符合正态分布呢?其实中心极限定理就告诉了我们样本均值一定符合正态分布

简单介绍一下中心极限定理:中心极限定理是概率论中的一组定理,中心极限定理说明,在适当的条件下,相互独立的随机变量之和经适当标准化后,其分布近似于正态分布;注意,不要求变量本身服从正态分布,下面我们通过图例的方法介绍中心极限定理

image.png

这是样本来自正态总体的情况,通过图我们可以看出样本均值的分布和正态分布非常像,中间的红线为理论上的均值x=0,而绿色的线代表的是样本均值分布的均值,可以看见两条线非常的接近。下面我们研究样本来自非正态总体的情况。

image.png

我们发现无论样本是否来自正态总体,所出现的情况都是一样的,样本均值分布就是正态分布。

定理二: X1,X2,...,XnX_1, X_2, ..., X_n是来自正态总体N(μ,σ2)N(μ,σ^2)的一个样本X,S2\overline {X},S^2 分别为样本均值和样本方差,则有(n1)S2σ2 χ2(n1)\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) X,S2\overline{X},S^2 相互独立

定理三: X1,X2,...,XnX_1, X_2, ..., X_n是来自正态总体N(μ,σ2)N(μ,σ^2)的一个样本X,S2\overline {X},S^2 分别为样本均值和样本方差,则有XμSn t(n1)\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\sim t(n-1)

定理三证明:

根据定理一:X N(μ,σ2n)     Xμσn N(0,1)\overline{X}\sim N(\mu,\frac{\sigma^2}{n})\implies \frac{\overline {X}-\mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1) (相当于把正态分布进行了平移,再进行伸缩,这个新的统计量就服从标准正态分布)

根据定理二:(n1)S2σ2 χ2(n1)\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

再根据t分布定义:t=XYnt=\frac{X}{\sqrt{\frac{Y}{n}}} X N(0,1), Y χ2(n),X,Y相互独立X\sim N(0,1), Y\sim \chi^2(n),X,Y相互独立

我们个别将X,Y代入t分布的定义公式中,可以得到:Xμσn/(n1)S2σ2n1     XμSnt(n1)\frac{\overline {X}-\mu}{\frac{\sigma}{\sqrt{n}}}/\sqrt{\frac{(n-1)S^2}{\sigma^2(n-1)}}\implies \frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}\sim t(n-1)

定理四: (两个正态总体的样本均值和样本方差)

X1,X2,...,Xn1X_1,X_2,...,X_{n_1} 是来自正态总体N(μ1,σ12)N(μ_1,σ_1^2) 的一个样本,X,S12\overline{X},S_1^2 分别为样本均值和样本方差,Y1,Y2,...,Yn2Y_1,Y_2,...,Y_{n_2} 是来自正态总体N(μ2,σ22)N(\mu_2,σ_2^2)的一个样本,Y,S22\overline{Y},S_2^2 分别为样本均值和样本方差,则有S12/S22σ12/σ22 F(n11,n21)\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1, n_2-1) ,当σ12=σ22=σ2\sigma_1^2=\sigma_2^2=\sigma^2 时,(XY)(μ1μ2)Sw1n1+1n2 t(n1+n22)\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac1{n_1}+\frac1{n_2}}}\sim t(n_1+n_2-2) ,其中Sw=(n11)S12+(n21)S22n1+n22S_w=\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}}

编程理解中心极限定理

上面我们讲述定理一时我们提到过中心极限定理是在适当的条件下,相互独立的随机变量之和经适当标准化后,其分布近似于正态分布;不要求变量本身服从正态分布

image.png

我们首先实现从总体中抽取样本的功能,并利用函数实现

def sample(num_of_samples, sample_size):
    """
    :param num_of_samples:我们要抽取的样本数
    :param sample_size:样本容量
    :return data:计算好的样本均值
    """
    data = []
    for _ in range(num_of_samples):
        # 我们需要对抽取的样本进行操作并将操作的结果放入data中
        data.append(mean([random.uniform(0.0, 1.0) for _ in range(sample_size)]))   # 从0~1均匀分布中抽取sample_size个个体组成一个样本,求样本均值
    return data

下面我们对函数进行调用并对结果进行可视化

if __name__ == '__main__':
    data = sample(1000, 40)
    plt.hist(data, bins='auto', rwidth=0.8)
    plt.axvline(x=mean(data), c='red')
    plt.show()

可以看见我们的均值就在0.5附近,而0~1均匀分布总体的均值就是0.5

如果觉得可视化图表并没有那么对称,可以增加样本数量或样本容量进行改进(如:1000改成10000)

随机抽样,误差源,随机分配

随机取样

image.png

我们通过样本的概念知道样本就是由从总体中随机抽取的个体组成的,随着我们随机抽取出来的个体的不一样,我们可以得到不同的样本,虽然样本是可变化的,但是好的样本标准是一致的,我们往往希望我们的样本都是具有代表性的,我们希望基于样本得到的结果是可以很好的代表总体上的结果的,或者说我们希望在样本上得到的结果也是适用于其它没有被抽取到的样本里面的个体的。在总体中抽取样本代替个体的过程就叫随机抽样。

误差源

在随机抽样过程中容易被忽略的误差源, 这些误差源都会影响我们的样本,下面我们聊一聊误差源:

  • 方便性:有关联的事物被包含进来

如:我们需要获取某些群体的信息,如果你身边就有该群体的人员,那么你身边的符合要求的人员就很容易被包含进样本中,这时的样本就没办法很好的代表总体了

  • 不回复:样本丢失

如:你确实随机抽取了一部分个体,个体具有了代表性,但是某些个体的信息丢失,此时你的样本只包含原有样本的一部分个体,也不能很好的代表总体

  • 自愿性:样本由自愿参与的人组成

如:我们在竞选班级代表时,自愿参加的同学可能对这个职位有着非常强烈的看法和想法,这个时候,自愿参与的同学也不能很好的代表全体同学对这个职位的看法

所以在日常的数据收集过程中,我们应该避免上述的误差源,因为他们都会影响我们的样本质量和我们基于样本所得到的结论及其推广性

观察研究(Observational Study)和实验(Experiment)

image.png

比如我们将日常是否经常运动的人分为了运动和不运动两个总体,我们需要研究运动与否是否影响健康水平,这时我们分别对运动的人员和不运动的人员进行健康水平数据的采集,然后对两组数据进行对比,从而作出健康水平与运动与否的关系判断,那么这个时候我们得到的结果只能说明运动与健康水平是否相关,相关不代表因果,也就是说我们不能通过观察研究去得出运动决定健康水平这种很强的因果关系的结论。这是因为在运动与否与健康水平之间可能有其他的混淆变量是我们所不知道的。

image.png

假设我们需要得出因果关系,那么我们需要通过实验得出。我们需要把总体分成两份,一部分人员为运动组,另一部分不运动组,对于运动组我们可以实行每天的运动计划安排,对于不运动组我们要求实验期间不进行任何运动。在一段时间以后我们分别获取两组人员的健康水平数据,基于这两组数据进行比较和分析,如果这个时候我们依然发现运动组和无运动组在健康水平上有着明显的差异的话,我们就可以说运动与否决定了健康水平,这种暗示因果关系的结论至少适用于当前的总体中。

小结

随机分配非随机分配
随机抽样因果;可泛化非因果;可泛化
非随机抽样因果;不可泛化非因果;不可泛化

总结

image.png