统计学part4---必须了解的概率论知识

232 阅读5分钟

我们可以看出,统计学下面分成两大部分,一个是描述统计,一个是统计推断。概率论贯穿了统计学的始终,是统计学的基础,因此我们需要了解一些非常基础的概率论知识,以便于我们更好的学习统计学。

概率论名词解析

确定性现象

定义:在一定条件下必然会发生的现象

  • 抛起的硬币必然下落
  • 在标准大气压下,水加热到100度必然沸腾

随机现象

个别试验中结果具有不确定性

  • 拋一次硬币的结果{正面,反面}
  • 拋一次骰子的结果{1,2,3,4,5,6}

下面我们可以对个别试验中的试验进行一下定义,个别试验我们也称为随机试验(Experiment) ,有时候我们直接使用E表示做了一次实验,随机试验需要满足下面的三个条件:

  • 可以在相同条件下重复进行

  • 可能的结果不止一个并且能够事先明确所有可能结果

  • 进行试验前不能确定哪个结果会出现

大量重复试验中结果呈现出固有规律性

  • 拋一万次硬币的结果{正面,反面,...,正面,反面} 正面:反面≈1:1
  • 拋一万次骰子的结果{1,2,3,4,5,6,...,1,2,3,4,5,6} 1:2:3:4:5:6≈1:1:1:1:1:1

这些固有规律性就是所谓的统计规律性,概率论和统计就是用来研究和解释随机现象的统计规律性的一门科学,概率论的作用是为我们刻画这种不确定性提供了工具。

样本空间(Space)

样本空间可以表示为S,定义为随机试验E的所有可能结果组成的集合。例如:

  • 拋一次硬币的观察结果 S:{正面,反面}
  • 拋两次硬币的观察结果 S:{正面反面,反面反面,反面正面,正面正面}
  • 拋三次硬币的观察结果 S:{正面反面正面,反面反面正面,反面正面正面,正面正面正面,正面反面反面,反面反面反面,反面正面反面,正面正面反面}
  • 以此类推......

随机事件

定义:样本空间S的子集称为随机试验E的随机事件,简称事件。例如:

  • 拋一次硬币的样本空间 S:{正面,反面},那么样本空间的子集就有两个 {正面},{反面}
  • 拋两次硬币的样本空间 S:{正面反面,反面反面,反面正面,正面正面},那么样本空间的子集就有{正面反面},{反面反面},{反面正面},{正面正面},{正面反面,反面反面},{正面反面,反面正面},{正面反面,正面正面},{反面反面,反面正面},{反面反面,正面正面},{反面正面,正面正面},{正面反面,反面反面,反面正面},{正面反面,反面反面,正面正面},{正面反面,反面正面,正面正面},{反面反面,反面正面,正面正面}
  • 以此类推......

在随机事件中,事件只包含一种结果的事件我们称之为基本事件(如 {正面},{反面}或者{正面反面},{反面反面},{反面正面},{正面正面}),另外需要注意一点是:空集∅也是S的子集,它在每次试验中都不发生,称为不可能事件

我们还可以使用自然语言对事件进行描述,比如:在事件{正面反面,反面正面,正面正面}中,我们可以将该事件描述为 至少一次正面

事件发生: 在每次试验中,当且仅当这一子集的一个样本点出现

我们定义事件为拋两次硬币,至少有一次正面朝上,那么我们如何判断这个事件是否发生了呢?

答案是我们拋两次硬币,观察结果是不是事件{正面反面,反面正面,正面正面}的子集

因此我们就可以推断出一个结论:样本空间是必然事件(也就是说样本空间里面的事件是一定发生的)

image.png

概率

什么是概率?通俗点说概率就是一个数字,它用来代表某些事件发生的可能性,这个数字越小,就代表事件发生的可能性越低,这个数字越大,就代表事件发生的可能性越高,那么怎么得到这个数字呢?

概率的获取

个人经验/知识

假设我们猜测明天是否下雨,我们将样本空间定义为S{晴天,雨天},有的人觉得今天天气不错,明天下雨的概率也就20%,还有的人觉得最近没怎么下雨,明天下雨的概率为70%。这样的概率就是我们凭借个人经验或者知识获取到的。

这种概率具有以下特点:

  • 猜测,只凭个人的喜好就可以给事件发生的可能性赋予一个数字
  • 依据个人的经验和知识
  • 主观色彩非常的强烈
  • 可信度相对而言较低

那么是不是说明这种方法没有用呢?事实上,在贝叶斯统计中,我们是可以使用这种方法的,而在我们传统的参数估计和假设检验这两个问题下,我们不太适合使用这种方法。

频率

找到一个数字来代表事件发生可能性的方法,就是使用频率,频率是指在相同条件下,进行了n次试验;在这n次试验中事件A发生的次数nAn_A 称为事件A发生的频数,比值nAn\frac{n_A}{n} 称为事件A发生的频率,记为fn(A)f_n(A)

f代表频率,A代表事件A,n代表进行了n次实验

例如:我们拋100次硬币,n=100,事件A为硬币正面朝上,我们发现A发生的频数是40次,也就是nAn_A =40,那么fn(A)=nAn=0.4f_n(A)=\frac{n_A}{n}=0.4

通过例子,我们直接一下频率的性质:

  • 0 fn(A) 10\leq f_n(A)\leq 1
  • fn(S)=1f_n(S)=1
  • 如果A1,A2,...,AKA_1,A_2,...,A_K 是两两互不相容事件,则fn(A1 A2 ...AK)=fn(A1)+fn(A2)+...+fn(Ak)f_n(A_1\cup A_2\cup ...\cup A_K)=f_n(A_1)+f_n(A_2)+...+f_n(A_k)

互不相容事件是指不可能同时发生的事件

概率

定义

对于随机试验E的每一个事件A赋予一个实数,记为P(A),称为事件A的概率, 如果集合函数P(.)满足下列条件:

  • 非负性:对于每一个事件A,有P(A)0P(A)≥0
  • 规范性:对于必然事件S,有P(S)=1P(S)= 1
  • 可列可加性:如果A1,A2,...,AKA_1,A_2,...,A_K 是两两互不相容事件,则P(A1 A2 ...AK)=P(A1)+P(A2)+...+P(Ak)P(A_1\cup A_2\cup ...\cup A_K)=P(A_1)+P(A_2)+...+P(A_k)

对比频率和概率的定义和性质,我们可以找到许多相似的地方,我们似乎真的可以使用某事件发生的频率来代表这个事件发生的概率,那么两者有什么不同呢?

对于概率的讲解后续再进行细说,我们先站在计算机的角度对两者进行分析对比

频率?概率?

我们还是以抛硬币进行举例,我们定义事件A为硬币正面朝上,我们可以

  • 抛n = 10次硬币,计算频率
  • 抛n = 60次硬币,计算频率
  • 抛n= 110次硬币,计算频率
  • .......
  • 抛n= 10000次硬币,计算频率

那么如果我们以n为横轴,频率为纵轴绘制可视化图表

我们可以发现当我们进行的实验次数比较少的时候,计算出来的频率值波动是非常大的,随着实验次数增加(也就是n增加),我们发现频率的波动性逐渐减小,且波动性是围绕y=0.5这个横轴进行的。通过可视化图表我们可以总结出,随着重复的实验次数的增加,频率逐渐趋向于某个常数,这个现象的出现就是我们所说的统计规律性,而那个常数就是概率

image.png

最左边这种频率的波动非常大的情况就是所谓的小数定律,小数定律告诉我们,当实验次数非常小的时候,频率并不能很好的代表事件发生的可能性大小,我们并不能使用它很好的近以概率。相反,在最右边频率的波动性非常的小并且逐渐稳定与某一个常数的情况就是大数定律,大数定律告诉我们n  ,fn(A)  P(A)n \rarr \infty,f_n(A) \rarr P(A)

小数定律、大数定律的编程实现

我们使用计算机模拟抛硬币,首先我们需要产生随机数这个功能

import random

因为我们还需要对结果进行可视化,因此我们需要

import matplotlib.pyplot as plt

我们定义一个名为toss的函数模拟抛硬币,我们每抛一次硬币,就生成一个随机数(用0代表正面朝上,1代表反面朝上),所以我们需要toss返回一个随机数,随机数只能是0或者1,并且它以相等的概率返回这个随机数

def toss():
    return random.randint(0, 1)  # 用0代表正面朝上,1代表反面朝上

下面我们定义一个main函数对抛硬币的结果进行统计。我们先定义两个列表,一个列表(indices)储存我们抛了几次硬币,另一个列表(freq)储存正面朝上的概率

def main():
    indices = []  
    freq = [] 

下面我们每十次计算一次频率,一直计算到第20000次,通过for循环实现

for i in range(10, 20001, 10):
    up_sum = 0  #向上的次数
    for j in range(i):
        if toss() == 1:
            up_sum += 1
    freq.append(up_sum/i)
    indices.append(i)

最后,我们分别以n为横轴,频率为纵轴绘制可视化图表

plt.plot(indices, freq)
plt.show()

main函数如下:

def main():
    indices = []  #抛了多少次
    freq = []  #朝上的频率
    for i in range(10, 20001, 10):
        up_sum = 0  #向上的次数
        for j in range(i):
            if toss() == 1:
                up_sum += 1
        freq.append(up_sum/i)
        indices.append(i)
    plt.plot(indices, freq)
    plt.show()

直接调用main函数

if __name__ == '__main__':
    main()

再谈变量

关于变量的描述:统计学part1---认识数据 - 掘金

我们之前说,数据是由变量组成的;一个变量至少包含2个不同取值。那么如何把数据/变量与概率论中的概念联系起来?

答案是:引入一个法则,将样本空间S的每-个元素(即随机试验E的每一个结果)与实数对应起来

image.png

如上面的图中,我们把这个方块所圈起来的区间想象成是我们的样本空间S,e1e_1 e2e_2 e3e_3 是样本空间内的元素,每一个元素都代表一个实验结果

image.png

接下来,我们有一个自然数轴,我们需要按一定的法则将e1e_1 e2e_2 e3e_3 映射到数轴上,这样我们就把s中的元素和一个数值建立起来了

这样做的意义在于:由于e1e_1 e2e_2 e3e_3 不一定全是数值,不方便我们后续的研究及计算,把e1e_1 e2e_2 e3e_3 转换为数值后,我们可以更好的对变量进行运算

随机变量

定义

随机变量一般简称为变量,设随机试验E的样本空间为S=e,X=X(e)S ={e}, X = X(e)是定义在样本空间S上的实值单值函数,称X=X(e)X = X(e)为随机变量

注意:这里的e指的是所有可能发生的结果,有e1e_1 e2e_2 e3e_3 ......组成

解析:实值是说每对应一个e,X(e)得到的函数是一个实数,单值是指每对应一个样本空间元素有且仅有一个函数值。

假设我们试验E为抛硬币,那么我们的样本空间就是{正面,反面},随机变量X:X(正面) = 1、X(反面)=0

这是一组名目尺度,接下去我们研究一下次序尺度

假设我们试验E为观测教育程度,样本空间S: {小学,初中,高中,大学},随机变量X: X(小学)= 1、X(初中)= 2、X(高中)= 3、X(大学)=4

名目尺度和次序尺度同样是定性变量

如果随机试验的结果本身就是一个数,即e本身是一个数,令X=X(e)=eX=X(e)=e, X就是一个随机变量

假设我们试验E为某大学学生的出生年份,样本空间S: {2000, 2001, 2002, 2003},随机变量X: X(2000) = 2000、X(2001) = 2001、X(2002) = 2002 、X(2003)=2003

这是一组等距尺度,下面我们研究一下等比尺度

假设我们试验E为某大学学生的身高,样本空间S:{1.55, 1.56,...., 1.90},随机变量X: X(1.55)= 1.55、X(1.56)= 1.56,......,X(1.90)= 1.90

等距尺度和等比尺度都是定量变量

我们通常以大写字母X,Y,Z...表示变量,以小写字母x,y,z...表示实数

性质

  • 随机变量的取值随试验的结果而定
  • 试验的各个结果的出现有一定的概率,因而随机变量的取值有一定的概率
  • 在试验之前不能预知它取什么值

随机变量的性质告诉了我们随机变量和普通的函数是有本质的区别的:

  • 普通的函数每对应一个自变量的取值,它会对应一个函数值而随机生成
  • 随机变量不止具有这样的映射关系,而且取值还具有不确定性,是以一定的概率出现的

分类

我们除了可以根据名目尺度、次序尺度、等距尺度和等比尺度对变量进行分类以外,我们还可以将随机变量分为离散型和连续型

离散型随机变量的特点是:取值有限个或可列无限多个

比如抛硬币这个事件有正面朝上和反面朝上两种情况,这就是取值有限个,再比如年份,有2000年、2001年...这就是可列无限多个

连续型随机变量的特点是:在一定区间内可以任意取值

概率分布

分布律

随机变量X的分布律(Probability Mass Function)定义如下:

设X所有可能取的值为xk(k=1,2,..)x_k(k = 1,2,..) X取各个可能值的概率,即事件{X=xk}\{X = x_k\} 的概率为P{X=xk}=pk(k=1,2...)P\{X = x_k\}=p_k (k = 1,2...)

例如抛硬币事件中,X所有可能的取值为x1=0,x2=1x_1=0,x_2=1 ,分别代表正面朝上和反面朝上,X取各个可能值的概率为P{X=0}=0.5;P{X=1}=0.5P\{X=0\}= 0.5;P\{X = 1\}= 0.5

再比如在投骰子的事件中,X所有可能的取值为x1=1,x2=2,x3=3,x4=4,x5=5,x6=6x_1=1,x_2=2,x_3=3,x_4=4,x_5=5,x_6=6 ,X取各个可能值的概率为P{X=1}=0.2;P{X=2}=0.4;P{X=3}=0.1;P{X=4}=0.2;P{X=5}=0.05;P{X=6}=0.05P\{X=1\}= 0.2;P\{X = 2\}= 0.4;P\{X = 3\}= 0.1;P\{X =4\}= 0.2;P\{X = 5\}= 0.05;P\{X = 6\}= 0.05

通过例子我们可以看出,分布律指的就是X取各个可能值的概率

离散型随机变量及其分布

(0-1)分布/两点分布(Bernoulli distribution)

设随机变量X只可能取0与1两个值,它的分布律是P{X=k}=pk(1p)1k,(k=0,1;0<p<1)P\{X = k\}= p^k(1-p)^{1-k},(k=0,1;0<p<1)则称X服从以p为参数的 (0-1)分布或两点分布

X01
P{X=k}P\{X=k\} 1p1-p pp

X代表我们的变量,0和1代表的是变量的可能的取值,P{X=k}P\{X=k\} 代表一个事件发生的概率,1p1-p 就是X=0这个事件发生的概率,而pp就是X=1发生的概率

我们将数值代入公式中验证:

k=0k=0 时,P{X=0}=p0(1p)10=1pP\{X=0\}=p^0(1-p)^{1-0}=1-p

k=1k=1 时,P{X=1}=p1(1p)11=pP\{X=1\}=p^1(1-p)^{1-1}=p

对于随机试验E,如果其样本空间S只包含两个元素,总能够在S,上定义一个服从(0-1)分布的随机变量来描述这个随机试验的结果

例如:抛硬币,性别......

伯努利试验,二项分布(Binomial distribution)

设试验E只有两个可能的结果: A,AA, \overline A ,则称E为伯努利试验

A\overline A AA 的补集

也就是说,A,AA,\overline A 构成了整个样本空间

例如抛硬币的例子里,我们把事件AA 代表正面朝上,那么A\overline A 就代表着硬币反面朝上

P(A)=p(0<p<1)P(A)=p (0<p<1),此时P(A)=1pP(\overline A)= 1-p ,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。

以X表示n重伯努利试验中事件A发生的次数, X是一个随机变量,X的所有可能的取值为0,1,2...,n,其分布律为P{X=k}=( n k)pk(1p)nk,(k=0,1,2,...,n;0<p<1P\{X=k\}=(\begin{smallmatrix}  n \\  k \end{smallmatrix})p^k(1-p)^{n-k},(k=0,1,2,...,n;0<p<1,其中( n k)=n!k!(nk)!=n×(n1)×...×2×1(k×(k1)×...×2×1)((nk)×(nk1)×...×2×1)(\begin{smallmatrix}  n \\  k \end{smallmatrix})=\frac{n!}{k!(n-k)!}=\frac{n\times(n-1)\times...\times2\times1}{(k\times(k-1)\times...\times2\times1)((n-k)\times(n-k-1)\times...\times2\times1)} ,则称X服从参数为n,p的二项分布,记为X b(n,p)X \backsim b(n, p)

image.png

所以,在n重伯努利试验中我们需要知道某一情况发生的概率及有多少种情况即可计算其分布律

我们令n=20,p分别等于0.4(蓝色),0.5(橙色),0.6(绿色),0.7(红色),0.8(紫色),可视化的图表如上图。

我们固定p=0.4,n分别取值100(蓝色),300(橙色),500(绿色),700(红色),900(紫色),可视化图像如图。

分布函数

设X是一个随机变量,x是任意实数,函数F(x)=P{Xx},<x<F(x)= P\{X≤x\},-∞<x<∞称为X的分布函数(Cumulative Distribution Function),分布函数适用于离散型随机变量和连续型随机变量。

我们知道分布律指的就是X取各个可能值的概率,也就是P{X=xk}=pk(k=1,2,...)P\{X=x_k\}=p_k(k=1,2,...) ,可视化图表如下:

那么分布函数的可视化图表如下:

思考:两者有什么联系呢?

image.png

我们就点(15,0.717)来说,分布函数所对应的值0.717其实就是当XxX≤x 时所有的概率之和。

若已知X的分布函数,就可知X落在任一区间(x1,x2](x_1, x_2] 的概率,分布函数完整地描述了随机变量的统计规律性

概率密度

概率密度是连续型随机变量才有的概念(相当于离散型随机变量的分布率),定义如下:如果对于随机变量X的分布函数F(x),存在非负函数f(x)使对于任意实数x有F(x)= xf(t)d(t)F(x)=\int _{-\infty}^{x}f(t)d(t) ,则称X为连续型随机变量, 函数f(x)称为X的概率密度函数(Probability Density Function),可视化图表如下图所示:

所对应的分布函数如下图

回想分布函数图表与分布率的关系,我们可以类似的推断出分布函数和概率密度的关系

image.png

对于连续型随机变量X而言,它取任一指定实数值a的概率均为0,即P{X=a}=0P\{X=a\}=0

我们之前提到的若A是不可能事件,则有P(A)= 0,但是若P(A)=0,并不一定意味着A是不可能事件

下面我们通过可视化的形式解释为什么P{X=a}=0P\{X=a\}=0

我们对同一组数据分别以不同的区间大小绘制概率直方图

我们看见随着bins增加(也就是区间数增加),图像的轮廓增加接近我们的概率密度曲线,但我们的小区间消失,变成一个个实数取值的时候,我们的柱形也逐渐变成一根线,宽度变为0,因此没有面积了,也就是说频率变为0了。

所以,对于连续型随机变量,我们只能求某一个区间内的概率。

连续型随机变量及其分布

正态分布(Normal distribution)

若连续型随机变量X的概率密度为f(x)=12πσe(xμ)22σ2,( <x<)f(x)=\frac1{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},(-\infty < x<\infty) ,其中μ,σ(σ>0)\mu,\sigma(\sigma>0) 为常数,其中μ,σ\mu,\sigma 为常数,则称X服从参数为μ,σ\mu,\sigma 正态分布或高斯(Gauss)分布,记为XN(μ,σ2)X \backsim N(μ, σ^2)

特殊的,我们把满足μ=0σ=1\mu=0,\sigma=1 的正态分布称为标准正态分布,记为Z=xμσN(0,1)Z= \frac{x-\mu}{σ} \backsim N(0, 1)

可视化图像如下图所示:

上面的图中,我们固定了σσ 的值为1,μ\mu 的值分别等于-2(红色),0(绿色),2(蓝色),我们可以看出三个图像长得几乎是一模一样的,不同的是每个图形的对称轴不同,红色的曲线对称轴为x=-2,绿色的曲线对称轴为x=0,蓝色的曲线对称轴为x=2,因此我们可以知道μ\mu 决定的是图像的对称轴。

上面的图中,我们固定了μ\mu 的值为0,σσ 的值分别等于0.5(蓝色),1(红色),2(绿色),通过观察我们可以发现,σ=0.5对应的图像是最窄的,同时也是最高的,而σ=2对应的图像是最矮的,也是最宽的,我们可以发现σ影响的是图形的形状。

正态分布的特征

并不是所有长得像正态分布曲线的分布都叫正态分布,正态分布存在以下特性:

image.png

我们绘制x=μ+σx=\mu+\sigma x=μσx=\mu-\sigma 两条曲线,两条曲线与分布曲线所组成的面积为68.26%,而当我们把范围放宽到x=μ+2σx=\mu+2\sigma x=μ2σx=\mu-2\sigma 时,三条线组成的面积为95.44%,再进行放宽至μ±3σ\mu±3\sigma 所对应的面积就达到了99.74%,所以正态分布需要符合3σ3\sigma 法则:正态变量的取值范围是正负无穷,但是它的变量几乎都分布在(μ3σ,μ+3σ)(\mu-3\sigma,\mu+3\sigma)

image.png

在标准正态分布中,还满足P{X>zα}=α,(0<α<1)P\{X>z_\alpha\}=\alpha,(0<\alpha<1) ,此时αα被称为标准分布上的αα 分位点

小结

image.png