本文基本上是对3B1B的视频做一个文字的转述,只是很多时候官方视频的翻译还是差强人意,看起来比较费劲,所以我经过自己的理解后重新输出下面的内容。
想象我们抛一枚硬币,正面朝上的的概率存在无数种,可能永远是正面,也可能永远是反面。
我们将正面朝上的概率记为h,h可以是0-1之间的任意实值。
现在我有一个问题:正面朝上的概率为0.7的概率是多少?
注意我在问概率的概率,这看起来有点奇怪。
如下图所示,想要知道这个问题的答案,就意味着我们不能取h=0.7附近的任意值,0.7000001不行,0.6999999也不行。
如此看来,这个问题的答案再小好像都不够小,
同时,如果我们不注意的话这个问题就会导致一个悖论:
- 如果一个连续区间内的任意单点概率不为0,那么这些概率值加起来就等于正无穷,因为连续区间有无数个点。很显然这是不正确的,它们加起来应该等于1。
- 但是如果这些点的概率都为0,那么无穷个0加起来还是0,很显然也不成立。于是就产生了悖论。
注意:实际上第一点是正确的,对于连续型随机变量,单个特定值的概率实际上为零,因为一个点本身没有长度,就是个“虚无”,因此概率自然为零。(也就是说你扔飞镖扎中某个“点”属于不可能事件哈哈)
解决这个问题的关键就在于,不要把关注点放在离散的值上,而要放在某个范围的值上。
举个例子,我们可以用这些柱子表示h落在0.8-0.85之间的概率,但是注意,我们不要用柱子的高度表示概率,而是应该用柱子的面积表示(原因下面会解释) 。
那么让我们重新回忆刚才的悖论,要想理解单个点的概率问题(实际上是概率的概率,因为本身数轴上的点就是事件发生的概率),结合上面的图,我们很自然的就能想到在几乎不改变柱高的条件下,不断缩短柱子的宽度,进而取极限。
这样单点的概率就无线的趋近于0但是永远不为0(因为宽度无限的趋近于0但是永远不为0),这就很巧妙的绕开了刚才的悖论。
那么话说回来,上面为什么强调不能用柱高表示概率呢?首先,现实生活中,对于连续性随机变量,例如测量的误差,元件的寿命等等,我们不会对误差=0.0005mm,寿命=1251.3h的概率感兴趣,而是考虑误差落在某个区间的概率,寿命大于某个数的概率,也就是说研究单点的概率没有意义。
这是一点,其次,假设我们将柱高作为概率值,会发生什么?
上面已经研究过了,当柱子无限趋近于一条直线的时候,他的概率是无限趋近于0的,那么每个点的柱高都无限趋近于0,最终呈现出来还是数轴本身,那不是什么也反应不出来吗,完全不能得到关于概率分布形状的任何信息,啥也不是。。。
好了,既然面积表示的是概率,很显然,高度表示的就是当前区间单位区间的概率,学名就叫做概率密度(PDF) ,所有高度值连成的曲线就是概率密度函数。
可以看出来我们是很自然的引出这个概念的,而概率密度这个概念恰恰是令很多初学概率论的同学犯糊涂的。
现在有了上面的引入,让我们结合大多数国内教材的定义来解释一下。
首先我们知道,对于连续性的随机变量,我们无法像离散型随机变量一样通过分布律去研究它,于是我们引出了分布函数的概念:
其中x是自变量,代表数轴上的点,X是随机变量
分布函数就是一个普通的函数,分布函数的值就是一堆概率的集合,通过它,我们能用数学分析的方法来研究随机变量。若已知X的分布函数,我们就可以知道X落在任意区间上的概率。
至于为什么又引出了概率密度的概念,我初学的时候一直觉得这块很突兀很无厘头,但实际上我们只是换了个角度继续研究随机变量罢了。 就像研究火车的速度,第一个角度我们直接画出速度曲线,观察每一点的速度,第二个角度,我们研究曲线的导数,于是引出了加速度的概念,我们还可以继续套娃,研究加速度的导数。。。
所以,明白了吧,明白了我们直接看概率密度的定义:
是分布函数,
是概率密度函数,简称概率密度。
概率P此时在图上的直观呈现就是曲线包围的面积。
更进一步理解 ,概率密度的函数值为概率在该点的变化率,概率密度函数是分布函数的导函数。
概率密度的实际作用是帮助我们理解和计算连续型随机变量的分布和其不同取值范围内出现的概率。通俗地讲,它描述了在某个具体取值附近随机变量出现的“密集程度”(随机变量本质上就是事件,说是事件在某处发生的密集程度是不是就好理解多了)。