可视化数据科学中的概率分布以帮你更好地理解各种分布在某些分布假设下，某些机器学习模型被设计为最佳工作。因此，了解我们正在

在某些分布假设下，某些机器学习模型被设计为最佳工作。因此，了解我们正在使用哪个发行版可以帮助我们确定最适合使用哪些模型。

![](https://static001.geekbang.org/infoq/90/909441136d47ff97e3eb25285c5c80de.jpeg)

介绍

拥有良好的统计背景可能对数据科学家的日常生活大有裨益。每次我们开始探索新的数据集时，我们首先需要进行探索性数据分析（EDA），以了解某些功能的主要特征是什么。如果我们能够了解数据分布中是否存在任何模式，则可以量身定制最适合我们的案例研究的机器学习模型。这样，我们将能够在更短的时间内获得更好的结果（减少优化步骤）。实际上，某些机器学习模型被设计为在某些分布假设下效果最佳。因此，了解我们正在使用哪些发行版可以帮助我们确定最适合使用哪些模型。

伯努利分布

伯努利分布是最容易理解的分布之一，可用作导出更复杂分布的起点。

这种分布只有两个可能的结果和一个试验。

一个简单的例子可以是抛掷偏斜/无偏硬币。在此示例中，可以认为结果可能是正面的概率等于p，而对于反面则是 （1-p）（包含所有可能结果的互斥事件的概率总和为1）。

在下图中，我提供了一个偏向硬币情况下伯努利分布的例子。

![](https://static001.geekbang.org/infoq/02/02522faa7f1589cf66d66103a95cdc6a.png)

![](https://static001.geekbang.org/infoq/a7/a729b6a342cad7004ab3454846502ada.png)

均匀分布

均匀分布可以很容易地从伯努利分布中得出。在这种情况下，结果的数量可能不受限制，并且所有事件的发生概率均相同。

例如，想象一下一个骰子的掷骰。在这种情况下，存在多个可能的事件，每个事件都有相同的发生概率。

![](https://static001.geekbang.org/infoq/cf/cf802cf725f004885d68167314389a5d.png)

![](https://static001.geekbang.org/infoq/c9/c981029174ca56f50f8ecf8bf0f84083.png)

二项分布

二项分布可以被认为是遵循伯努利分布的事件结果的总和。因此，二项分布用于二元结果事件，成功和失败的可能性在所有后续试验中均相同。此分布采用两个参数作为输入：事件发生的次数和分配给两个类别之一的概率。

一个实际的二项式分布的简单示例可以是重复一定次数的有偏/无偏硬币的抛掷。

改变偏差量将改变分布的外观（如下图所示）。

![](https://static001.geekbang.org/infoq/8e/8e33d51179c4217a3cfcf8c53f350f8f.png)

![](https://static001.geekbang.org/infoq/d7/d73d1e7f780fa1ad5e6f7915fbcff6ad.png)

二项分布的主要特征是：

给定多个试验，每个试验彼此独立（一项试验的结果不会影响另一项试验）。
每个试验只能导致两个可能的结果（例如，获胜或失败），其概率分别为 p 和 （1- p）。

如果给出成功的概率（p）和试验次数（n），则可以使用以下公式计算这n次试验中的成功概率（x）（下图）。

![](https://static001.geekbang.org/infoq/16/16bcddc633f2594d83850976f0dd2a64.png)

正态（高斯）分布

正态分布是数据科学中最常用的分布之一。我们日常生活中发生的许多常见现象都遵循正态分布，例如：经济中的收入分布，学生的平均报告，人口的平均身高等。此外，小的随机变量的总和还导致：通常遵循正态分布（中心极限定理）。

“在概率论中， 中心极限定理 （CLT）确定，在某些情况下，当添加独立随机变量时，即使原始变量本身未呈正态分布，其适当归一化的和也趋于正态分布。”

—维基百科

![](https://static001.geekbang.org/infoq/f4/f43cb07b03024db1a6d336439676df77.png)

![](https://static001.geekbang.org/infoq/f5/f52dbca043eded4d62ae70b945a19172.png)

可以帮助我们识别正态分布的一些特征是：

曲线在中心对称。因此，均值，众数和中位数都等于相同的值，从而使所有值围绕均值对称分布。
分布曲线下的面积等于1（所有概率之和必须等于1）。

可以使用以下公式得出正态分布（下图）。

![](https://static001.geekbang.org/infoq/3d/3d0e01200f508cc0891604e2ad4d8ca8.jpeg)

使用正态分布时，分布平均值和标准偏差起着非常重要的作用。如果我们知道它们的值，则只需检查概率分布即可轻松找出预测精确值的概率（下图）。实际上，由于分布特性，68％的数据位于平均值的一个标准偏差范围内，95％的数据位于平均值的两个标准偏差范围内，99.7％的数据位于平均值的三个标准偏差范围内。

![](https://static001.geekbang.org/infoq/51/5123bd42959edefaa519aa63cb78f6b5.png)

许多机器学习模型被设计为遵循正态分布的最佳使用数据。一些例子是：

高斯朴素贝叶斯分类器
线性判别分析
二次判别分析
基于最小二乘的回归模型

此外，在某些情况下，还可以通过应用对数和平方根之类的转换将非正常数据转换为正常形式。

泊松分布

泊松分布通常用于查找事件可能发生或不知道事件通常发生的频率。此外，泊松分布还可用于预测事件在给定时间段内可能发生多少次。

例如，保险公司经常使用泊松分布来进行风险分析（例如，在预定时间范围内预测车祸事故的数量），以决定汽车保险的价格。

当使用Poisson Distributions时，我们可以确信发生不同事件之间的平均时间，但是事件发生的确切时刻在时间上是随机间隔的。

泊松分布可以使用以下公式建模（下图），其中 λ 表示一个时期内可能发生的预期事件数。

![](https://static001.geekbang.org/infoq/60/60ccf57e070539487cd21ff0ade93693.png)

描述泊松过程的主要特征是：

事件彼此独立（如果事件发生，则不会改变另一个事件发生的可能性）。
一个事件可以发生任何次数（在定义的时间段内）。
两个事件不能同时发生。
事件发生之间的平均速率是恒定的。

在下图中，显示了改变周期（λ）中可能发生的事件的预期数目如何改变泊松分布。

![](https://static001.geekbang.org/infoq/7d/7d817461d966fbe7e5d8b5c598ae350b.png)

![](https://static001.geekbang.org/infoq/e5/e52291170aba5cab7ff4fcc6e5d49ff6.png)

指数分布

最后，指数分布用于对不同事件发生之间的时间进行建模。

举例来说，假设我们在一家餐厅工作，并且希望预测到到不同顾客进入餐厅之间的时间间隔。针对此类问题使用指数分布，可能是一个理想的起点。

指数分布的另一个常见应用是生存分析（例如，设备/机器的预期寿命）。

指数分布由参数λ调节。λ值越大，指数曲线到十年的速度就越快（下图）。

![](https://static001.geekbang.org/infoq/db/dbc3a9a03e8abc138ec4c28a81539435.png)

![](https://static001.geekbang.org/infoq/0b/0bd85c45b840d488f04f395748493937.png)

指数分布使用以下公式建模（下图）。

![](https://static001.geekbang.org/infoq/af/af6bcb5662b9841a9c76655d5ab21674.png)

如果你喜欢本文的话，欢迎点赞转发！谢谢。

![](https://static001.geekbang.org/infoq/90/903237ffd0a3b3ae06272386f26ecb9e.png)

看完别走还有惊喜！

我精心整理了计算机/Python/机器学习/深度学习相关的2TB视频课与书籍，价值1W元。关注微信公众号“计算机与AI”，点击下方菜单即可获取网盘链接。

可视化数据科学中的概率分布以帮你更好地理解各种分布

介绍

同类型的数据