关键的经验之谈

统计学和概率论

统计和概率用于特征的可视化、数据预处理、特征转换、数据归纳、降维、特征工程、模型评估等。本文将重点介绍该领域初学者的基本统计和概率概念，即。均值或期望值、方差和标准差、置信区间、中心极限定理、相关性和协方差、概率分布和贝叶斯定理。

假设 X是一个有N个观测值的随机变量，那么X 的均值由以下公式给出

Mean or Expectation Value

平均值或期望值是一种中心趋势的量度。

假设X是一个有N个观测值的随机变量，那么X的方差由以下公式给出。

Variance and Standard Deviation

标准差是方差的平方根，是对不确定性或波动性的一种测量。

假设随机变量X是正态分布，那么68%和95%的置信区间*（CI*）由以下公式给出

Confidence Interval

中心极限定理（CLT）指出，概率分布样本的平均值是一个随机变量，其平均值由人口平均值给出，标准差由人口标准差除以N的平方根给出，其中N是样本大小。

让 $\boldsymbol{\mathbf{\mu}}$ 是人口平均值， $\boldsymbol{\mathbf{\sigma}}$ 是人口标准差。如果我们从规模为N的人口中抽取一个小样本，那么根据CLT，样本平均值为

Central Limit Theorem

而样本的标准差为

Central Limit Theorem

尽管我们总是假设数据集中的变量或特征是正态分布的，但绘制概率分布图以直观了解特征的分布情况是很重要的。例如，使用R的dslabs包中的高度数据集，我们可以计算出数据集中所有高度的概率分布，如下图2所示。

Probability Distribution
图2

从图2中，我们观察到高度数据集近似于正态分布，其平均值约为68英寸。现在，如果我们分别绘制男性和女性身高的概率分布，我们会观察到两条不同的曲线，如图3所示。

Probability Distribution
图3

从图3中，我们观察到女性的平均身高（约63英寸）小于男性的平均身高（约69英寸），这表明从统计学上讲，男性平均比女性高。欲了解更多信息和用于生成图2和图3的代码，请参见这篇文章。贝叶斯定理的解释。

贝叶斯定理在二元分类问题中起着重要作用。它被用来解释二元分类算法的输出。贝叶斯定理指出，两个事件A和B的条件概率通过这个方程相关。

Bayes’ Theorem

关于贝叶斯定理在二元分类问题中的实现，请看这篇文章。贝叶斯定理详解。

综上所述，我们已经讨论了概率和统计学中的7个重要概念，这些概念对于数据科学的初学者来说是必不可少的。其他高级主题包括AB测试、假设测试、蒙特卡洛模拟等。