数据科学中统计和概率的概念介绍

343 阅读3分钟

Statistics and Probability for Data Science
Vector byiconicbestiary

关键的经验之谈

  • 大多数对进入数据科学领域感兴趣的初学者总是担心数学要求。
  • 数据科学是一个非常量化的领域,需要高级数学。
  • 但要想入门,你只需要掌握一些数学题目。
  • 在这篇文章中,我们将讨论统计和概率在数据科学和机器学习中的重要性。

统计学和概率论

统计和概率用于特征的可视化、数据预处理、特征转换、数据归纳、降维、特征工程、模型评估等。本文将重点介绍该领域初学者的基本统计和概率概念,即。均值或期望值、方差和标准差、置信区间、中心极限定理、相关性和协方差、概率分布和贝叶斯定理。

平均数或期望值

假设 X是一个有N个观测值的随机变量,那么X 的均值由以下公式给出

Mean or Expectation Value

平均值或期望值是一种中心趋势的量度。

方差和标准差

假设X是一个有N个观测值的随机变量,那么X的方差由以下公式给出。

Variance and Standard Deviation

标准差是方差的平方根,是对不确定性或波动性的一种测量。

信心区间

假设随机变量X是正态分布,那么68%和95%的置信区间*(CI*)由以下公式给出

Confidence IntervalConfidence Interval

中心极限定理(CLT)

中心极限定理(CLT)指出,概率分布样本的平均值是一个随机变量,其平均值由人口平均值给出,标准差由人口标准差除以N的平方根给出,其中N是样本大小。

Equation 是人口平均值,Equation 是人口标准差。如果我们从规模为N的人口中抽取一个小样本,那么根据CLT,样本平均值为

Central Limit Theorem

而样本的标准差为

Central Limit Theorem

相关性和协方差

相关性和协方差是对数据集中共同运动的衡量。为了量化特征之间的相关程度,我们可以用这个公式来计算协方差矩阵。

Correlation and Covariance

概率分布

尽管我们总是假设数据集中的变量或特征是正态分布的,但绘制概率分布图以直观了解特征的分布情况是很重要的。例如,使用R的dslabs包中的高度数据集,我们可以计算出数据集中所有高度的概率分布,如下图2所示。

Probability Distribution
图2

从图2中,我们观察到高度数据集近似于正态分布,其平均值约为68英寸。现在,如果我们分别绘制男性和女性身高的概率分布,我们会观察到两条不同的曲线,如图3所示。

Probability Distribution
图3

从图3中,我们观察到女性的平均身高(约63英寸)小于男性的平均身高(约69英寸),这表明从统计学上讲,男性平均比女性高。欲了解更多信息和用于生成图2和图3的代码,请参见这篇文章。贝叶斯定理的解释

贝叶斯定理

贝叶斯定理在二元分类问题中起着重要作用。它被用来解释二元分类算法的输出。贝叶斯定理指出,两个事件A和B的条件概率通过这个方程相关。

Bayes’ Theorem

关于贝叶斯定理在二元分类问题中的实现,请看这篇文章。贝叶斯定理详解

总结

综上所述,我们已经讨论了概率和统计学中的7个重要概念,这些概念对于数据科学的初学者来说是必不可少的。其他高级主题包括AB测试、假设测试、蒙特卡洛模拟等。