在下一次数据科学面试中你必须知道的12个统计学概念

761 阅读14分钟

充满信心地赢得下一次数据科学面试

统计学提供了在数据中寻找结构和有意义的见解的工具和方法,也帮助我们量化内含的不确定性,因此,拥有良好的统计学基础对任何数据科学家来说都是至关重要的。因此,在任何数据科学面试中,我们都会根据我们的统计学知识接受测试。

照片:Myriam JessieronUnsplash

在这篇文章中,我汇编了12个统计学概念,我发现这些概念对破解面试非常有用。因此,我将在这里介绍这12个概念,并解释它们的内容。

  1. 条件概率和贝叶斯定理
    对于任何两个事件A和B,P(A|B)代表事件A发生的条件概率,因为事件B已经发生。条件概率的计算公式由以下公式给出

在继续讨论条件概率的过程中,当新的信息出现时,修改我们对某一事件的先验概率是一个关键阶段,这就是贝叶斯定理的作用。下面的数学方程式概括了贝叶斯定理

在这个方程中,A是一个事件,B是经验证据或从数据中得到的信息。所以,P(A)是事件A的先验概率,P(B)是基于数据证据的事件B的概率,P(B|A)被称为可能性。因此,贝叶斯定理根据我们对事件的先验知识给出了事件的概率,并在我们获得一些新的信息时更新该条件概率。

在这个方程式中,A是一个事件,B是经验证据或从数据中得到的信息。因此,P(A)是事件A的先验概率,P(B)是基于数据证据的事件B的概率,而P(B|A)被称为可能性。因此,贝叶斯定理根据我们对事件的先验知识给出了事件的概率,并在我们获得一些新的信息时更新该条件概率。

贝叶斯定理的一个非常简单的例子是预测某一天下雨的概率,因为早上是阴天。假设在六月的某一天,下雨的概率即P(Rain)为10%,而在下雨的情况下,早上是阴天的概率即P(Cloud|Rain)为50%。此外,6月任何一天早晨多云的概率即P(Cloud)为40%,那么应用贝叶斯定理,我们可以得出结论,鉴于早晨是多云的,今天会下雨的概率为。

2.采样技术

如果我们把一个群体中的所有元素称为人口,那么这个人口的一个子集就称为样本。该样本中的观察值或个体的总数被称为样本大小。人口的任何统计常数,例如,像平均数、人口任何特征的方差这样的描述性措施被称为参数。同样的统计量在基于样本观测值进行计算时将被称为统计量。现在,从人口中选择样本的方法可以分为两种类型--概率性和非概率性。

概率性抽样方法

a.简单随机抽样

在简单随机抽样中,每个样本从人群中被选中的可能性相同。这种技术可以减少选择偏差。然而,这种技术的缺点是,我们可能无法根据任何特定的特征来选择样本,这是不常见的。

**例子--**简单随机抽样的例子可以是根据抽签从一个100人的班级中选择10名学生。

b.系统抽样

在系统抽样中,样本是以定期和指定的时间间隔收集的。系统抽样的优势在于它有助于保持足够的抽样规模。

系统抽样的一个例子是,在一家杂货店中选择每10个顾客进行顾客满意度调查。

c.分层抽样

在分层抽样中,整个人口被划分为不同的子组,也被称为具有相似特征的阶层。这种抽样的主要目的是让所有的子群体都有代表,而这些子群体在所关注的特征上表现出差异性。.

例如,如果我们有兴趣了解印度人对任何特定话题的看法,我们可以根据城市、性别和年龄组来划分人口。这些基于所选特征的子人口被称为阶层,阶层中的每个样本都是基于概率抽样方法选择的,例如,简单随机抽样。

非概率抽样方法

a.便利抽样

在便利抽样中,参与者是根据他们的可用性和参与研究的意愿来选择的。然而,这种技术可能会受到志愿者偏见的影响,这可能是所有非概率抽样方法的风险,因为样本是自己选择的,而不是被随机挑选的。

b.配额抽样

配额抽样在市场研究中相当流行。在这种情况下,采访者只是根据任何研究/调查所需的配额来选择样本。例如,一家智能手机公司可能想调查一个城市中哪个年龄段的人使用哪个品牌的手机。然后,他们应用配额,例如,从这些年龄组中的每个年龄组中选出100人,例如,21-30岁,31-40岁,41-50岁,或者他们可以进一步根据性别规定配额,例如,每个年龄组中的50名男性和50名女性。他们会根据访问的便利性和他们的研究预算来选择样本。然而,如前所述,作为一种非概率性的方法,配额抽样仍然可能有自愿性的偏差。

c.目的性抽样

在目的性抽样中,研究者运用他们对目标人群的专业知识,以非随机的方式选择 "代表性 "样本。目的性抽样无疑是省时省力的,但除了自愿性偏差外,这种抽样方式还可能导致研究者在选择参与者时出现判断偏差/错误。

3.概率分布

概率分布是理解任何数据结构的关键。主要有两种类型的分布--离散分布和连续分布。

a.离散概率分布

这些分布对具有离散值的随机变量的概率进行建模,作为结果。例如,如果X是一个描述抛硬币中人头数的离散随机变量,我们可以多次重复抛硬币,并记录每种可能结果的概率。如果我们用函数的形式来表示,那么它将被称为 "概率质量函数(PMF)",它定义了离散随机变量X取一个特定值x的概率。

b.连续概率分布。另一方面,连续概率分布对随机变量的概率进行建模,这些随机变量可以有任何可能的结果,本质上是连续的。例如,代表一个城镇公民权重的随机变量X的可能值可以有54.5、47.2、60.3等任何数值。例子可以是正态分布、学生T分布、齐次分布、指数分布等。

4.假设检验

我们使用假设来对人口参数提出要求或假设。现在,为了在我们收集的样本数据的基础上验证我们的主张,我们建立了两个假设--空假设和备选假设。

空假设反映了研究人员对假设检验结果的中立意见。它基本上说明了默认的情况,例如,在一个药效实验中,无效假设可以是:得到药物的病人和得到安慰剂的病人组之间的治愈率没有区别。与无效假设完全相反的陈述将是备选假设。替代假设总是对无效假设提出质疑。接受或拒绝无效假设的决定是根据样本数据做出的。

5.信心水平

继续假设检验的概念,了解什么是置信度是非常重要的。假设检验中的置信度是指当无效假设实际为真时不拒绝无效假设的概率。它表达了如果我们再次重复实验,我们有多大把握得到同样的结果。因此,我们构建一个置信区间,这是统计推断中产生的参数的区间估计。这个区间是通过以下公式计算的。

[点估计值±基于所选置信度下的样本分布的临界值*样本的标准偏差]。

例如,如果我们有一个平均数为60,标准差为5的抽样分布,那么95%的置信区间将在(60-1.96*5)即50.2和(60+1.96*5)即69.8之间。这里,1.96是临界值,对于正态分布来说,95%的区域位于1.96的标准差内。

在统计学中,我们永远无法做到百分之百的自信,因为我们总是有一些不确定因素。因此,我们在统计研究中大多会遇到99%、95%或90%的信心水平。

6.P值和显著性水平

对于任何统计推理研究,我们都需要做出拒绝/接受无效假设的决定,而这个决定是基于随机样本的观察值做出的。然而,我们从样本中得出的关于人口的结论总是有可能是错误的。与拒绝实际为真的无效假设相关的错误被称为第一类错误,与接受为假的无效假设相关的错误被称为第二类错误。现在,让我们假设,犯第一类错误的概率是某个数字,即α,它是任何研究者为其研究设定的显著性水平。α为5%表示我们愿意接受5%的机会,即当我们拒绝无效假设时,我们是错误的。另一方面,P值是观察到的显著性水平,它给我们提供了在无效假设为真时获得与从我们的样本数据中计算出的效果一样极端的概率。

7.A/B测试

A/B测试是一个有两组人的随机实验,即A组和B组。用非常简单的语言来说,它是一种比较单一变量的两个变体的方法,以找出哪个变体在受控环境中比另一个变体表现更好。这种技术经常被用于提高客户满意度的营销策略。

例如,可以向一家公司总客户群中的30%发送两封带有不同行动呼吁的营销邮件,只是为了测试哪一个的点击率更高。然后,营销团队等待几个小时,他们选择向其余70%的客户发送点击率更高的邮件。

8.Z检验和T检验

z检验和t检验在假设检验中都非常有用。当我们想了解两个样本的平均值是否有明显的差异时,通常会使用Z检验,这时的样本量很大,即n≥30,而且人口标准差也是我们已知的。另一方面,t检验可以用来比较小样本量n>0的两个样本均值,甚至在我们不知道群体标准差的情况下也可以使用。t检验遵循学生的t分布,而z检验则假定样本分布是正常的。在大样本的情况下,Z检验和t检验将倾向于给我们相同的结果,因为对于足够大的样本量,t分布接近于正态分布,Z分数和t分数之间的差异变得可以忽略不计。现在,当我们想了解样本平均数是否与人口平均数有明显差异时,可以用t检验来进行单样本t检验。由于在t检验的情况下我们不知道群体标准差,所以我们使用样本标准差。

9.协方差和相关性的区别

协方差指标给了我们两个变量之间线性关系的方向。另一方面,相关度给了我们这两个变量之间关系的强度和方向。如果我们考虑一下数学公式,我们可以通过将这些变量的协方差除以相同变量的标准差的乘积来计算两个变量的相关系数。所以,相关值是标准化的。因此,相关系数位于-1到+1之间,但协方差可以位于-∞到+∞之间。

10.线性回归与逻辑回归

当因变量是连续的时候,线性回归是常用的。线性回归的一个关键假设是,因变量和自变量之间存在线性关系。另一方面,当因变量是二元的时候,就会使用Logistic回归。它通过将数据拟合为一个对数函数来预测事件发生的概率。对于 Logistic 回归,我们不需要因变量和自变量之间的线性关系。

线性回归在数据中拟合出一条直线,而Logistic回归在数据中拟合出一条曲线。线性回归假设因变量的高斯(或正态)分布。Logistic回归假设因变量的二项分布。

11.中心极限定理和大数法则

中心极限定理指出,当我们从人口中收集样本时,无论某一特定变量在人口中的分布如何,随着样本量的增加,变量平均值的抽样分布将接近正态分布。中心极限定理在统计学中非常重要,主要有两个原因--正态性假设对于参数假设检验和估计的精确性至关重要。在现实生活的数据中,我们经常会遇到非正态分布。因此,我们可能会担心我们正在进行的假设检验或我们得到的参数估计没有给我们带来准确的结果。然而,如果我们有一个大的样本量(>30),那么CLT允许我们使用测试和估计,即使数据不是正态分布。

另一方面,根据大数定律,随着我们在实验中增加试验的数量,试验的平均结果最终会接近真实的群体平均数。例如,当我们抛出一枚公平的硬币1000次时,与只抛出10次相比,我们更有可能看到一半的时间出现正面。

12.最大似然估计(MLE

最大似然估计包括通过最大化似然函数来估计参数,以找到最能解释观测数据的参数。MLE就是这样一个预测性建模框架,通过优化问题找到模型参数。这里,似然函数p(y| θ)描述了在给定参数θ的情况下观察到数据y的可能性。我们通过最大化给我们带来最大似然值的参数集(theta)来解决优化问题。MLE在大数据量下效果很好,并给我们提供无偏的最小方差估计值。

结束语。

谢谢你的阅读!

对统计学有非常深刻的理解是成功成为一名数据科学家的先决条件。我希望这篇文章能帮助你为下一次数据科学面试做准备。我在这里讨论的12个概念将为你进一步学习建立起重点领域。


12个统计学概念,你必须知道你的下一个数据科学面试是最初发表在Medium上的Towards Data Science,人们通过强调和回应这个故事继续对话。