数据分析中的统计学

49 阅读8分钟

本系列文章针对:从未接触过数据分析的小白,接触过数据分析但不会面试的同行,准备毕业后做数据分析的大学生。

上一篇文章我们说到了描述性统计在数据分析中的应用,在数据分析师的工作过程中虽然不会再遇到基础的统计学问题,但这部分问题是数据分析的基础,没有良好的基石,建再高的大楼都是偏颇的。
我曾经遇到过一个问题,业务需求是计算利润增长率。去年的利润是 -8000,今年的利润是 -9000,按照同比计算公式:同比=(今年-去年)/去年,算出来的结果是 11% 利润明明负的更多,利润增长率却是正值。这个答案明显和事实不符。那么是不是公式有问题,Excel 有问题或者是产品有问题。显然都不是,因为计算利润增长率的前提是基期(去年)的利润是正值才能计算增长率,像这种利润为负值情况应该是计算亏损率。当然这个计算公式和我们今天要讨论的主题概率,概率分布和统计推断是没有多大联系的,只是在警醒我们,作为一名数据分析师,统计学的 理论知识 是核心基础。

1 概率

首先,我们需要知道的是在自然界和人类社会中,存在着两种现象,一种是确定性现象,在一定条件下只有一种结果。比如,每天早晨太阳都是从东方升起。第二种是随机现象,在一定条件下可能有多种结果。例如,抛一枚硬币可能出现正反两面。
因此,随机现象满足两个特点:

  • 结果不止一个;
  • 会出现哪一个结果,人们事先并不知道。

随机现象的存在,使得我们生活中充满了不确定性的问题,因此,概率论和统计学就是帮我们 解决不确定性问题的数学工具。

1.1 古典概率

P(A)=m/n=样本中事件A出现的次数/样本中可能出现的事件总数
例如:这次公司 组织年会,两个人住同一间房。如果随机分配,你们组一共有6个小伙伴,你和你关系最好的小伙伴(小明)你们碰巧分到同一间房的概率是多少?
这里n是随机分房可能有出现的分配方式总数,如下表所示,一共有5+4+3+2+1=15种可能性
这里m是随机分房是你和小明正好分到同一间房,会出现的分配方式数,有一种
因此P=1/15

小明小张小王小李小刘
小明
小张
小王
小李
小刘

需要注意的是,在古典概率中m和n都是有限的。

1.2 条件概率

  • 当某个事件发生的前提下,另一个事件发生的概率
  • 公式:P(A|B)=P(AB)/P(B)

它代表的是,在事件A在事件B发生的条件下发生的概率。其中P(AB)是AB的联合概率也可以理解为两次事件同时发生的概率。
有一道经典的面试题:一对夫妻有两个孩子,已知一个是男孩,另一个也是男孩的概率是多少。
从生物学的角度来说,一定是1/2,但如果面试中你这么回答可能就理解错了面试官的意思。它是一个条件概率问题,我们考虑一对夫妻可能的生育状况:男男,男女,女男,女女。如果已知一个是男孩,那我们排除女女这个情况,这时第二个也是男孩的概率就等于1/3。

2 概率分布

了解概率分布之前我们需要清楚两个事情

  • 数据有哪些类型

    • 将数据分为离散数据和连续数据

    • 离散数据:顾名思义,这类数据是 不连续的,两个数据点之间的数据是有限个的。例如抛硬币的结果,只有正反两种。

    • 连续数据:在一定区间内,任意取值、数值是连续不断的,相邻两个数值可以无限分割,例如时间。

  • 什么是分布

    • 直观的说,它是指数据在统计图中的形状,那么概率分布就是概率在统计图中的形状。

你可能想知道,了解概率,或许还有点用处,但了解概率分布有什么用呢。其实在统计学家们研究概率分布时,他们发现有几种形状反复出现。于是,他们开始研究这些形状的规律,当你掌握了这些规律,碰到类似的数据类型和情况你就可以站在前人的肩膀上,直接套用这些概率分布。这里有些概率分布是你需要掌握的。

2.1 二项分布

首先什么样的事件可以算二项分布 有三个条件

  • 做某件事的次数是固定,例如你买了 3 次彩票,抛了 4 次硬币,约过 5 个女生出来吃饭。
  • 每次事件都只有两个可能的结果,例如买彩票中奖或不中奖,硬币是正面或反面,约女生成功或失败。
  • 每次成功的概率都是相等的,例如你买彩票中奖的概率是百万分之一,抛硬币正面的概率是二分之一,约一个女生成功的概率是十分之一。

如果你感兴趣的内容是成功n次的概率是多少,那么二项分布的公式可以帮助你快速计算。

2.2 泊松分布

假设你们公司的运营想弄一个抽奖活动,你帮他们算了一下,最后算出来一天内中奖5次的概率超过了80%,和你的成本比较一下,发现要赔钱,那就可以修改一下你们的抽奖内容。
什么样的事件可以算泊松分布 两个条件

  • 独立事件,例如每次抽奖都是独立的,不会因为前一次抽完奖,第二次中奖的概率就发生了变化。
  • 在任意相同时间范围内,事件发生的概率相同,例如第一天用户中奖的概率和第二天用户中奖的概率相同。

如果你想知道某个时间范围内,发生某件事n次的概率有多大,那么可以用泊松分布

image.png

这些公式看起来复杂,你也不需要记住他们,它们都可以通过 Excel 等软件直接计算,你只需要知道在什么情况,使用它们即可。

3 统计推断

统计推断是通过样本推断总体的统计方法。
被推断的总体 是通过总体 分布的数量特征即参数 (如期望和方差) 来反映的。因此,统计推断包括三个步骤:

  • 对总体的未知参数进行估计;
  • 对关于参数的假设进行检查;
  • 对总体进行预测预报等。

科学的统计推断所使用的样本,通常通过随机抽样方法得到。统计推断的理论和方法论基础,是概率论和数理统计学。
我们引入一个小故事:
20世纪20年代,正值一天下午茶时间。在英国剑桥校园里,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的绝大多数人(很多是大学教授)对这位女士的"胡言乱语"嗤之以鼻。然而,其中一位身材矮小、戴着厚眼镜的先生却不这么看,他对这个问题很有兴趣。这个人就是费歇尔(R. A. Fisher)。
他设计了一个随机试验:
首先,把8杯已调制好的茶放到那位女士的面前,告诉这位女士其中有4杯是先加茶后加奶,4杯是先加奶后加茶的。不过,排放的顺序是随机的, 看看这位女士能否正确地品尝出不同的茶。

考虑假设 (H) :此女士无鉴别力,给这位女士8杯(茶奶、奶茶各4杯)进行品评。当假设H成立时,全部选对的概率仅为 0.014,实际上,该女士确实全部选对,于是,我们必须承认下述两种情况必发生其一:

  • H不成立,即此女士有鉴别力;
  • 概率为0.014的小概率事件发生了。

根据小概率原理,小概率事件在一次试验中是几乎不发生的. 所以我们可以认为【H不成立,此女士有鉴别力】。
在这个故事中,我们的总体是所有的奶茶组合,样本是这8杯奶茶组合。通过假设检验我们推断出这名女士有鉴别能力。

下期预告:数据分析中常用的机器学习