统计偏差类型解释(附例子)--第一部分

582 阅读13分钟

人类是愚蠢的。

我们都是,因为我们的大脑就是这样的。这种内在愚蠢的最明显证据是我们的大脑产生的不同偏见。即便如此,至少我们可以比一般人更聪明一点,如果我们意识到了这些偏见。

这是针对有抱负的数据科学家的博客,所以在这篇文章中我将只关注最重要的统计偏差类型。但我保证,即使你没有在寻找数据科学的职业(还没有),你也会通过阅读这篇文章获益良多。为了便于理解,我将为每种统计偏差类型提供两个例子:一个是日常的,一个是与数据科学有关的!我将在此说明,统计偏差的类型有很多,但都不是最重要的。

而且要说明的是:**有偏见的统计是不好的统计。**我在这里描述的一切,都是为了帮助你防止一些不太聪明的 "研究者 "们时常犯的错误。

最重要的统计偏差类型

有一个很长的统计偏差类型的清单。我只选择向你展示其中的9种。为什么?因为这九种类型的统计偏差是最重要的。我每天都看到这些影响数据科学家和分析师的工作。

以下是它们。

  1. 选择偏差
  2. 自我选择偏差
  3. 回忆偏差
  4. 观察者偏差
  5. 幸存者偏差
  6. 遗漏的变量偏差
  7. 因果关系偏差
  8. 资助偏差
  9. 认知偏差

统计学偏差#1:选择偏差

statistical bias types - random sampling

适当的随机抽样

statistical bias types - selection bias

选择偏差

当你错误地选择你的样本或数据时就会出现选择偏差。通常情况下,这意味着意外地与你的受众的特定子集而不是整体一起工作,使你的样本对整个人口没有代表性。有许多潜在的原因,但到目前为止,我看到的最典型的原因是只收集和使用容易获得的数据*。*

选择偏见的日常例子。

请回答这个问题。人们对唐纳德-特朗普担任总统的总体看法是什么?

大多数人对这个问题有一个直接的、非常 "知情 "的答案。不幸的是,对他们中的许多人来说,他们的 "研究 "来源是他们的社交媒体信息。非常糟糕和可悲的做法,因为他们在那里看到的并不显示公众意见--只是他们朋友的意见。(事实上,它甚至更窄,因为他们只看到那些活跃并在社交媒体上发帖的朋友的意见--所以他们的朋友中的某一部分被过度代表了)。这就是典型的选择偏差:容易获得的数据,但只针对整个人口中非常具体的、没有代表性的子集。

注1:我确实建议屏蔽你的Facebook feed,原因很多,但主要是为了不让你变得心胸狭窄。FB News Feed Eradicator!
注2:如果你想阅读另一个经典的选择偏见故事,请查看《文学文摘》如何在80年前犯了一个类似的错误(也被称为 "覆盖不足的偏见")。

与数据科学有关的选择偏见的例子。

下面是另一个选择偏见的例子。假设你想在你的网站上创建一个新产品。在花费大量的时间和金钱之前,你想知道你的受众是否愿意为它付费。因此,你向你的通讯订阅者发送了一份调查,对吗?当然,与你的受众互动是很重要的(我也时常向我的通讯订阅者发送调查问卷),但是有一个问题当涉及到调查结果时,你应该意识到,你的通讯订阅者并不代表你的全部受众。

可能有一堆人愿意为你的产品买单,但却不是你的通讯名单的一部分。另一方面,你的名单上可能有很多人不会花钱购买你的产品--他们只是为了得到你的免费产品的通知。所以,如果你得到95%的 "不 "和5%的 "是 "的答案,这意味着什么呢?完全没有意义。这是一个倾斜的、有偏见的统计数据......而这只是调查是最糟糕的研究方法的一个原因(见下文其他内容)。

注:顺便说一下,对于这个特殊的例子,我建议用假门测试来代替!

统计学偏见#2:自我选择偏见

自我选择偏差是选择偏差的一个子类别。如果你让你的分析对象自己选择,这意味着不太主动的人将被排除在外。更大的问题是,自我选择是一种特定的行为--可能与其他特定行为相关--所以这个样本并不代表整个人口。

自我选择偏差的日常例子。

任何类型的投票或调查。例如,如果你用调查来研究成功企业家的行为,你的结果肯定会有偏差。为什么?因为成功人士很可能没有时间或动机来回答或甚至看一眼随机调查。因此,你99%的答案将来自那些认为自己很成功,但实际上并不成功的企业家。在这种特定情况下,我宁愿尝试邀请一些企业家(被证明是成功的)进行30分钟的采访。

与数据科学有关的自我选择偏差的例子。

假设你有一个在线产品--以及一个伴随着100多篇操作文章的知识库。让我们通过比较那些至少读过1篇文章的用户和没有读过的用户,来了解你的知识库有多好。你会发现,阅读文章的用户在使用产品方面比不阅读的用户要活跃50%。知识库的表现非常好!或者说是吗?事实上,我们不知道,因为阅读文章的用户是整个人群中的一个特殊子集,他们可能对你的产品有更高的承诺,因此对你的知识库更感兴趣。换句话说,他们已经 "选择了自己 "进入读者群体。这种自我选择的偏见导致了一个典型的相关/因果困境,你永远无法通过对历史数据集的研究来解决,只能通过A/B测试

初级数据科学家的第一个月

一个100%实用的在线课程。一个为期6周的模拟在一个真实的创业公司担任初级数据科学家的过程。

"解决真正的问题,获得真正的经验--就像在真正的数据科学工作中一样"。

了解更多...

统计学偏差#3。回忆性偏差

statistical bias types - recall bias

回忆偏差是面试/调查情况的另一个常见错误。它发生在受访者没有正确记住事情的时候。这与记忆力的好坏无关--人类默认有选择性的记忆。几年后(甚至几天后),某些事情会留下来,而另一些则会消失。这很正常,但它使研究变得更加困难。

回忆偏差的日常例子。

三年前的假期怎么样?棒极了,对吗?回顾过去,我们倾向于忘记不好的事情,只保留对好的事情的记忆。虽然这不能帮助我们客观地评估不同的记忆,但我很确定我们的大脑使用这种类型的偏见是有原因的。

与数据科学有关的回忆偏差的例子。

我时常举办数据科学研讨会。当然,我总是在事后发出反馈表,这样我就可以根据参与者的反馈使研讨会变得越来越好。我通常会在研讨会结束后的第二天发送,但有一个特殊情况,我完全忘记了,在一周后才发送。看着这些评论,那是我最成功的一次研讨会。只是,这不一定是真的。更有可能的是,回忆性偏见可能已经开始发挥作用了。研讨会结束一周后,没有一个与会者会想起咖啡是否是冷的,或者我是否在这里或那里过度解释了一张幻灯片。他们只记住了好的方面。不是说我不高兴得到好的反馈,但如果咖啡冷的,我想知道它,这样我就可以在下一次把它修好......

统计学偏见#4:观察者偏见

statistical bias types - observer bias

当研究者下意识地将他/她的期望投射到研究上时,观察者偏差就会发生。它可以有多种形式,比如(无意中)影响参与者(在访谈和调查中),或者做一些严重的挑剔(专注于支持我们假设的统计数据,而不是那些不支持的。)

观察者偏见的日常例子。

"爆炸性新闻!"耸人听闻的文章往往来自于糟糕的研究。需要一个非常彻底和认真的调查性记者才能接受在出版阶段拒绝自己的空洞假设。如果一个记者花了一个月的时间进行调查,以证明当地的犯罪率高是因为警察不小心,她可能会找到一种方法来证明它--抛开反驳和任何严肃的统计考虑。

当我意识到这种统计学上的偏见有多大时,我决定要怀疑我在新闻中读到的一切......而当我了解到其他常见的偏见类型,如资金偏见(研究倾向于支持金融赞助商的利益)或出版偏见(令人惊讶的研究结果往往被发表,诱使研究人员将其极端化),我最后得出结论,阅读任何类型的网络媒体都不会让我接近关于我们世界的任何种类的真相。

从那时起,我消费的是值得信赖的统计数据,而不是网络媒体--甚至更好。我试图找到值得信赖的原始数据,并做自己的研究和分析,以找到一个更无偏见的真相。

数据科学相关的观察者偏见的例子。

观察者偏见也会影响数据项目--尤其是当你在进行定性研究类型(如可用性测试)时。作为一个用户研究人员,你非常了解你的产品(也许你也喜欢它),所以潜意识里你可能会有期望。如果你是一个经验丰富的用户体验研究员,你会知道如何不要用你的问题影响你的测试者......但是如果你是这个领域的新人,请确保你花足够的时间准备好的、没有偏见的问题和场景。也许可以考虑聘请一个专业的用户体验顾问来帮忙。

注意:在我的研讨会反馈例子中,观察者偏见是另一种偏见类型,可能发生在我的研讨会反馈表中。也就是说,当我在研讨会结束后立即发出调查问卷时。为什么?因为参与者可能受到与我本人见面的影响--而且可能不想用负面的反馈来 "伤害我的感情"。研讨会的反馈表应该在研讨会本身结束后的1天内准时发送。

统计学偏见5:幸存者偏见

statistical bias types - survivorship bias

幸存者偏差是一种统计偏差类型,研究者只关注已经经过某种预选过程的那部分数据集--而忽略了那些在这个过程中脱落的数据点(因为它们已经不可见)。

幸存者偏差的日常例子。

统计学偏见最有趣的故事之一:掉下来的猫。1987年有一项关于猫咪坠楼的研究。它说,从高楼坠落的猫比从低处坠落的猫受伤更少。很奇怪。他们用终点速度来解释这一现象,这基本上意味着,从高于六层楼的地方坠落的猫在坠落过程中达到了最大速度,所以它们开始放松,准备着陆,这就是为什么它们不会伤得那么重。

尽管听起来很荒谬,但这一理论被证明是错误的。10年后,《直言不讳报》指出,从高于6层楼的地方掉下来的猫可能有更高的死亡机会,因此没有被送到兽医那里--所以它们根本没有被登记,没有成为研究的一部分。而那些从更高处坠落但幸存下来的猫只是更幸运地坠落,这就是为什么它们的伤害更少。幸存者偏差--字面上的意思。(虽然我为这些猫咪感到遗憾)。

与数据科学有关的幸存者偏差的例子。

阅读案例研究。案例研究对于新项目的灵感和想法是超级有用的。但是,要时刻提醒自己,只有成功的故事才会被发表!你永远不会听到关于成功的故事。你永远不会听到有人使用完全相同的方法,但却失败的故事。

不久前,我读了一堆关于退出意向弹出式广告的文章。每篇文章都宣称,退出意向弹出式广告非常好,能带来30%、40%、甚至200%的通讯订阅量的收益。(事实上,它在我的网站上的效果也很好......)但让我们休息一下。这是否意味着退出式弹出窗口对所有人都有效?难道不可能有一些企业在测试了退出式弹出窗口后发现它实际上损害了用户体验?或品牌?或者页面加载时间?如果是这样,他们会写一篇关于这个失败的实验的文章吗?可能不会。事情是,大多数人根本不喜欢写不成功的实验结果......他们只是忘记它,继续下一个实验。

重点是:如果你读到一个案例研究,请思考它,研究它,测试它--并根据确凿的证据来决定它是否是适合你的解决方案。

还有4种统计偏差类型和一些避免它们的建议...

这仅仅是个开始!在下一篇文章中,我将继续介绍每个数据科学家和分析师应该了解的另外4种统计偏差类型。之后的一周,我将给你一些关于如何克服这些特定类型偏见的实用建议

更新:这里是《统计偏差类型解释》--第二部分

干杯。
托米-梅斯特

The postStatistical Bias Types explained (with examples) - part 1appeared first onData36.