从数据统计分析中做出更好的商业决策来取得职业成功-一-从数据统计分析中做出更好的商业决策来取得职业成功（一）一、确定性

从数据统计分析中做出更好的商业决策来取得职业成功（一）

原文：Better Business Decisions from Data Statistical Analysis for Professional Success

协议：CC BY-NC-SA 4.0

一、确定性的缺乏

What Time Will the Next Earthquake Be?

2012 年 10 月 22 日，在意大利，六名地球物理学家和一名政府民防官员因低估拉奎拉市附近发生严重地震的风险而被以过失杀人罪判处六年监禁。在几次地震后，这七人于 2009 年 3 月 31 日在委员会开会，考虑大地震的风险。他们记录了三个主要结论:地震是不可预测的，拉奎拉地区是意大利地震风险最高的地区，短期内不太可能发生大地震。4 月 6 日，一场大地震发生了，300 多人丧生。

法院对待地震学家的方式不仅引起了在其他国家工作的地震学家的关注，也引起了其他领域中与风险评估有关的专家的关注。这七人都在 2013 年 3 月提出了上诉，但似乎几年内都不太可能对此案做出裁决。不管是什么原因，这一案例凸显了依据统计数据做出决策的困难和危险。如果决定一件事不太可能发生，但它还是发生了，这个决定是错误的吗？正确的答案是否定的，因为不太可能发生的事情确实会发生——但有一种普遍的误解认为答案是肯定的。

这种看法的一个不幸后果是，要么越来越难找到准备在涉及风险的情况下做出决策的人，要么决策基于最糟糕的情况，从而经常造成不必要的中断和费用。在健康和安全立法方面也有这样的例子。一些学校老师拒绝带孩子去学校郊游，以防发生意外。加油站贴出警告，指示顾客不要在加油站附近使用手机，尽管从未有过因使用手机而引发火灾的报道。房主对是否清除人行道上的积雪犹豫不决，因为他们担心清理不足可能会导致路人摔倒，从而导致索赔。一个传统的英国游戏，由小学生玩，有两个参赛者，每个人在一根绳子的末端有一个七叶树。每个玩家轮流旋转自己的七叶树来粉碎对方悬挂的七叶树。操场上散落着碎片！这种游戏已经玩了几代，没有引起公众的关注，但英国的一些学校现在坚持要求孩子们必须戴手套和护目镜。

即使是我们每天做出的琐碎决定，也往往是基于统计数据，具有一定程度的不确定性。我们要去参加一个会议，我们决定赶上午 9:20 的火车。我们从过去的经验中知道火车通常是准时的，我们从来不知道它不运行。另一方面，如果我们知道火车经常晚点，那么我们可能会决定赶更早的火车。当然，我们不能肯定火车会准时。我们甚至不能确定会议是否会举行。

当然，我们可以根据我们可以确定的事情做出决定，但这些都是相当无关紧要的日常活动或定期遇到的观察。这些决定是基于公认的事实。困难的决策——重要的决策——通常涉及某种程度上不确定的问题。

证据经常被引用作为决策的正当理由，但即使在这里，我们也必须小心地认识到资格或例外可能适用。法庭要求证据，但有一个限定条件，那就是它应该是排除合理怀疑的证据。据说科学家的工作是通过实验和观察来证明事物。事实上，科学家所能做的不过是提供解释事物运作方式的理论，并允许做出预测。这些理论总是被认为是暂时的。如果他们不能做出正确的预测，他们将被修改或替换。我们经常听到科学已经证明了这个，那个，和其他的，而它却没有这样做。当然，它提供了解释和许多正确的预测，由此我们的知识增加了，我们的技术进步也以此为基础。

根据定义，一个陈述可能是真实的。在数学中，我们把 2 定义为 1 和 1 的和，这样 1 加 1 永远等于 2。其他数字也有相应的定义，通过精确地定义数学过程——乘法、开平方等等，我们可以确保我们的数学证明确实是证明。同样基于定义的逻辑规则导致证明。一个有效的三段论——例如，“所有的牛都吃草；这种动物是一头母牛；因此，这种动物吃草”——是毋庸置疑的，尽管结论的真实性当然取决于最初命题的真实性。根据定义为真的陈述不会增加我们的知识——因为它们只是以不同的方式表达——但它们可能会有益地增加我们的理解。

常识经常被用来代替证据。我们认为一个命题是显而易见的，当我们看到有人赞助调查来证明它是正确的时，我们就会持批评态度。我们认为这是浪费时间和金钱。但是，正如 Duncan Watts (2011 年)全面展示的那样，尽管常识在指导我们的大量日常活动中是有用的，但当我们对更复杂的事情做出判断时，它是相当不可靠的。事实上，我们经常可以把一种情况和它的对立面都看作是显而易见的，这取决于我们被告知哪个是正确的。现在的孩子比四十年前更健康。这似乎是显而易见的:现在医疗保健更好了，饮食指导也更好了。但是相反的命题呢，四十年前的孩子比他们现在更健康？常识告诉我们这也是真的:孩子们那时有更多的锻炼，在电脑屏幕前的时间更少，饮食更简单更健康。

当我们用常识的辩护来简单地强化我们自己的偏见时，后果可能是微不足道的；但是，当那些负责重要决策的人根据常识做出决策时，后果可能会很严重。例如，政府政策、公司战略和营销计划会影响许多人的福祉，而且可能会持续很长时间。

丹尼尔·卡内曼(2013)进行了一项广泛的研究，研究我们如何因他所说的快速思维而遭受错误并做出错误的判断。我们的直觉很少是可靠的，我们很容易不自觉地受到环境的影响。我们对应该为某样东西付多少钱的感觉受到要价的影响。如果你被问及甘地死时是否超过 114 岁，你会建议一个比问题问及他死时是否超过 35 岁更高的年龄。

显而易见这个词的用法有些不同。从一个推理或计算中得出的结论对你来说可能是显而易见的，但坐在你旁边的人可能不这么认为，甚至不理解它。辅导学生时，我会避开这个词。对一个人来说显而易见的事情对另一个人来说可能不明显。因此，在本书的剩余部分，你将不会遇到这个词。

二、不确定性的来源

Why “Sure Thing!” Rarely Is

当然，如果调查所依据的信息不正确，任何调查的结果都是不确定的，如果不是完全错误的话。然而，在统计调查中，还有其他不确定性的来源，因为需要从大量多变的信息中提取出简洁有用的结论。

统计资料

乍看起来清晰明确的陈述往往隐藏着大量的不确定性。在前一章中，我用“所有的牛都吃草”这个命题作为一个可接受的起点的例子，从这个起点得出一个逻辑结论。仔细看，可以看出是统计报表。它通过单词 all 把牛和吃草联系起来，这个单词实际上是数字。如果我说“100%的牛吃草”，这句话的统计性质会更明显。甚至在我们对 100%的统计声称提出质疑之前，陈述中的不确定性就出现了。有一个问题是，奶牛和吃草的定义包括什么。我是包括幼牛、病牛，还是世界各地的牛？我的意思是只吃草而不吃其他东西，还是如果给了他们草，他们就吃草？我在草这个术语中包括了什么？

这可能看起来很迂腐，但它说明了我们必须质疑，一个统计报表声称以某种方式联系的事物到底是什么。一个更现实的例子可能与失业有关。我们可能会读到，在沃巴什，四分之三的男人失业。这次调查的地区界线是如何划定的？是沃巴什镇，还是沃巴什县覆盖的全部范围？接下来的问题是我们如何理解失业这个术语。它是否包括退休者、病人、被监禁者、兼职者、临时工、志愿工作者或没有工作愿望或需要工作的富人？在统计数据被认为具有真正意义之前，需要对术语的定义方式提出质疑。

现在转到统计方面，我们意识到数据是从许多不同的来源收集的。民意调查富有成效，广受欢迎。我们似乎在选举前花了和听选举结果宣布一样多的时间来听民意调查的细节。以这种方式收集的数据不能信以为真，应该经常质疑。当人们被问到他们的观点或他们的活动，甚至他们的年龄或他们住在哪里时，他们会说真话吗？可能不总是这样，但谁又能说得准呢？即使他们很想说实话，也有可能误解这个问题。也许更常见的是，这个问题迫使人们做出困难的判断或回忆。"你是一周换一次灯泡，一个月换一次，还是三个月换一次？""你最后一次和警察说话是什么时候？"此外，许多问题需要完全主观的答案。

统计数据通常来自“官方来源”，这意味着可靠性。然而，问题仍然是这些数字是如何获得的。我们期望道路上的汽车数量能被相当准确地知道，然而我们承认该国非法移民的数量是模糊的。在这两个极端之间是有争议的领域。如果只包括报告的和成功起诉的案件，街头抢劫的数量可能会很低，但如果包括企图抢劫，甚至估计未报告的抢劫，数量可能会大得多。

来自权威渠道的统计数据有时根本不真实。Charles Seife (2010)给出了许多例子，从故意说谎到无法证实的陈述。美国参议员乔·麦卡锡在 1950 年声称有一份在美国国务院工作的 205 名共产党员的名单。这一声明引起了严重的反响，但他从未出示姓名，也没有证据表明他有这样一份名单。在天平的另一端，比如当 1999 年联合国秘书长科菲·安南宣布一个波斯尼亚男孩成为地球上的第 60 亿人时，反响可能是微不足道的。

引用统计数据时，通常会注明出处。这当然是一种好的做法，但它确实给人一种权威的感觉，而这种感觉可能是不必要的。收件人很少跟进参考资料，以检查其有效性。发起者可能甚至没有检查该引用，而只是从其他地方获取了它。更糟糕的情况是，发起者不公平地从参考来源中选择统计数据。请注意，具有特定议程的组织可能会在其文献中引用同一组织的出版物，或与其密切相关的出版物(Taverne 2005: 82-86)。

维基百科现在是一个重要的经常使用的信息来源。请记住，它是基于任何愿意贡献的人的贡献。监管程度也随之提高，但维基百科包含的信息在任何时候都不一定是正确的。

到目前为止，我们一直在考虑统计数据，这在某种意义上是二手的。它来源于其他人告诉我们的话，这些人无法确定他们所引用的话的真实性。但是在其他情况下，会进行客观的测量，并由进行测量的人提供数据。供应食品的工厂有称重机器来控制进入每个容器的果酱或玉米片的数量。称重机器会定期检查，以确保准确性。虽然精确，但这些机器在某种程度上会不精确。也就是说，当机器记录一公斤时，真实重量将是一公斤加上或减去一个小的可能误差。可能的误差越小，精度越高，但仍存在一定程度的不确定性。

一家供应汽车零部件的公司必须确保一个支架，比如说，是 10 厘米长正负 0.5 毫米。允许的范围被称为公差。在公司内部，生产支架时会定期测量支架的长度。这些测量的精度可能为 0.1 mm 或更低，提供了一个数据样本，经过适当处理后，该数据样本会向公司发出警告，告知公差正在超出或有超出的危险。这种情况导致统计数据在一定程度上依赖于测量设备的可靠性，有了这种知识，可靠性的程度可以量化。

各种科学和技术学科的研究结果发表在著名的、通常历史悠久的杂志上。对提交给期刊的文章进行审查的过程提供了很好的保证，即引用的结果是有效的，并且任何附带条件都是明确的。参考这些期刊是一个好的迹象。

处理数据

正如你所看到的，原始数据已经有了一定程度的不确定性，通过数学程序的处理，你可以得出结论。回想我说过的关于数学真理的话，你可能会认为这种处理不会引入额外的不确定性。如果原始数据是真实的，我们可能期望我们的结论是真实的。然而，正如您将看到的，处理引入了进一步的不确定性。但是你也会看到结论是事实性的。它们是事实陈述，表达某事为真的可能性，或表达陈述某事为真所涉及的不确定性。例如，我们可能有一个结论，说生发剂 A 比生发剂 B 更有效，有 90%的把握，或者说随机选择的一袋糖的重量是半公斤，在百分之一公斤的范围内，有 99%的把握。这两种说法都是事实上正确的，但都没有给我们一个关于生发剂的特定治疗效果或一袋糖的重量的精确结论。

当这种声明在没有必要的不确定性限定的情况下作出时，它们似乎提供了证据。“生发剂 A 比生发剂 B 更有效”“这袋糖有半公斤重”是我们平时遇到的那种说法。关于那袋糖，这个说法几乎足够正确，坚持一个精确的说法会被认为是极其迂腐的。但是关于生发剂，情况就严重多了。如果仔细看的话，这个声明看起来几乎没有传达任何有用的信息，但是它很可能会鼓励消费者把钱花在这个产品上。

统计处理中出现的不确定性并不反映数学方法的任何不足。它们出现在对数据的总结中，出现在使用样本来预测从中抽取样本的人群的特征中。

汇总原始数据是因为数据通常太多，无法轻松识别重要特征。简单地挑出一些零碎的东西来说明基本原理可能会导致错误的结论，但有时可能是为了证明偏见。汇总(例如平均)是根据公认的程序进行的。然而，任何减少数据的程序都必然导致信息的丢失，从而产生一些不确定性。

不确定性的第二个来源在于样本和总体之间的差异，以及试图使用样本的特征来表征总体。必须认识到，这些词是作为统计学家使用它们。统计学意义上的人口并不是生活在某个特定地区的一群人(尽管在一项涉及生活在某个感兴趣地区的实际人群的研究中，它可能是)。

先举个例子更容易解释。它是通过某种一致的过程获得的一组同类数据。我们可以问从超市出来的购物者他们买了多少东西。我们获得的项目数量列表就是样本。样本的大小将是我们询问的购物者的数量，这将对应于我们的样本中的数据数量。在这个例子中，总体将是来自可能被询问的大量购物者或潜在购物者的回答，当然包括实际被询问的人。

有时样本包括整个人口。如果我们用一种新的工艺生产 100 个白镴大酒杯，并对每一个进行测量和称重以检验工艺的一致性，我们的样本就相当于总体。一家公司在一段时间内的月度利润构成了与该特定公司相关的全部业绩，并可据此得出该公司的业绩数字。然而，如果累积的数据被认为是类似公司的代表，那么它们将被视为从更大人群中抽取的样本。

我妻子的生日簿显示了她希望回忆的亲戚和朋友的生日。一年中每个月的生日数量如下。

| 一月 | 二月（February 的缩写） | 瑕疵 | 四月 | 五月 | 六月 | 七月 | 八月 | 九月 | 十月 | 十一月 | 十二月 | | one | three | six | seven | five | three | Two | four | seven | seven | nine | seven |

数据可以被认为是样本或总体，这取决于我们想做什么。考虑到整个世界人口或一个假设的大量人群，数据是一个样本。这不是一个非常可靠的样本，因为它表明 11 月出生的人比 1 月多得多。但是，就实际包含的人群而言，数据是人口；的确，从书中随机选择一个人并发现他或她的生日在 11 月的概率是 9/61 (=0.15)，而不是我们在更大的样本中预期的 1/12 (=0.08)。

在每一个例子中——购物者、锡杯等等——人口是有限的。然而，在许多情况下，人口是假设的，被认为是无限的。如果我们重复测量月球的直径，为了提高我们的结果的准确性，我们可以认为这些测量是从无限数量的可能测量组成的总体中抽取的样本。如果我们使用老鼠样本进行一项实验来研究一种新的老鼠药的有效性，我们会认为该结果适用于假设的无限数量的老鼠。

因为样本被假定为代表从中抽取样本的总体，所以称之为随机样本。随机意味着在所有的可能性中，每一种都有同等的可能性被选中。因此，如果我们从一副洗得很好的牌中拿出 6 张牌，那么这 6 张牌是从 52 张牌中随机抽取的。在实践中实现的随机性取决于采样的方法，并且在许多实际情况下很难确保样本是随机的。即使它是随机的，它也只是可能被选择的大量可能的随机样本中的一个。因为随后的处理限于样本中碰巧被选择的数据，所以当处理的结果用于揭示总体的特征时，将带有不确定性。

6 卡样本很可能是随机的；但是回到超市购物者，你可以看到获得一个随机样本的困难。我们是阻止男人和女人，还是只阻止女人？如果都是，我们是否考虑到女性购物者比男性多？我们应该把调查分散到一整天吗？也许一周中不同的日子会给出不同的结果。那一年的时间呢？诸如此类。我们可以将我们的样本范围限制在，比如说，夏季星期五下午的女性购物者，但是这当然同样限制了我们的人口，并且限制了我们将从统计分析中获得的结果的范围。任何将研究结果更普遍地应用到女性购物者身上的尝试，比如说，在夏天或冬天的任何一个下午，都会带来更多的不确定性。

应该注意的是，我们所能获得的信息，以及与之相关的不确定性，完全取决于样本的大小，而不取决于从中抽取样本的人口数量。对 1000 名潜在选民的民意调查将产生相同的信息，无论它涉及 100 万还是 1000 万潜在选民。需要注意的关键值是样本的绝对大小，而不是样本的相对大小。

三、概率

How Bad Statistics Can Put You in Jail

为了理解统计分析，有必要对概率有所了解。令人惊讶的是，也许并不需要太多。了解几种不同的概率是如何组合在一起的，以及一个事件的发生概率是如何受到一个首要条件的影响，这些都是大多数目的所需要的。

概率定义

由于前一章讨论的不确定性，统计结果被引用，同时指出结果是正确的概率。因此，有必要了解基本概率，幸运的是，这并不难做到。概率被定义为所有同等可能的有利结果与所有可能的同等可能的结果的比率。它通常用分数或小数来表示，并且必须介于零(表示不可能)和一(表示确定)之间。因此，如果我们掷骰子，有 6 种可能的结果。掷出 2 的概率是 1/6，因为只有一个有利的结果。掷出奇数的概率是 3/6(即一半)，因为有三种有利的可能结果。掷出 7 的概率为零(即不可能)，掷出小于 10 的数的概率为一(即一定)。

在解释概率结果时，重要的是要认识到，仅仅因为一个事件发生的概率低，我们就不能断定我们永远不会遇到它。毕竟，有些事情必须发生，而大多数发生的事情只有很小的发生概率，因为总是有更多的事情可能发生。

举一个不太重要的例子，如果我们发一副牌，给 4 手牌，每手 13 张，我们会惊讶地发现每手牌都是一套完整的花色。这种情况发生的概率大概是 5x10 ²⁸ 中的 1(5 后面跟着 28 个零)。然而，每次我们发牌时，不管牌的分布如何，我们发现我们已经发牌的特定手牌的概率是完全相同的:大约是 1/5x 10²⁸。所以，每次我们发一副牌，都会发生这种低概率事件。

在我们生活中的每一天，我们都会遇到一系列的事件——银行的一封信，手指被割伤，收音机里最喜欢的一首歌，等等——每一件事都有发生的可能性。综合起来，只考虑独立的事件，每天的事件序列发生的可能性极小——然而它发生了！

对概率论进行详尽的描述是不合适的，也是不必要的，但是理解在得出结论时使用概率的基本规则是很重要的。接下来的两节与这些规则有关。

组合概率

结合几个概率是一个简单的过程，但需要小心正确地做。如果我们知道两个事件中每一个的概率，我们就可以计算出这两个事件发生的概率。假设我们抛硬币，然后扔骰子。得到人头的概率是 1/2，骰子得到 2 的概率是 1/6。头和 2 这两个事件的概率是通过将这两个概率相乘得到的。答案是 1/2 x 1/6 = 1/12 或十二分之一，从所有可能性的列表中可以看出。

| 硬币 | H | H | H | H | H | H | T | T | T | T | T | T | | 死亡 | one | Two | three | four | five | six | one | Two | three | four | five | six |

这个过程可以扩展到任何数量的事件，各个概率相乘。然而，重要的是要注意，只有当事件是独立的时，这才是一个有效的过程，也就是说，它们的发生没有以某种方式联系起来。

独立的必要性可以用一个不同的例子来说明。比方说，我在某一天上班迟到的概率是 1/100。我同事迟到的概率是 1/80。概率相乘得出 1/8，000 是我们俩在同一天迟到的概率。这显然是错误的。很多让他迟到的情况也让我迟到。如果天气有雾或结冰，我们都可能迟到。我们甚至可能乘同一列火车旅行，所以晚点的火车会让我们都迟到。

几年前公布了一个由不合理的概率倍增引起的严重错误的例子。同一个家庭的两个孩子死亡，显然是婴儿床死亡。母亲莎莉·克拉克是一名英国律师，于 1999 年被指控谋杀。控方的一名专家证人表示，像这个家庭这样富裕的家庭发生婴儿床死亡的几率是 8500 分之一。通过平方这个概率(即，用 1/8，500 乘以 1/8，500)，他得到了一个家庭中发生两起婴儿床死亡的概率为 7300 万分之一的估计值。被告方没有对这一数字提出质疑，母亲被判有罪并入狱。她在 2003 年赢得了第二次上诉。显然，婴儿床死亡的可能性可能是由于遗传原因而在家庭中发生的，两起婴儿床死亡不能被认为是独立的事件。两个(相等的)概率相乘是不合理的。由于莎莉·克拉克案，其他类似的案件得到了复审，另外两名被判谋杀罪的母亲的定罪被推翻。

2003 年在荷兰，一名护士 Lucia de Berk 因谋杀四名病人和企图谋杀另外三人而被判处终身监禁。部分证据是由一位法律心理学家提供的统计计算。据称，在三家医院工作的护士出现在如此多的不明原因的死亡和复苏中的几率是 3.42 亿分之一，这个结果是通过乘以概率得出的。在接下来的几年里，许多著名的统计学家批评了这种过于简单的计算方法，于是一项要求重新审理此案的请愿开始了。最终，在 2010 年，经过漫长的法律程序，重审做出了无罪判决。当然，除了统计计算之外，还有许多考虑因素，但从诉讼中可以明显看出，在最初的定罪中，统计计算是有分量的。

独立事件的概率倍增规则通常被称为“与”规则，因为它表达了事件 A、事件 B 和事件 C 等的概率。当我们希望知道事件 A、事件 B 或事件 C 等的概率时，第二个规则——“或”规则用于组合概率。在这里，我们将概率相加。和前面的规则一样，这条规则也有一个重要的条件:事件必须是互斥的。这意味着在任何时候只有一个事件是可能的。举例来说，如果我们扔一个骰子，2 的概率是 1/6，3 的概率是 1/6。2 或者 3 的概率是 1/6 + 1/6 = 1/3。这两个事件是互斥的，因为掷骰子不可能同时得到 2 和 3。如果我们进一步扩展例子来阐明，得到 1，或 2，或 3，或 4，或 5，或 6 的概率是 1/6+1/6+1/6+1/6+1/6+1/6+1/6 = 1(即确定性)。

因为所有可能的互斥结果的概率之和等于 1(一种确定性)，因此，某件事不发生的概率等于 1 减去它发生的概率。

为了说明“或”规则的误用，我们可以回到一起掷硬币和掷骰子。头和 2 的分离概率分别是 1/2 和 1/6。如果我们把这些加在一起，我们会得出结论，得到正面或 2 的概率是 1/2 + 1/6 = 2/3，这是非常错误的。得到一个头和得到一个 2 并不是互斥的事件，因为两者都可能发生。对这种情况的适当分析表明:

正面和 a ^ 2 = 1/12 的概率

两者之一的概率，但不是两者都= 6/12 = 1/2

都不是的概率= 5/12

两者都有，或者两者都没有的概率= 1/12 + 6/12 + 5/12 =1

最后的陈述是对“或”规则的正确使用，因为“两者”、“一者”和“两者都不是”构成了一组相互排斥的事件。这些结果可以通过查看上面显示的可能性的完整列表来检查。

结果也以树形图的形式显示在图 3-1 中。“与”规则和“或”规则之间的区别是清楚的。在图中横向跟随一系列事件包括硬币事件和骰子事件。两个“和”的概率相乘。在最终组合概率的垂直列表中可以看到“或”选项。这个树形图是一个相当琐碎的例子，但是你会在更实际的例子中再次遇到树形图。这里值得指出的是，虽然树形图可以被更快的计算所代替，但它仍然是阐明或检查计算背后的逻辑的极好方法。

图 3-1。

Tree diagram of the various outcomes of tossing a coin and throwing a die

请注意，当概率相乘时，结果小于两个原始概率中的任何一个。因此，应用“与”规则总是导致概率的降低。这正如我们所料:在一场赛马中预测冠军和亚军的概率小于预测其中一个结果的概率。另一方面，将概率加在一起会增加概率。因此,“或”规则的应用增加了可能性。预测一场赛马的冠军或亚军比只预测其中一个结果更有可能。

概率的组合广泛地出现在系统可靠性的研究中，你将在后面看到更多的细节。当系统由许多部件组成时，总的故障概率取决于各个部件的故障概率以及它们组合的方式。假设我们有一个简单的烟雾报警器，由一个连接到警报器的传感器组成。如果传感器或报警器失效，或者两者都失效，则系统失效(“或”规则)。如果我们安装一个重复的系统，只有当第一个系统失败，第二个系统失败时，才会发生失败(“与”规则)。

由于这种分析与必须尽可能避免的故障有关，引用的概率值通常很小。我们都更熟悉十分之一或百分之一范围内的概率；但是当出现 0.0001(万分之一)或 0.000001(百万分之一)的概率时，我们不仅很难认识到它们的重要性，而且也很难认真对待它们。灾难性火灾发生的几率可能是百万分之一，而我们采用的一些安全措施可能会将其降低到二百万分之一。这将使火灾发生的几率减半——这是一个非常显著的减少，但是将 0.000001 和 0.000002 这两个值进行比较，不会产生相同的影响。

条件概率

当所需的概率以其他事件的发生为条件时，概率计算会变得复杂。你不必担心这些复杂的问题，但是你需要意识到在这种情况下会得出错误的结论。这些结论，不管是偶然的还是有意的，都是特别危险的，因为乍一看它们似乎是完全正确的。

为了理解条件概率的含义，想象两个骰子被一个接一个地掷出。总分是 5 的概率有多大？从这两个分数的 36 种可能组合中，有四种方法可以得到 5 分，即 1+4、2+3、3+2 和 4+1。所以概率是 4/36 或者 1/9。如果我们引入一个条件，例如，第一个骰子显示 2，那么获得总数为 5 的概率变为 1/6，因为第二个骰子必须显示 3，这种情况发生的概率为 1/6。

现在考虑这样一种情况，我们有一袋硬币，其中 100 枚是伪造的，如图 3-2 所示。

图 3-2。

Conditional probability illustrated by counterfeit coins

十枚硬币是金子，两枚是赝品。我们从袋子里取出一枚硬币，看到它是金子(条件)。它是赝品的可能性是十分之二，即五分之一。或者，当我们从袋子里拿出硬币时，我们可能会发现它是伪造的(这种情况)。它是黄金的概率是百分之二(即 1/50)。这说明了这样一个事实，即给定事件 B，事件 A 的概率通常与给定事件 A，事件 B 的概率不同。这两个条件概率通常不同，并且可能非常不同。

所谓检察官谬误，就是因为使用了错误的条件概率而产生的。假设一个嫌疑犯被发现与未知罪犯的 DNA 特征相匹配。一万个人中只有一个会有相似的匹配。因此，控方认为嫌疑犯无罪的可能性只有万分之一。但是 1/10000 的概率是假设嫌疑人是无辜的情况下 DNA 匹配的概率。这不是使用的合适概率。相关概率是在 DNA 匹配的条件下，嫌疑人无罪的概率。我们无法评估这种可能性，因为我们不知道还有多少其他同样可能有罪的嫌疑人。(这就像在不知道伪造品总数的情况下试图解决一袋硬币的例子一样。)但是这个数字可能远远大于 1/10，000。比方说，在 10 万人口中，平均有 10 个人的 DNA 匹配，假设其中两个人也是嫌疑人，我们的嫌疑人有 2/3 的概率是无辜的。

正如人们可能预料的那样，也存在辩护者的谬误。它来自于一大群同样可疑的人的假设。根据前面的例子，如果人口为 1，000，000，将有 100 人具有合适的 DNA 匹配；所以，辩护人会说，我们的嫌疑人有 99/100 的概率是无辜的。把假设人口提高到 1000 万，无罪的概率就增加到 999/1000。谬误在于假设人口中的每个人都同样可疑。

Haigh (2003)和 Seife (2010)对概率的误用如何导致法律判决中的错误给出了有用的解释。许多例子取自实际案例。

这种错误不仅仅出现在法律辩论中。它们经常出现在政治辩论和广告中。看看下面的例子。

“每年死于肺癌的人中，75%是吸烟者。这说明吸烟者有 75%的几率死于肺癌。”不，不是的！我们需要知道某人死于肺癌的概率，假设他或她是吸烟者，而不是这个人曾经是吸烟者的概率，假设他或她死于肺癌。以下数据有助于说明这一谬误。

在死亡的 300 名吸烟者中，75 人(即 25%)死于肺癌。这与引用的 75%的肺癌死亡与吸烟有关大相径庭。请注意，这些是虚构的数字，不得用于得出任何医学结论！

"在十年内没有补过牙的牙科病人中，90%的人都定期用牙胶刷牙。"但我们真正想知道的是，那些经常用牙胶刷牙的人，有百分之多少在十年内没有补过牙。

"昨天比赛中 80%的获胜马都是由我们的赛马记者透露的。"也许吧，但是他的提示中有百分之多少预测了获胜的马？

SWITCHED ON

气氛变得紧张起来。简森开关公司的代表罗德·克雷格在电水壶制造商 Boilfast 的经理办公室里。Boilfast 为其大部分水壶安装了简森公司提供的开关，而这些开关正是正在讨论的。

Boilfast 的经理 Tom Richards 担心，由于开关出了问题，他不得不在保修期内维修的水壶数量。

他从手里拿着的一张纸上引用了一些数字。

“在过去的两年里，由于开关故障而被退回的水壶数量中，有 67%装有你们的开关。我认为这是不可接受的。”

Rod 除了道歉和向经理保证，他会将此事提交给他的技术部门之外，几乎做不了什么。经理现在以一种有点威胁的方式前倾。

在回简森餐馆的路上，罗德有机会仔细考虑了一下情况。他的公司提供 Boilfast 水壶上安装的大部分开关，所以 Boilfast 是他们不想失去的客户。但是这种抱怨有多大意义呢？Rod 开始明白了，当他到达办公室时，他脸上带着微笑。

他拿起电话拨号。

“汤姆，问题不是你描述的那个。”

“没有？”

“你是说，由于开关故障而退回的水壶中，67%装有我们的开关。真正的问题是，假设水壶安装了我们的开关，有百分之多少的退货是因为开关有问题？也许你应该更仔细地看看你的数字。”

汤姆失去了平衡，感到有点困惑。

“我会回来找你的，”他说。

他确实看了那些数字。在因任何原因退回的装有简森开关的水壶数量中，22%的水壶开关有问题。这与其他供应商提供的装有开关的水壶的数字相似，相应的百分比为 19%。因为大多数锅炉水壶都装有简森开关，困扰汤姆的主要开关故障很容易解释。

四、抽样

Did Nine out of Ten Really Say That?

样本的一个基本特征是它能代表被抽取样本的总体。不幸的是，这是不可能的预测，甚至检查它是如此时，样本已经获得。必须根据具体情况判断取样程序是否充分。这就产生了许多不同的取样方法，以涵盖广泛的情况。

取样的问题

当获得的数据代表整个总体时，样本的相关性就不存在了:样本就是总体。因此，一家公司在 12 个月期间的月度利润代表了具体定义的 12 个月期间的完整情况。然而，如果样本是从大于样本的总体中抽取的，那么总体样本的代表性问题就变得至关重要了。如果上述 12 个月的样本被声称代表其他 12 个月的周期，换句话说，如果它被认为是来自众多 12 个月周期的总体样本，就需要检查其更广泛相关性的证据。

对于那些进行统计调查的人来说，采用适当的抽样方法是一个优先事项。调查中所遵循的一切的可信度取决于样本是否能代表调查结论将适用的人群。如果我们不进行调查，而只是看别人负责的调查结果，我们就有相当大的优势。我们有后知之明，可以评估样本最能代表什么样的人群，以及这些人群是否合适，或者是否足够接近我们的目的。

即使有适当的采样，也会出现排列问题。有些数据可能不正确。仪表可能被误读，或者仪表可能有故障。记录可能会被算错。回答者可能无意或有意给出错误答案。这个问题可以用一种能引出特定答案的方式来表达。Charles Seife (2010: 117)给出了一个有趣的例子，说明问题的措辞可能会决定答案。“你认为祈祷的时候抽烟可以接受吗？”很可能得到“不”的答案；而“你认为吸烟时祈祷可以接受吗？”很可能会得到“是”的答案

更糟糕的是，当问题可能已经使所得到的答案有所偏差时，对调查结果的报道却带有倾向性。2011 年，媒体报道称，一家儿童慈善机构委托进行了一项调查，其中包括一个问题:“儿童变得越来越野蛮了吗？”委托慈善机构得出的结论是，近 50%的公众认为儿童的行为像动物一样。另一个问题是，在多大年龄改造儿童为时已晚。尽管 44%的人说永远不会太晚，28%的人说在 11 岁到 16 岁之间，但据报道，四分之一的成年人认为孩子在 10 岁时已经得不到帮助。

Blastland 和 Dilnot (2007)对调查中出现的可疑信息进行了说明。这本书值得任何基于抽样调查结果的人阅读。例子从每天进入英国的移民数量到刺猬数量的下降。后者尤其耐人寻味。这项名为“哺乳动物上路调查”的调查于每年 6 月至 8 月进行。统计选定道路上被压扁的刺猬数量。数量每年都在减少，由此推断刺猬种群在减少。但是，死亡刺猬的样本不一定能代表刺猬的总种群，原因是多方面的。选定道路上的交通密度可能会发生变化。刺猬可能正在进化，对交通越来越警惕。气候变化可能会改变一年中刺猬上路的时间，等等。当然，人们必须认识到，要想设计出一种更好的方法而不增加费用是不容易的。

必须记住，取样是要花钱的。在大样本以最大化结果的可靠性和小样本以最小化成本之间总要有一个折衷。如前所述，结果的可靠性直接取决于样本的大小，而不取决于抽取样本的人口数量。因此，这并不意味着因为目标群体大，样本就必须大，尽管当群体大时，可能更难确保小样本能代表群体。

调查所需的一些数据可能会丢失，丢失的原因可能与样本的代表性有关。例如，年龄较大的受访者可能会拒绝陈述他们的年龄，简单地删除他们对样本的贡献会使样本偏向年轻的受访者。样本应包括任何已删除数据的记录。戴维·汉德(2008)对缺失数据和采样数据中的其他潜在问题进行了有益的讨论，并描述了处理这些问题的方法。

重复测量

在科学研究中，必须确定某些具有固定值的性质。例如，必须尽可能精确地确定纯铜的密度或放射性物质的衰变率。面临这种任务的实验室将重复测量几次，每次可能获得稍微不同的值。

这组值构成一个样本，由于原则上有无限多的这种可能值，所以它是从无限总体中抽取的样本。样本和获取数据的方法定义了总体。

将这种情况与表面上相似但实际上有些不同的情况进行比较。假设我们的科学家对精确确定地球围绕赤道的周长感兴趣。许多世纪以来，不同的研究者已经进行了这样的测量。如果我们要把过去获得的所有值汇总起来，我们不能说我们有来自同一人群的样本。每一个值都有其相关的测量方法和精度等级，并且可以代表这些值的无限总体，所有这些值都是以相同的方式获得的。但是每个群体都是不同的。然而，因为所有的值都是针对同一个属性的，比如地球的周长，所以应该可以利用收集的数据，事实上是通过加权这些值，正如你将在第七章中看到的。

简单随机抽样

对于简单的随机抽样，来自总体的每个数据必须有相等的机会被选择，并且每个数据的选择必须独立于任何其他数据的选择。这比乍看起来更难实现。

第一个困难出现是因为人们不擅长采用随机程序。如果面对一盘苹果，并被要求随机选择十个，人们通常会做出可能有偏差的选择。有些人可能会选择“看起来一般”的苹果，忽略非常小或非常大的苹果。其他人可能试图得到从最小到最大的全尺寸范围。有些人更关心颜色的范围，有些人关心形状。

由于采样的非随机时间，也会出现类似的困难。一名检查员在假定随机的时间访问工厂的生产线，选择一个项目进行质量控制检查。但是生产在早上 8 点开始，他要到早上 9:30 才有空。另外，他在 11:00 到 11:15 之间有喝咖啡的休息时间。

与其利用个人的判断来确定抽样的随机性，不如利用随机数。这些是由计算机生成的，并在统计书中列出。(严格来说，计算机生成的数字是“伪随机的”，但这不是问题。)随机数序列可用于确定选择哪些苹果或从生产线上取走哪些产品。

当需要调查和询问人们时，困难就更大了。人口可能在地理上广泛分布。例如，如果研究涉及成年双胞胎，并且研究结果适用于英国的所有此类双胞胎，那么人口分布在整个英国，样本必须从这个广泛分布的人口中随机选择。即使可用的资金允许对成年双胞胎的取样如此广泛，仍然存在确保随机性的问题。如果双胞胎是通过电话找到的，那些没有电话的，度假的，或者因为其他原因不在家的，例如。当然，总有一些人拒绝参加调查，也有一些人在调查中从不说真话。

天气好的时候，在街上问人更容易。但是那些在瓢泼大雨或严寒中外出的人，他们不太可能被提问，也不太可能准备停下来回答，他们的观点可能与天气晴朗时散步的人截然不同。

正是由于这些困难，才设计出了其他的取样方法。不是所有的问题都可以被克服:如果有人被确定不诚实，没有任何抽样方法可以纠正这种情况。

系统抽样

对于系统抽样，选择一个数字——比如 10。然后通过从列表或项目排列中抽取每 10 个成员来选择样本。第一个成员是随机选择的。如有必要，列表的末尾被假定为与开头相连，以允许计数以循环方式继续，直到达到所需的样本大小。

重要的是要考虑任意数字的选择是否会因为列表中的模式而产生任何偏差。例如，如果列表中的人是按家庭分组的，那么 10 这个数字就不太可能选择同一个家庭的两个成员。如果列表是成对排列的——比如说男人和妻子——那么任何偶数都会使结果偏向妻子。

分层随机抽样

如果被研究的人群由非重叠的群体组成，并且群体的大小相对于人群的大小是已知的，那么可以使用分层随机抽样。这些群体或亚群体被称为阶层。

假设需要进行一项调查，以了解城镇成年人口对新购物中心计划的看法。不同年龄的人会有不同的观点，所以年龄可以用来划分阶层。阶层是一个特定的年龄范围:例如，20-29 岁。假设这个年龄组占了这个城镇成年人口的 25%。然后将样本定义为要求 25%在该年龄范围内。其他年龄范围同样用于确定样本的组成。这被称为比例分配。

可以断定，除了年龄影响受访者的观点之外，他们家的地理位置也可能有影响。可能会引入第二个层次的分层，将城镇划分为若干个区。如果再次采用比例分配，可能会对样本量提出难以承受的要求。人们可能会发现，在样本中，一些亚群体——例如，一个城镇地区的 60 岁以上的老人——仅由少数个人代表。可以采用不成比例的分配，增加这些群体的样本数量，但不增加其他群体的样本数量。

分层随机抽样是调查中常用的程序，但要以最有效的方式进行并不容易。事实可能证明，地层的选择不是最合适的。在上面的例子中，将家庭年收入定义为阶层可能更好。直到样本结果被处理后，一些缺点才会暴露出来。为了实现更好的抽样设计，经常进行试点调查，或者检查以前类似调查的结果。

有一个数学程序来计算一个单一层次的最优分配，称为内曼分配，但这需要事先了解层内不同群体的可变性。同样，需要进行试点研究来提供信息。

巢式抽样法

当被研究的人群在空间或时间上分布广泛时，使用整群抽样。例如，可能有必要调查全国的消防车司机，或者一周 7 天、一天 24 小时的住院病人。

为了限制采样成本，将地理或时间范围划分为紧凑的区域或聚类。对于消防车司机来说，国家可以被划分成地理区域，例如县。选择一组随机样本，即主要抽样单位。在多阶段聚类抽样中，会发生进一步的聚类。将确定选定县内的消防站。然后，随机抽样将用于选择每个选定县的消防站进行研究。显然，结果的有效性关键取决于随机选择的聚类如何代表总体。

定额抽样

调查中雇用的采访者经常被分配完成配额。他们可能需要采访三位中年专业人士、六位年轻的家庭主妇、两位退休的养老金领取者等等。这是配额抽样。与分层抽样一样，配额是从已知的人口构成中确定的。

配额抽样的优点是，所需的程序容易掌握，即使是很小的样本也能获得正确的配额，然后可以将样本集中起来。然而，这并不涉及随机因素，而且很容易产生偏见，因为采访者可以选择接近谁和避开谁。

顺序取样

在序贯抽样中，样本的大小并不是一开始就确定的。取而代之的是，继续随机采样，直到满足要求的标准。当获得每个响应的成本很高时，这尤其有用。在每次响应后，对数据进行分析，并决定是否获得进一步的响应。

数据库

计算机系统在商业和工业中使用的快速增长产生了包含各种数据的巨大数据库。例如，银行、保险、卫生和零售组织拥有与行为模式相关的数据，这些行为模式将客户、购买习惯、偏好、产品等联系起来。大部分数据已经收集，因为当组织的运作计算机化时很容易这样做。因此，数据库是可用于进一步分析的大量样本的来源。当我在第七部分描述数据挖掘和大数据时，我将进一步讨论数据库。

重采样方法

如果我们有一个总体样本，我们可以考虑这样一个问题:我们本可以获得的其他样本可能是什么样的。显然，它们可能由我们在现有样本中看到的一些值组成，并且它们很可能复制了一些值。这就是重采样背后的思想。我们可以通过从现有样本中随机选择值来产生更多的样本。

假设我们有一个由以下值组成的样本:

1 2 3 4 5 6 .

如果我们现在从这些值中随机选择六个一组，我们可能会得到

1 3 3 4 5 6 ,

1 3 4 5 5 5 ,

等等。

通过这种方式可以产生大量的额外样本，并且从这些样本中可以获得关于原始样本所来自的群体的信息。

这种类型的特定技术包括刀切法(jackknife ),其中每次从原始样本中移除一个或多个值，以及引导法(bootstrap ),其中随机选择值来提供每个新样本。它们是计算机密集型的，需要大量随机生成的样本。

数据序列

如果样本是随机的，那么按照获取顺序查看的数据不会显示任何模式。在一段时间内收集的数据可能显示一种趋势，随着时间的推移而增加或减少，这将引起怀疑。同样，对一个问题回答“是”或“否”的公众样本应该显示两个答案的随机分布。如果大多数肯定的回答出现在列表的早期，而大多数否定的回答出现在列表的后期，那就很可疑了。当然，同样地，如果两个答案以完美的顺序交替出现，也会令人生疑。

一种称为单样本游程检验的统计检验可以用来检查一系列是和否答案的随机性。以下顺序

YYY 纽约纽约 YYY 纽约 YYY

有 20 个数据，其中 12 个是 Y，8 个是 N。有 11 个运行，如 YYY，后面是 N，后面是 Y，…等。运行次数可参考已发表的表格，以确定序列是否不可能是随机的。注意，不能确认序列是随机的。

可以对数字数据进行编码，以便进行单样本运行测试。以下顺序

5 3 8 4 6 7 4 3 5 8 9 5 4 2 5 6 4 8 6 7

有 20 个数据，平均值为 5.5。该序列可以用 H 表示高于平均值，L 表示低于平均值来重写。这给出了序列

LLL LLLL HHH

它有 10 次运行。

该测试的用途有限，不仅因为它不能确认序列是随机的，而且因为游程比我们的直觉所暗示的更常见(Havil，2008: 88-102)。在 100 次投掷硬币的序列中，5 次或更多次的机会是 0.97；在一系列的 200 次投掷中，观察到 8 次投掷的几率甚至更高。

五、原始数据

Hard to Digest Until Processed

原始数据是在进行任何分析之前用来描述原始数据的表达式。这不是一个非常令人愉快的短语。像“原始数据”或“新数据”这样的东西会更吸引人，但我必须坚持惯例。这一章的目的是解释不同种类的数据，并提供一些定义供后面的章节使用。此外，我将展示数字如何误导或混淆，甚至在统计分析开始之前。

描述性或数字性

数据可以是描述性的或数字的。描述性数据也称为分类数据，可以放入类别中进行计数。例如，记录人们在选举中投票的方式需要定义类别，即政党，每个数据都在适当的类别上增加一个。计数过程产生的数值汇总了数据，可用于后续处理。因此，我们可以用每个政党的选民比例来表示投票结果。

如果描述性数据可以按顺序排列，但无法比较类别之间的差距大小，则称该数据为有序数据。因此，我们可以把小号、中号和大号按顺序排列，但是小号和中号的区别可能与中号和大号的区别不同。以这种方式进行排序被称为排序。不仅可以将每个类别中的数字相加得出数值，还可以将有序数字归属于每个类别。因此，小、中、大可以分别表示为 1、2 和 3，表示增加的尺寸，以允许进一步处理。

不能按顺序排列的描述性数据称为名义数据。例子包括眼睛的颜色和出生地。这种数据的集合由特定属性的出现次数组成。如果只考虑两个类别，并且它们相互排斥(例如，是/否数据)，则该数据被称为二项式数据。

数字数据可以是连续的，也可以是离散的。连续的数据可以在连续的尺度上被引用到任何精确度。因此，24.31 公里、427.4 公里和 5017 公里是表示为连续数字数据的距离示例。离散数据在有间隔的刻度上只能有特定的值。因此，一个家庭中孩子的数量可以是 0，1，2，3，4，…，没有中间值。请注意，与连续数据一样，值的顺序仍然是有意义的。

严格来说，连续的数据一旦四舍五入就变成离散的，因为它被引用到了有限的位数。因此，24.31 是位于 24.30 和 24.32 之间的离散值。然而，这是一个有点学究气的观察，不太可能引起问题。更重要的是认识到这样一个事实，即离散数据通常可以像连续数据一样处理，正如你将在第十一章中看到的那样。

在一组数据中，通常有几个记录的特征:数字的，描述的，或者两者都有。每个特征(例如，成本或颜色)都被称为一个变量。术语“随机变量”通常用来强调这样一个事实，即变量的值是从潜在的可用值中随机选择的。

分布是样本或总体中变量的一组值，以及每个值出现的频率或相对频率。因此，一组 50 人的鞋码列表可能显示如下内容:

鞋码:8、9、8、7、9、9、8、6、10、9、10、7、9、6、11、9、8、8、7、9、9、6、10、9、8、9、10、8、7、9、6、7、8、10、10、7、10、9、10、8、8、8、9、9、10、10、10、9、10、9、9、9、9、10、9、9、8、8、7、8、8、8、8、8、9、9

共有 50 个值，可按如下方式计数和分组:

分布可以用条形图的形式图示出来，如图 5-1 所示。可以看到这些值聚集在中心值周围。从第七章的开始，我将更详细地讨论这种分布。特别是，你会遇到所谓的正态分布，它是这种形式，在统计分析中起主要作用。

图 5-1。

Bar chart showing the distribution of shoe sizes in a sample of 50 men

当以条形图显示时，有些分布看起来很不规则。其他的，包括正态分布，不仅是规则的，而且可以用数学公式精确地描述。其中一些会在第七章、第十一章和第十八章中遇到。

数字的格式

我们都熟悉日常生活中遇到的数字。一般来说，这些既不太小也不太大，我们很容易把它们形象化。然而，非常大或非常小的数字可能会引起混淆。

因为用全称写的大数字非常长，所以科学报告采用一种叫做标准索引形式的速记方法。乘法因子 10 用上标表示。所以一百万是 10 ⁶ ，意思是 10 × 10 × 10 × 10 × 10 × 10。2365000 这个数字可以写成 2.365x10 ⁶ 。值得注意的是，本例中的上标 6 表示将数字恢复为通常格式所需的小数点向右移动的次数。

部分由于计算机知识的普及，科学工作中使用的前缀甚至在像美国这样的计量困难的国家里也开始普遍使用。这些前缀是应用于所谓的 SI 单位(从国际单位制缩写而来)的十进制(十进制)倍数。因此，kilo，或简称 k，被用来表示 1000——所以我们看到$3k，表示 3000 美元。Mega 的意思是一百万，在科学工作中缩写为 M；但是在财务文件中，我们看到缩写 MM，这样 800 万美元就意味着 800 万美元。更令人困惑的是，MM 是 2000 的罗马数字。在更高的尺度上，我们有十亿(G)代表 10 亿(10⁹)，但在金融写作中，我们看到的是 1B 美元、10 亿美元或 10 亿美元。在 20 世纪 90 年代消费者硬盘存储容量进入千兆字节(GB)范围后，千兆变得越来越普及。接下来的前缀，tera (T)代表百万亿(10 ¹² 和 peta (P)，再大一千倍(10 ¹⁵ )，用于大数据，我将在第七部分讨论。

10 ⁶ 等中的上标称为数量级。每增加一个系数 10，就表示下一个数量级。说两个数字的数量级相同意味着它们彼此相差在 10 倍以内。

非常小的数字比非常大的数字更少出现。除了像百分之一、千分之一等尴尬的分数词，我们似乎对小数字没有特殊的传统名称。上面描述的标准指数形式延伸到非常小，上标为负，表示除以十进制数，而不是相乘。因此，10^–3表示 1 除以 1000——也就是说，10^–3表示“千分之一”数字 0.00000378 可以写成 3.78 X10^–6，意思是 3.78 除以 10 的 6 倍。与大数字一样，上标(本例中为–6)表示将数字恢复为常用格式所需的小数点移动次数，只是现在移动到了左侧，如负号所示。

和大数字一样，前缀表示显示的数字必须除以多少个十进制数。其中一些是常用的。百分之一(0.01 或 10^–2)由厘(c)表示。千分之一(0.001 或 10^–3)用毫(m)表示，百万分之一(0.000001 或 10^–6)用微(希腊字母，读作“mu”)表示。前缀 nano (n)出现在时髦的纳米技术一词中，纳米技术是研究分子大小的相对较新的科学分支。纳米表示十亿分之一(0.000000001 或 10^–9)，一纳米(1 纳米)大约是一个分子的大小。科学界使用但尚未广泛使用的其他 SI 前缀有 pico (p)代表十亿分之一(10^–12)、femto (f)代表十亿分之一(10^–15)和 atto (a)代表十亿分之一(10^–18)。

图 5-2 汇集了提到的各种前缀，以及一些更奇特的前缀。

图 5-2。

Prefixes used to denote decadic multiples or fractions of units

负数很好理解，但是在比较两个负数时要小心可能的混淆。如果一月份销售减少 200 件，二月份减少 300 件，那么二月份的变化就比一月份大。但是，从数学上讲,–300 小于–200。

两个负数相乘或相除得到一个正数。例如，如果我以相同的价格买卖一些股票，而股价随后发生了变化，我的利润就是买入的超出数乘以涨幅。写成公式，就是利润=(B–S)P 其中 B 是买入的数量，S 是卖出的数量，P 是价格的涨幅。四种情况可能如下:

| 购买数量 | 售出数量 | | 价格上涨 | 利润 | | B | S | 资产负债表 | P | | | One hundred | Ninety | Ten | $1 | $10 | | One hundred | Ninety | Ten | –$1 | –$10 | | One hundred | One hundred and ten | –10 | $1 | –$10 | | One hundred | One hundred and ten | –10 | –$1 | $10 |

如果卖出的数量大于买入的数量或者价格下降，利润为负。然而，如果这两种情况都发生，如底线所示，利润为正。

在财务报告中，尽可能避免负值。我经常想为什么会这样。簿记似乎很奇怪，在平衡账簿时，两栏(借方和贷方)必须分别相加，然后进行比较，从较大的数字中减去较小的数字。结果总是正的，然后被加到总数较小的那一栏以达到平衡，这样就完全避免了记录负值。簿记有着悠久的历史，今天的规则和程序可以追溯到中世纪。也许数学中的负号那时不太常用。或者，这可能是因为当添加包含负数的数字列表时，位于左侧的负号可能不会被注意到，直到为时已晚。当一个最终值，碰巧是负的，必须被引用时，它被放在括号中。这也很奇怪，因为括号在数学中有着特殊而不同的含义。曾几何时，这种负值通常以红色显示，有时仍然如此——因此有了“红色”这个短语，意思是在银行透支。

舍入

通常四舍五入到保留的最后一位数字的最接近值。因此，4372 将被四舍五入到 4370 的最接近的 10 位，4400 的最接近的 100 位或 4000 的最接近的 1000 位。当要删除的数字是 5 时，通常的做法是向上取整，因此 65 将变成最接近 10 的 70。然而，应该注意的是，这可能导致偏差。在一个数字列表中，每个数字都有一个随机的最后一位数字要被舍入，更多的数字会被向上舍入而不是向下舍入。如果随后将这些数字相加，总和将大于原始值的总和。可能会出现不一致。如果我们计算 5.25 美元的 10%，我们得到 0.53 美元四舍五入到最接近的一分钱。但是 90%，以同样的方式计算，得出 4.73 美元，使总数略高于原来的数额。如果特殊情况需要，还有其他方法来处理以数字 5 结尾的数字。例如，在一长串数字中，那些以 5 结尾的数字可以交替向上和向下舍入。

表达连续可变属性的原始统计数据将被舍入，这可能是因为获取值的方法在精度上受到限制。例如，称重精度受限于所用秤的精确度。或者可能已经采用了舍入，因为在随后的统计处理中或者在处理后预期的结论中，这些值的微小变化被认为没有任何意义。

虽然通常四舍五入到最接近的保留的最后一位数字，但也有总是向上舍入或总是向下舍入的情况。例如，英国和新加坡的税务当局为纳税人提供了向下舍入收入和津贴以及向上舍入扣除额的优惠。

请注意，一些看似离散的值实际上已被四舍五入。一个人的年龄可以用最近的一天、一小时、一分钟甚至更近的时间来表示，但在统计列表中，它可以用整年来表示。此外，舍入通常不是到最近的年份，而是到最后一个生日的年龄。当然，在很多情况下这并没有什么不同，但是如果我们，例如，考虑 8 到 14 岁的孩子，我们会发现我们的样本包括了从 8 岁到 15 岁不到一天的孩子。

当然，舍入总是创建离散值，但是相对于值的大小的小间隔实际上使值连续。

作为一般原则，如果要避免误差，舍入应在计算结束时进行，而不是中途进行。连续舍入会产生累积误差。例如，如果我们从数字 67 开始，对它进行一些算术运算，我们必须等到最后的运算，才能将答案四舍五入到所需的数字。假设我们把它除以 5，然后把答案乘以 7。我们得到 93.8，我们四舍五入到最接近的整数 94。或者，如果我们在第一次运算后四舍五入到最接近的整数，序列如下:67 除以 5 是 13.4，我们四舍五入到 13；乘以 7 得 91，这是不正确的。

如果从原始数据中提取已经四舍五入的数字并进一步处理，就会出现困难。举一个极端的例子，如果我们读到有 2000 万辆汽车注册在路上行驶，但我们在其他地方看到的记录显示目前只有 1800 万辆有牌照，我们可能会看到这种差异，并推断出 200 万辆或 10%的汽车没有牌照。实际上，如果将原始数据(1951 万注册用户和 1849 万许可用户)四舍五入到百万分之一，这个数字可能会低到这个数字的一半。当需要对看似四舍五入的数字进行进一步分析时，应检查它们可能代表的最大和最小可能值。除非这些值的最坏情况组合无关紧要，否则明智的做法是寻找原始数据。

每当我从收音机里听到报时的时候，我就想知道什么是四舍五入。当广播员说，“现在是 2 点 16 分”——他的意思是“2 点 16 分”吗？或者他的意思是“精确到分钟”——在这种情况下，它可能是过去 15.5 分钟到过去 16.5 分钟之间的任何时间？或者他可能是说他的数字时钟显示过去 16 分钟，而实际时间在过去 16 到 17 分钟之间。当然，这并不重要。

百分率

任何数字都可以用分数、小数或百分比来表示。因此= 0.5 = 50%。要从一个分数中得到一个小数，用顶部除以底部。要将两者之一转换成百分比，请乘以 100。当数字小于 1 时，以这种方式将数字表示为百分比非常有用。对于大于 1 的数字，没有优势，但这样做是为了效果。数字 2 是 200%。请注意与去年相比销售额增长 200%和与去年相比销售额增长 200%之间的差异。在第一种情况下，销售额增加了两倍；在第二阶段，他们翻了一番。

销售、收入、税收等的增减可以用百分比或实际值来表示。根据选择的不同，给人的印象会有很大的不同。一个小数值的小幅度增加可以是一个大的百分比。一个有一个孩子的家庭，第二个孩子出生时，孩子的数量会增加 100%。一个有 5 个孩子的家庭，下一个孩子出生时只有 20%的增长。同样，一个大值的大幅度增加可能是一个小百分比。收入 50 万美元的人年薪增加 1000 美元只有 0.2%，而拿联邦最低工资的全职工人年薪增加 7%。

如果你读到制造业在过去 20 年里从经济产出的 25%下降到 12%,你很可能会得出制造业总量减少的结论。这不一定。从绝对值来看，它实际上可能增加了，其百分比的减少是由于另一个经济部门的大量增加。当数据以百分比变化的形式呈现时，有必要检查数据在实际变化中的表现。

年龄通常被引用到最近的一年，但是孩子们意识到一年在他们的年龄中占了很大的比例。你会听到，“我九岁半了，但下周我就九岁又四分之三了。”引用一个 10 岁孩子的年龄到一年的最近一个季度似乎有些迂腐，但作为一个百分比，它不如报告养老金领取者的年龄到最近一年精确。

理查德·怀斯曼(2007: 128)给出了一个有趣的例子，说明当价值被看作百分比时，人们是如何看待价值的。在第一个场景中，一个购物者正在购买一个价值 20 美元的计算器。就在购买发生之前，店员说明天有一个促销活动，计算器只需要 5 美元。购物者必须决定是继续购物还是明天返回商店。在第二个场景中，购物者正在购买一台价值 999 美元的计算机。这一次，店员解释说明天的费用将只有 984 美元。在向人们展示这些场景时，研究人员发现，大约 70%的人说他们会推迟到明天购买计算器，但会立即购买电脑。然而，在每种情况下，延迟节省的费用是一样的——也就是 15 美元。

百分比变化和实际变化之间的这种选择不仅影响数据的呈现，而且影响到许多影响日常生活的问题。减税对所有人来说应该是一个百分比还是一个固定值？加薪应该是普遍的百分比还是每个人都一样？这些问题引发了许多争论，但却鲜有共识。事实上，通常会在两者之间达成妥协。

请注意，百分比始终是根据原始值计算的。因此，如果我的收入今年增加 10%,但明年减少 10%,我的收入最终会减少，因为第二次计算是基于更高的收入，而 10%的减少比之前增加的 10%要多。同样，如果我购买了下跌了 20%的股票，并支付了 1000 美元，我的储蓄不是 200 美元，而是更多，因为下跌是按原价的百分比计算的。

一家公司减少了纸张的使用，有证据表明，12 盒纸以前用了 4 天，现在用了 6 天，可以要求减少 50%。乍一看可能是 50%，因为 6 天比 4 天多了 50%。然而，最初的使用量是每天 3 盒，现在是每天 2 盒，即减少了 1/3，即 33%。

有时，关于哪个是原始值存在模糊性，这可能会在引用结果时产生一些偏差。假设我的车每加仑汽油跑 25 英里，你的车每加仑汽油跑 30 英里。你说你的油耗比我的油耗高 20%((30–25)×100/25)是对的，这句话的意思是，计算的是你的油耗，以我的油耗为基础值。然而，我同样可以正确地说，我的油耗只比你的油耗低 16.7%((30–25)×100/30)，以你的油耗为基础计算我的油耗。

同样具有欺骗性的是，当考虑的时间段增加时，增加或减少的百分比变化。如果我信用卡余额的月利率是 2%，我需要知道当表示为年利率时这相当于什么。在第一个月的月末，一笔 P 的债务将会上升到 P × (1 + 2/100)。在第二个月末，这个总数必须乘以(1 + 2/100)才能得到新的总数。到年底，原始余额将乘以这个系数 12 倍。最终的数字是 1.268 × P:相比于 24%的速览印象增加了近 27%。许多人会认为这是一种复利计算，并熟悉一种可以更快得出结果的公式。那些不熟悉这种计算方法的人还是会高兴地认识到，他们的银行账户显示出这种每年产生递增利息的特征，即使没有额外的存款。

计算百分比中的百分比时会产生混淆。比如说，如果标准税率是 20%，而财政大臣决定将其提高 5%，那么新的税率将不是 25%，而是 21%。如果他真的想不受欢迎，把税率提高到 25%，他可以说税率会提高 5 个百分点，而不是 5%。

简单索引号

指数用来表示一系列值的趋势，更容易理解。例如，我们可以得到一家商店每年售出的洗衣机数量，如下所示:

第一年被作为基数，所以指数显示为 100。随后的指数是通过将每个销售值表示为基础值的百分比而获得的。因此，对于第 2 年，(246/224) × 100 = 110。

给读者的印象在很大程度上取决于所选择的基本价值。如果我们再次查看上述值，但现在将第 2 年作为基础值，我们会得到以下序列:

| | 第一年 | 第二年 | 第三年 | 第四年 | 第五年 | 第六年 | | 销售 | Two hundred and twenty-four | Two hundred and forty-six | Two hundred and forty-nine | Two hundred and fifty-eight | Two hundred and sixty | Two hundred and sixty-nine | | 索引 | | One hundred | One hundred and one | One hundred and five | One hundred and six | One hundred and nine |

不断增长的销售额现在看起来不那么令人印象深刻了。

如果所选择的基础在适当的意义上是典型的，一个公平的画面将会出现。我们真的需要知道第一年的销售额是否异常低，或者是否比前几年有所增长。

可以使用每个先前的值作为基数而不是初始值来计算环比指数。因此，对于上述销售数字，我们将得到以下结果:

| | 第一年 | 第二年 | 第三年 | 第四年 | 第五年 | 第六年 | | 销售 | Two hundred and twenty-four | Two hundred and forty-six | Two hundred and forty-nine | Two hundred and fifty-eight | Two hundred and sixty | Two hundred and sixty-nine | | 索引 | | One hundred and ten | One hundred and one | One hundred and four | One hundred and one | One hundred and three |

在这样的序列中，有利的指数之后往往是不利的指数，反之亦然。该序列具有更好地说明变化率的优点。销售额的稳步上升或稳步下降将由一系列相似的值来表示。一系列上升的值将指示销售增长率的增加，而一系列下降的值将指示销售下降的增长率。

六、描述性数据

Not Every Picture Is Worth a Thousand Words

与可用于数值数据的选项相比，描述性数据样本的特征并不多。后者具有数世纪数学发展的优势。在可能的情况下，通常通过简单的计数，描述性的数据被用数字表示。此外，图表的频繁使用提供了简洁的数据摘要，尽管图表在很多方面会误导人。

图形表示

名义数据由可以分类和合计的数字组成，这些分类之间没有数字关系。因此，雇主可以根据上班的交通方式对员工进行分组，并使用每组的总数来得出停车场或自行车棚所需面积的结论。

在图 6-1(a) 中，四个城镇的人口以柱状图的形式显示。因为类别(城镇)之间没有数字关系，所以条形可以按任何顺序排列。

条形图格式有助于可视化每个类别中的相对数字:眼睛非常敏感，能够发现条形高度之间的小差异，同时吸收大差异。条形图有时以夸大大小条形图之间差异的方式呈现，如图 6-1(b) 所示。起源被抑制，给人的印象是诺斯顿的人口比其他人多得多。以这种方式隐瞒来源通常是不可接受的，而且会引起对统计数据背后意图的怀疑。桂格燕麦的广告中使用了这种条形图，表明食用谷类早餐可以降低胆固醇水平(Seife，2010: 35-36)。收到投诉后，该图被撤回。

在认为有必要夸大的情况下——例如，我们可能希望确保伊斯顿的人口明显多于韦斯顿——纵轴以及可能的条形应显示间断，如图 6-1(c) 所示。

图 6-1。

Three representations of the same bar chart, showing the visual effects of suppressing the origin and breaking the vertical axis

当需要注意每个类别的相对比例时，饼图比条形图更好。图 6-2(a) 显示了一次选举的结果。视觉上给人的印象是每个政党的相对支持度，而不是实际获得的票数。但是，不看数字，不容易看出是黄党还是蓝党赢得了选举。一个条形图，图 6-2(b) ，更清晰地显示了谁赢得了选举，但选票比例的印象却丢失了。

图 6-2。

A pie chart and a bar chart representing the same data

由两个或多个饼图组成的图表可能会产生视觉误导。在图 6-3(a) 中，显示了两个地区的家庭数量，并将其分为三类:养狗的家庭、养猫的家庭和两者都没有的家庭。饼状图每个扇区的面积代表每个类别中的数量，每个饼状图的总面积代表每个区的总户数。有 3000 户人家的上戴尔的图表面积比有 2000 户人家的下戴尔大 50%。为了获得正确的面积比例，上谷图表的直径仅比下谷图表大 22%。这给了下谷宠物分布的视觉偏见。图 6-3(b) 中的堆积条形图更直观地展示了猫和狗的相对数量。

图 6-3。

A pair of pie charts and a stacked bar chart representing the same data

象形图可能更容易误导人。图 6-4(a) 显示了上谷和下谷的猫的数量对比。垂直刻度表示猫的数量，因此只有猫的图像的垂直高度是有意义的。然而，因为高的猫也更宽，猫的数量之间的差异在视觉上看起来比实际上更大。图 6-4(b) 所示的象形图风格更能体现无偏差。这里用一个猫的小图像来代表每个区的 100 只猫。

图 6-4。

The use of pictograms in charts may be more or less visually misleading, as exemplified in (a) and (b), respectively

在象形图中使用三维图像可能会产生极大的误导。图 6-5 显示了两个工厂的产量。从视觉上看，这两者之间似乎没有太大的区别。但是，正如每个工厂的实际立方米数所证实的那样，工厂 A 的产量几乎是工厂 b 的两倍。之所以会产生错觉，是因为尽管两个立方体的体积正确地代表了产量，但是工厂 A 的立方体的边长只比工厂 b 的长 25%。因此:50 × 50 × 50 = 125，000，40 × 40 × 40 = 64，000。

图 6-5。

A misleading visual comparison of the outputs of two factories

当类别重叠时，数据通常用文氏图表示。考虑以下数据。在一个 100 人的小组中，30 人不学习语言，50 人学习法语，30 人学习德语。因此，10 人同时学习法语和德语。图 6-6 示意性地显示了数据。封闭区域代表不同的类别，但封闭区域的实际大小并不代表类别中的数字。其目的纯粹是为了说明重叠部分。因此，在查看文氏图时，注意实际的数字并避免从区域的大小得到视觉线索是很重要的。

图 6-6。

Venn diagram showing the numbers of students studying French and German

维恩图在可视化条件概率方面很有用(第三章)。假设我们从图 6-6 所示的学生中随机选择一名学生，但指定该学生学习法语的条件。我们唯一感兴趣的学生是左边椭圆中的学生，总共 50 人。如果我们问学生学习德语的概率是多少，我们从重叠区域看到 10 个学生符合要求。所以概率是 10/50 = 0.2。另一方面，如果我们指定学生学习德语的条件，并询问学生学习法语的概率，我们只关心右椭圆。因此概率是 10/30 = 0.33。

对于有序数据，虽然可以使用饼图，但条形图的优势在于允许类别按逻辑顺序排列。图 6-7 以条形图的形式展示了一个体育俱乐部获得的奖牌数。

图 6-7。

Bar chart showing the numbers of medals won by a sports club

比例

名义数据可以用数字表示，只要每组中的数字可以表示为总数的比例或百分比。因此，图 6-2 中的数据得出以下比例:

通常采用比例或百分比来掩盖所涉及的数字非常小的事实。当被告知一家本地公司有 12%的员工在 70 岁时仍在全职工作时，这听起来可能令人印象深刻，但当你知道这个数字仅代表一个人时，就不那么令人印象深刻了。

与名义数据一样，序数数据可以用比例或百分比来表示。因此，衬衫的销售可以报告为 30%小号，50%中号，20%大号。

七、数据

你的统计数据正常吗？

当样本由数字数据组成时，它具有许多可以量化的特征。这些特征可用于总结数据，提供样本来源人群的信息，并表明这些信息的可靠性。此外，如果样本成为进一步研究的一部分，则可以随后使用样本的计算属性。

数字数据样本的一个众所周知的特征是平均值。事实上，我们每天都从媒体和日常谈话中获取平均剂量。但是一个平均值，尽管有其适当的用途，但在孤立引用时可能会产生极大的误导。对数据样本的适当考虑需要关于数据如何分布在一系列值上的信息。

图形表示

第五章介绍了分布的概念，并使用一组人穿的鞋子的尺寸样本，将分布绘制成条形图(图 5-1)。请注意，条形图覆盖的区域代表数据的总数，因为每个条形的高度代表特定组中的数据数。如果条形图显示为纵轴代表相对频率——即频率除以总数，如图 7-1(a)——外观完全相同，但是条形图覆盖的总面积现在是一，相对频率相当于概率。因此，我们可以从图表中推断出，从该组中选择一个穿 8 码鞋的人的概率是 0.24。该图可以被称为概率分布。一般来说，当数据是观察或测量数据时，我们使用相对频率作为纵轴的标签。当图表是理论性的或用于确定概率时，我们标记轴概率。

如图 7-1(a) 所示的图表，显示相对频率并沿水平轴有一个数字序列，通常被称为直方图。这是为了区别于图 6-1 所示的条形图，图中纵轴表示频率，横轴没有数值。这种做法很受欢迎，也有一些好处，但是直方图这个术语严格地适用于条形图宽度不等的图表。这将在“分组数据”一节中进一步解释。

图 7-1(b) 将图 7-1(a) 的数据显示为相对频率多边形，术语多边形表示点与直线的连接。

图 7-1。

Relative frequency shown as (a) a bar chart and (b) a polygon

这种数据可以表示为累积值。鞋号数据在下面扩展到包括累积频率、累积相对频率和累积百分比。

| 鞋码 | 频率 | 累积频率 | 相对频率 | 累积相对频率 | 累积百分比 | | --- | --- | --- | --- | --- | --- | | six | four | four | Zero point zero eight | Zero point zero eight | eight | | seven | nine | Thirteen | Zero point one eight | Zero point two six | Twenty-six | | eight | Twelve | Twenty-five | Zero point two four | Zero point five | Fifty | | nine | Sixteen | Forty-one | Zero point three two | Zero point eight two | Eighty-two | | Ten | eight | forty-nine | Zero point one six | Zero point nine eight | Ninety-eight | | Eleven | one | Fifty | Zero point zero two | One | One hundred |

图 7-2 以(a)条形图和(b)多边形的形式显示了累积频率。

上述数据是离散的，但如果数据是连续的，累积频率图可以包含比相应的频率条形图更多的信息。为了看到这一点，假设我们没有记录每个志愿者穿的鞋子的尺寸，而是测量了他的脚的长度。以厘米为单位测量并按大小顺序排列的数据可能如下:

第一组 22.1、22.3、22.9、23.7

第二组 24.2、24.4、24.6、24.6、25.1、25.4、25.5、25.8、25.9

第三组 26.0，26.3，26.4，26.6，26.7，26.9，27.0，27.3，27.5，

27.8, 27.8, 27.9

第四组 28.1，28.1，28.2，28.2，28.4，28.5，28.5，28.7，28.8，

28.8, 28.9, 29.1, 29.3, 29.6, 29.8, 29.9

第 5 组 30.0、30.2、30.5、30.6、30.7、31.0、31.4、31.8

第六组 32.1

图 7-2。

Cumulative frequency shown as (a) a bar chart and (b) a polygon

当绘制成条形图时，数据必须分组。例如，如上所示，这些组可以是 22.0 到 23.9、24.0 到 25.9、26.0 到 27.9 等等。图 7-3(a) 显示了生成的条形图。在每个组中，单个值变得彼此相等，每个值都构成组中值的总数。从条形图中无法知道每个组中的单个值是多少。相比之下，可以使用每个值绘制累积频率图，如图 7-3(b) 所示。当数据是连续的时，通常会画出一条平滑的曲线，这种曲线通常被称为卵形曲线。当纵轴是累积相对频率或累积概率时，曲线的形状保持不变，但该图可称为累积分布函数或简称为分布函数。

图 7-3。

Frequency and cumulative frequency shown as (a) a bar chart constructed from grouped data and (b) a curve plotted from individual values

数据集通常表现出围绕一个中心值聚集的趋势，如图 7-3(a) 所示。正如我们所料，小尺寸或大尺寸相对较少。大多数都接近群体的平均规模。当数据集中聚类时，累积频率图具有典型的 S 形，如图 7-3(b) 所示。该图还提供了一种确定中间值的便捷方法，如图 7-3(b) 所示。四分位数，即数值的四分之一和四分之三，经常在统计结论中引用，也显示出来。四分位数范围包括数据的中间一半。

如果我们有一个柱形图，峰值在数据的低端，这个分布被称为正偏态分布。预计家庭收入将属于这种类型，峰值出现在远低于中点值的位置(图 7-4(a) )。当分布的峰值朝向数据的高端时，分布是负偏的。如果我们观察人们死亡时的年龄，我们预计会看到负向分布，大多数人都是在老年死亡的(图 7-4(b) )。

图 7-4。

(a) Positively and (b) negatively skewed distributions

正态分布数据

幸运的是，在统计术语“正态分布”中,“正态”一词确实带有“经常遇到”或“每天发生”的传统含义。然而，用几句话来概括正态分布数据这一重要概念的含义并不容易。

正态分布的数据集中聚类且对称，即不存在正负偏差。然而，它们的特殊之处在于，其分布在所包含的值的范围内变化。

人的身高和体重呈正态分布。假设我们测量一小部分人的身高，比如说 20 岁。我们可以用组宽为 8 cm 的条形图来表示数据，如图 7-5(a) 所示。围绕平均值的中心聚类被清楚地示出，但是数据以相对于总宽度的宽步长非常粗略地呈现。如果我们决定将组宽度减少到 4 cm，以尝试改善表示，我们可能会得到图 7-5(b) 。因为我们现在每组的数据都很少，所以条形图开始失去形状。

如果我们现在考虑有更大的样本，我们可以减少组的宽度，并且在每个组中仍然有足够的数量以可靠的方式代表高度的分布。图 7-5(c) 显示了当样本量为 10，000，组宽为 2 cm 时，我们可能得到的结果。条形图现在有了更平滑的轮廓。将该过程扩展到更大的样本量和更窄的组宽度，最终得到一条平滑的曲线，叠加在图 7-5(c) 的条形图上，这是正态分布。该曲线也称为高斯曲线，具有典型的钟形。它有一个精确而复杂的数学公式来精确地定义它。当然，它不是以我可能暗示的方式从条形图中推导出来的:通过条形图的描述对于提供正态分布的意义的简单而正确的视图是有用的。

就像在条形图中一样，每个组中的数据数量由相应的垂直条的面积来表示，在正态分布曲线下定义的任何垂直条代表位于条的水平界限之间的数据的相对数量。因此，条带内数据相对于数据总数的比例等于条带内面积相对于曲线下总面积的比例。此外，这个比例等于一个人的概率，从总数中随机选择，有一个高度位于带的限制。

图 7-5。

Distributions of heights of men

从图 7-5(a) 中的条形图进展到图 7-5(c) 中的连续曲线，需要改变垂直轴的标记。对于条形图，标签是频率。假设条形宽度在整个图中是恒定的，轴上的刻度将总是允许我们读出频率。然而，一旦我们用一条平滑的曲线代替一组条，我们就不能再读出频率:频率将取决于我们选择的条的宽度。轴标为频率密度。

显然，每组数据在横轴上的数值和纵轴上的频率方面都有自己的标度。但是如果数据遵循正态分布，曲线的形状将是相同的。为了利用正态分布分析数据，标准正态分布如图 7-6 所示，其峰值位于水平轴上的零处。因此，曲线在正负方向上对称延伸。水平刻度在本章的“数据分布”一节中解释。调整垂直刻度，使曲线下的总面积为 1。任何垂直条带的面积直接表示该条带内值出现的概率。任何一组符合正态分布的数据都可以通过改变尺度简化为标准的正态分布，这将在以后的数据分析中进行讨论。

图 7-6。

The standard normal distribution

每当数据的变化是由许多随机效应引起时，就会产生这种特征曲线。这种影响可能是被测量的属性所固有的，如在被采样的人的身高的例子中，但是在其他情况下，这种影响可能是由于测量方法中的误差。对珠穆朗玛峰高度的重复测量有望给出围绕一个中心值的数据聚类的正态分布。人们发现，正态分布出现在许多数据收集的情况下，并在随后的统计分析中广泛使用。当然，还会遇到其他特殊的分布，我将在后面的章节中描述其中的一些。

符合正态分布的数据示例分为几类。第一类是存在真实值，并且样本由该值的估计值或测量值组成，这在某种程度上不可避免地是不准确的。不准确是由观察或测量方法中的随机误差引起的。对纯铜密度、各种化学和物理常数的重复测量，或者对世界海洋中水量的估计，都属于这一类。

第二类是试图生产在尺寸和重量等性质上一致的产品。由于材料或制造工艺的随机波动，每件商品都略有不同。许多项目的测量值将遵循正态分布。

第三类包括正确的数据(当然，在一定的测量误差范围内)，但实际上非常不同。也就是说，观察到的差异不是由于测量或制造的小误差，如前两类，而是反映了它们本质上的差异。然而，这些值表现出围绕中心值聚集的趋势-偏离越大，偏离大于或小于中心值的可能性就越小。这类数据的例子有人的身高和体重、考试分数和智商。这一类别与前一类别之间的比较提出了一个有趣的问题。这就好像自然过程试图生产出同样的东西，就像我们在工厂里做的那样，但由于随机误差而不太成功，就像我们不太成功一样。从这个角度来看，第二类和第三类在某种意义上是相同的。

第四类包括理论上符合非正态分布的数据，但在某些情况下，可以很好地用正态分布来表示。通常，当样本很大时，我们会找到最接近正态分布的近似值。

正态分布能够表示不完全符合分布理论要求的数据，这有助于使其在统计学中发挥主要作用。当然，在现实中，没有一组数据是完全一致的。理论分布在两个方向上逐渐变小至无穷大，表明总是有可能观察到任何大小的值，尽管可能性很小。实际上，这是不可能的，不仅因为最大值的实际限制，而且因为低值尾部受零值的限制。负值在大多数情况下是没有意义的。

分布类型

一个数据样本可以简单地通过检查被判断为某种特定类型的分布或大致如此。数据可以被视为近似正态分布，围绕一个中心值聚集，很少有极值。例如，其他数据集可能看起来是均匀分布的，没有集中聚集的迹象。

可以在数据和假设的分布之间进行比较，从而提供数据属于该分布的可能性的度量。这种比较被称为拟合优度检验。

数据按顺序排列，并根据假定的分布计算相应的值。例如，我们可能有数据显示一周中不同的几天有多少员工上班迟到，我们希望检验这一假设，即上班迟到的人数与一周中的哪一天无关。如果假设是正确的，数据的分布应该是均匀的:也就是说，在可能的随机波动范围内，不同天的数字应该是相同的。因此，我们列出了预期数据，每个值都是实际数据的平均值:

| 一天 | 迟到的人 | 预计晚点到达 | 差异 | 差值平方 | 差值平方除以期望值 | | --- | --- | --- | --- | --- | --- | | | | e | d | d ² | d ² /e | | 星期一 | Twenty-five | Twenty-four | one | one | 1/24 | | 星期二 | Sixteen | Twenty-four | –8 | Sixty-four | 64/24 | | 星期三 | Eighteen | Twenty-four | –6 | Thirty-six | 36/24 | | 星期四 | Twenty-eight | Twenty-four | four | Sixteen | 16/24 | | 星期五 | Thirty-three | Twenty-four | nine | Eighty-one | 81/24 | | 总数 | One hundred and twenty | | | | 198/24 = 8.25 | | 平均值= 24 | 自由度= 4 |

计算两组之间的差异。根据这些差异的平方，确定一个称为卡方的统计量，χ ² (希腊字母 chi)。在本例中，卡方= 8.25。你会意识到，如果数据与预期数据完全一致，将会得到零值。所以数值越大，分布越有可能不均匀。将获得的值参考卡方分布表，以获得依赖于一周中某一天的概率，而不是受随机波动影响的实际迟到人数。以下是卡方分布表的摘录:

| 自由度 | 10%显著性 | 5%显著性 | 1%显著性 | 0.1%显著性 | | --- | --- | --- | --- | --- | | one | Two point seven one | Five point zero two | Six point six four | Ten point eight | | Two | Four point six one | Five point nine nine | Nine point two one | Thirteen point eight | | three | Six point two five | Seven point eight two | Eleven point three | Sixteen point three | | four | Seven point seven eight | Nine point four nine | Thirteen point three | Eighteen point five | | five | Nine point two four | Eleven point one | Fifteen point one | Twenty point five |

在这个例子中，我们从表中发现，对于 4 个自由度(见上文)，8.25 位于 10%和 5%显著性的值之间。因此，如果我们声称迟到的人数确实取决于一周中的某一天，那么我们有超过二十分之一(5%)的可能性是错误的。这种说法是不可靠的。图 7-7 显示了数据的分布，以及为了比较，假设的均匀分布。

图 7-7。

Comparison of an observed distribution and a supposed uniform distribution

对于非均匀期望分布，所需的期望值必须从表中获得。例如，为了测试数据是否符合正态分布，可以从正态分布的表中获取值。然后，计算将如上进行，实际值和预期正态分布值之间的差被平方并求和。

我需要解释自由度这个术语，我在上面说过，自由度是数据的一个特征，是从公布的表格中获得显著性水平所必需的。从某种意义上说，所指的自由是与众不同的自由——我认为，这是理解自由度含义的一种有用方式。如果我们的数据只包含一个值，那么就没有差异，也没有变化或不确定性的度量。如果我们有两个值，那么就有一个差异的度量，那就是两个值之间的差异。因此，我们有一个基于单一差异的变化度量，我们称之为一个自由度。

有三个值(a、b 和 c)时，有两种变化度量:a–b 和 b–c。请注意，a–c 不是变化的进一步度量，因为它的值由其他两个差异决定。因此我们有两个自由度。有了四个值，我们就有了三个自由度，依此类推。

上述示例中的自由度显示为四个。实际上有五个差异——也就是说，五个每日数值中的每一个与数字 24 之间的差异。然而，值 24 是通过确保实际值和期望值的总和相同而从五个每日值中获得的。这个限制去掉了一个自由度，剩下四个。当选择非均匀分布进行比较时，自由度可能会进一步减少。当必须从原始数据中计算假设分布的附加特征时，就会出现这种情况。

各种统计检验被标准地用于确定数据估计值的可靠性，或者数据集之间存在差异或相似性的可能性。在这些测试中，使用了公布的表格，这些表格通常要求输入适当自由度的数据。

卡方检验也可以显示与假设分布惊人地一致的证据。对太好的协议应该持怀疑态度。数据是真的吗？一些数据被删除了吗？

还有其他的拟合优度测试。似然比测试产生一个统计量，G ² ，类似于χ ² 。Kolmogorov-Smirnov 检验同样基于观测数据和假设分布的预期数据之间的差异。

平均水平

从数学的角度来看，单词 average 通常指的是平均值——一个集合中所有数据的总和除以数据的数量。平均值表示一个中心值，其他值围绕该中心值排列。这是一个有用的数据汇总，特别是当数据的性质表明存在中心聚集效应时。正如我们之前说过的，人们的身高或体重应该集中在平均值附近，相对来说，很少有人有极端的、大的或小的身高或体重。“正态分布数据”一节中对正态分布的描述认识到了峰值(即平均值)的对称性。

在没有聚类的情况下使用平均值会产生误导，而且在某些情况下毫无意义。但并不总是这样:当骰子被重复掷出时，分数没有显示出中心聚类，六个可能的分数中的每一个都大致相等地出现，但平均分数在允许估计给定次数的投掷后的总分数时是有用的。因此，平均值是(1+2+3+4+5+6)/6 = 3.5——所以，比方说，10 次投掷的总数大约是 35。

统计学家用期望这个词来表示预期的平均值，而不是实现的平均值。所以如果我们投掷骰子多次，期望值是 3.5。实际达到的平均值可能接近 3.5，但是可以是 1 到 6 之间的任何数字。

在统计数据中，还有两种常用的平均数:中位数和众数。“图解表示”一节中描述的以及图 7-3 中显示的中值是按大小排序的数据的中间值，因此一半数据小于中值，一半数据大于中值。众数是最常见的值，即数据中出现频率最高的值。样本中可能有一个以上的模式，而平均值和中值具有唯一的值。

使用哪个平均值取决于数据的性质。使用不适当的平均值会扭曲获得的印象。如果我们看每个家庭的平均孩子数量，计算平均值可能会给出一个非整数值，比如 2.23。虽然没有一个家庭有 2.23 个孩子，但这个值可能非常有用，因为给定家庭总数，它将允许我们计算出孩子总数的最佳估计值。中位数可能在 2 到 3 之间，告诉我们一半的家庭有 2 个或更少的孩子，一半的家庭有 3 个或更多的孩子，这不是非常有用的信息。该模型的值可能为 2，至少会告诉我们这些家庭比其他任何数字更有可能有 2 个孩子。

如果我们看家庭收入，我们会有不同的考虑。平均收入可能是，比方说，每年 50，000 美元。然而，数据中会有一些非常高的收入者，他们的收入是平均水平的三至四倍。大多数家庭的生活水平都远低于平均水平。因此，存在一种可能产生误导的向上偏置效应。如果我们算出中间值，我们可能会发现这个值是 40，000 美元，表明一半家庭的收入低于这个数字。如果我们想知道模式是什么，我们会发现因为收入有连续的值(当然不会比一便士更细)，没有足够的家庭，或者可能没有，有相同的收入值。这可以通过对数据进行四舍五入或者更好地对数据进行分组来解决。这可能会给我们一个答案:最常见的家庭收入在 35，000 美元到 40，000 美元之间。

随着数据更加精确地符合正态分布，平均值、中值和众数会更加接近。随着分布变得正偏，众数移动到平均值以下；当它变成负偏态时，它移动到平均值以上。中位数通常位于众数和平均数之间。

选择不适当的平均值会对数据的含义产生错误的印象，而且通常是出于误导的目的。当没有指定所使用的平均值类型时，情况会变得更糟。寓意是警惕未指定类型的平均值，即使声明引用了平均值、中值或众数，也要探究根据其他平均值查看结果的后果。

数据的传播

平均值非常有用，但是没有给出从中得出平均值的值的分布。不可能对基于平均值的决策的有效性做出任何判断。任何引用的平均值都应附带一些数据分布的指示。

最大值和最小值，以及它们之间的差异，后者被称为范围，很容易引用，但用途有限。它们没有给出关于样本中单个值如何分布的信息。当然，如果有人想知道要运输的最重包裹的重量或溜冰场提供的最小尺寸的溜冰鞋，那么这些信息可能是有用的。

本章第一节和图 7-3 中描述的四分位数具有更广泛的用途。下四分位数或 25%被定义为四分之一的数据位于其下方，四分之三的数据位于其上方。上四分位数或 75%占据相应的位置，四分之一的数据位于其上，四分之三的数据位于其下。四分位数范围是两个四分位数之间的差值，因此包含中间的 50%的数据。有时会引用其他百分位数:例如，90 个百分位数包含了较低的 90%的数据。

衡量数据分布的最有用的方法是标准差。这是使用样本中的所有数据计算的。每个数据值与平均值的偏差对标准偏差有贡献，但是通过平方该值，每个偏差被有效地加权，以对较大的偏差给出较大的贡献。将所有偏差的平方相加，并计算平均值。这个平均值的平方根就是标准差。

例如，假设我们有以下不太可能但很容易看到的值:

2 3 4 4 5 5 6 6 7 8

平均值是 50/10 = 5。

每个值与平均值的偏差为

–3 –2 –1 –1 0 0 1 1 2 3

偏差的平方是

9 4 1 1 0 0 1 1 4 9

偏差的平方平均值为 30/10 = 3，标准偏差为 3 的平方根，即, 1.73.

标准差对于正态分布有特殊的意义。它是特定高度处正常曲线宽度的一半。其位置使得低于平均值的一个标准偏差和高于平均值的一个标准偏差之间的曲线下面积是曲线下总面积的 0.683。因此，68.3%的数据位于平均值的一个标准偏差内。平均值两侧的两个标准差包括 95.4%的数据，三个标准差包括 99.7%的数据。当引用平均值和标准偏差时，这些图提供了一种非常有用的快速方法来可视化数据的分布。在上面的例子中，平均值两边的一个标准偏差是从 3.27 到 6.73，我们的数据的 60%(10 个值中的 6 个)在这个范围内。

前面的讨论完成了“正态分布数据”一节中介绍的标准正态分布的描述，如图 7-8 所示。平均值是中心峰值，位于水平轴上的零值处，曲线下的面积等于 1，现在水平轴上的刻度以标准偏差为单位。垂直刻度是概率密度，但它不是直接感兴趣的，因为水平刻度以标准偏差为单位，所以选择垂直刻度是为了使曲线下的面积等于 1。

图 7-8。

The percentage of data within a number of standard deviations from the mean

标准差的平方称为方差。由于它的特殊性质，在统计分析中被广泛使用，这将在后面讨论。它没有显而易见的意义:事实上，它的单位相当奇怪。如果我们的标准差恰好是以美元为单位的，那么方差就是以美元的平方为单位的——或者，如果你愿意，也可以是平方美元(不管它们是什么！).

即使数据不完全符合正态分布，标准差仍然提供了数据分布的有用度量。为了说明这一点，考虑我们通过投掷骰子可能积累的数据。因为从 1 到 6 的所有数字出现的机会都是相等的，所以我们期望得到几乎相同的分数。数据将符合均匀分布，条形图将是平顶的，看起来一点也不像正态分布。平均分 3.5，计算标准差 1.87。因此，我们预计大约三分之二的分数会在 1.63 到 5.37 之间。其实三分之二的分数在 2 到 5 之间，大致一致。

统计表给出了标准正态分布曲线下距平均值不同距离处的面积值。曲线下的总面积定义为 1，因此部分面积显示为 0 和 1 之间的分数，并直接表示所需范围出现的概率。这些桌子不是特别容易使用。因为曲线是对称的，所以表格只给出了分布的一半，即正的右边的一半。从所需精度水平所要求的表格的范围来看，经济是合理的，但这确实意味着当要求用延伸到平均值两侧的面积来表示概率时，必须相当小心。

图 7-9 以更简单、更简洁的形式显示了标准正态分布的值，这种形式更便于获得近似值以及检查申报值是否存在重大误差。为了节省空间，这些值只有两位数；并且它们以百分数给出，这比通常使用的小数更容易理解。此外，任何两个极限之间的概率可以立即读取，而公布的表格要求提取两个极限的单独值，然后计算差值。

图 7-9。

Tabulated probabilities of occurrence of normally distributed values between lower and upper limits

需要强调的是，发生的概率是用面积来表示的。我们要求两个值之间出现的概率。我们不能要求观察到一个独特值的概率。在前面的身高例子中，我们不能要求一个成年人正好 160 厘米高的概率。这将是正态分布图上的一条垂直线，不包含任何区域。答案是，没有一个成年人身高正好是 160 cm 的概率。如果乍一看这似乎很奇怪，请注意使用了“完全”一词。我们可以问一个成年人身高在 159.5 和 160.5 厘米之间，159.9 和 160.1 厘米之间，或者任何其他更接近的极限之间的概率。这些窄条将具有代表所需概率的面积。面积会很小，因此产生的概率也会很小。这是完全合理的，因为找到一个高度精确定义的人的概率确实很小。

发生的概率可以用比例来表示。因此，如果身高在 159.5 厘米和 160.5 厘米之间的成年人出现的概率是 0.1，那么可以说身高在 159.5 厘米和 160.5 厘米之间的成年人的比例是 0.1，或者十分之一，或者十分之一。

分类资料

数据往往不详细，但一开始就分组。例如，可以从不同年龄的许多人那里收集信息，但是年龄可能没有被记录或者甚至没有被单独获得，而只是简单地分类在带内。波段必须仔细定义，并同样仔细理解。

我们可能有每十年一次的乐队。如果我们定义一个从 20 岁到 30 岁的范围，下一个范围是 30 岁到 40 岁，我们不知道 30 岁的人属于哪个组。为了避免这一问题，我们必须将 20 年至 29 年和 30 年至 39 年定为一个区间。如果数据不是离散的，就必须采用不同的程序。人的身高不断变化，所以我们不能有，例如，一组 130 厘米至 139 厘米，然后一组 140 厘米至 149 厘米。139.5 cm 无处定位。这些组必须是“等于或大于 130 厘米且小于 140 厘米”，后跟“等于或大于 140 厘米且小于 150 厘米”这些名称相当拗口，通常用数学符号表示为≥130 至< 140，然后是≥140 至< 150。

如果为该组引用单个代表值，则通常是该组宽度的中点。但是，请注意，如果值被四舍五入，中点可能不在看起来的位置。如果组是 10 到 19，并且值已经四舍五入为最接近的整数，则该组实际范围是从 9.5 到 19.5。中点是 14.5。但如果组≥10 到< 20，则中点为 15。

有时这些组的宽度不相等。这可能是因为抽样的不均匀性，或者仅仅是因为在某些波段内确实缺乏数据。例如，人的年龄在 80 到 100 岁之间比在 20 到 40 岁之间分布得更稀疏。请注意，发生这种情况时，条形图上每个块的面积仍必须表示指定范围内数据值的总数。以下数据可以绘制成相对频率条形图，如图 7-10(a) 所示:

图 7-10。

The difference between (a) a bar chart and (b) a histogram

| 年龄范围(岁) | 20 到 29 岁 | 30 至 39 岁 | 40 至 49 岁 | 50 至 59 岁 | 60 至 69 岁 | 70 至 79 岁 | 80 到 89 岁 | 90 到 99 | 总数 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 频率 | Ten | Thirteen | Twelve | eight | four | one | Zero | Two | Fifty | | 相对频率 | Zero point two | Zero point two six | Zero point two four | Zero point one six | Zero point zero eight | Zero point zero two | Zero | Zero point zero four | One |

这些组的宽度相等。每个人代表 0.02 的面积，因此 50 个人的总面积为 1.00。分布的尾端不均匀；为了避免这种情况，可以将数据集中在更大的组中，如图 7-10(b) 所示。最后一个组只有三个成员，因此高度为 0.02，以使最后一个块的面积等于 0.06 个单位。请注意，我们现在不能将轴标记为相对频率，因为最后一组(70 到 99 年)的实际相对频率为 0.06。正确的名称是相对频率密度，如图所示。

我现在可以解释条形图和直方图之间的区别。条形图代表离散的数据或离散的数据组，并且这些组都具有相同的宽度。纵轴代表频率或相对频率，后者相当于概率。在直方图中，也表示离散的数据组，这些组的宽度并不相同。纵轴代表频率密度或相对频率密度，后者相当于概率密度。直方图上的纵轴不代表概率:它是代表数据在组的界限内的概率的块的面积。因此，直方图类似于连续数据曲线，如关于正态分布所解释的，其也被标记为概率密度，并通过曲线下的面积来指示概率。

汇集和加权

几组数据可以放在一起提供一个集合平均值。混合值更具代表性，因为它基于更多的观察。

在汇总结果时，为了让某些值对最终结果有更大的影响，加权平均值通常更合适。有时，这对于避免结果出错至关重要。例如，如果我在一家商店买了 10 个苹果，每个 20 美元，在另一家商店买了 4 个苹果，每个 24 美元，那么每个苹果的平均成本显然不是 22 美元。合适的指标是加权平均数，即支付的钱总数除以购买的苹果总数——即(20 × 10 + 24 × 4) / (10 + 4) = 21.1。

加权的必要性并不总是那么明显。我汽车前轮的轮胎比后轮的磨损得快得多。我的后轮跑了 45，000 英里，但前轮只跑了 15，000 英里。所以，平均来说，我的轮胎跑了 30，000 英里，也就是(45，000 + 15，000) / 2 英里。这是不正确的。在 45000 英里中，我会磨掉 1 对后轮胎和 3 对前轮胎，一共 4 对，所以一个轮胎平均续航(45000×1+15000×3)/4，也就是 22500 英里。

有时，对权重的需求似乎非常令人惊讶。假设你定期乘公共汽车。公共汽车预定每 10 分钟到达一次，所以这是公共汽车之间的平均时间；但有些会早，有些会晚。如果你随机到达公共汽车站，你的平均等待时间是多少？乍一看，答案似乎是五分钟，但这是不正确的。你更有可能到达一个较长的间隙，而不是较短的间隙，所以你的等待时间会比五分钟稍长。

一个简单的例子可以说明这一点。想象两辆公共汽车:一辆在前一辆后 12 分钟到达，第二辆在 8 分钟后到达，所以平均到达时间是 10 分钟。当你在 12 分钟的间隙到达时，你的平均等待时间是 6 分钟；当你在 8 分钟的间隙到达时，你的平均等待时间是 4 分钟。较长的等待时间比较短的等待时间更常见，比例为 12 比 8，因此总平均等待时间必须通过加权获得:

(6 x12 + 4 x 8)/20 = 5.2 分钟。

在这样的例子中加权是必要的，并且可以明确地应用，但是加权有时可能是判断的问题。如果以前已经进行过几次类似的调查，可以断定其中一些虽然有价值，但由于使用的技术，不如其他的可靠。因此，不太可靠的结果与其他结果合并在一起，但给予较低的权重。在下面的计算中，珠穆朗玛峰高度的三个估计值——h₁、h ₂ 和 h₃——合并在一起，但是 h ₃ 的权重只有另外两个的一半:

合并估算=(2h₁+2h₂+h₃)/5。

第五章将简单指数描述为，实际上，百分比指的是一个选定的基值。许多经常遇到的指数是从更复杂的计算中得出的，因为这些值是几个项目的平均值。因此，英国零售价格指数是基于特定日期各种商品的价格，这些商品的价格是平均的。不同商品的购买量不同，所以平均价格必须通过加权平均购买量来获得。显然，一条 1 英镑的面包和一升 6 英镑的葡萄酒不能简单地平均计算。如果每 35 条面包买两瓶酒，我们把两瓶酒的价格，12，加到 35 条面包的价格，35，然后把结果除以 37，总数。因此加权平均价格为(35 x 1 + 2 x 6)/37 = 1.27。当然，即使是最初的价格，1 和 6，也必须通过平均来获得，考虑到不同的类型、不同的品牌和不同的商店。

零售价格指数包括确定要列入的商品清单，以及在规定的时间在规定的商店记录价格的严格程序。商品根据类型分组，因此可以为不同的商品组计算指数。例如，总体指数是由代表家庭用品、食品、住房和其他组的组指数构成的。家庭用品指数是由代表家庭消费品、家具和其他部分的部分指数构成的。家庭消耗品部分指数由代表信封、卫生纸和其他物品的物品指数构成。信封的项目索引由在指定位置的指定商店中购买的指定类型的项目构成。零售价格指数中总共有大约 700 种商品。

当实际购买数量被用来确定用于平均的权重时，仍然需要选择是在基准年购买的数量还是在当年购买的数量。使用基年数量得出的指数被称为拉斯佩尔指数。包含当年数量的指数是一个 Paasche 指数，在确定时显然需要更多的时间和费用。

例如，假设我们有以下基准年的数据:

每条面包 1 个相对数量 35 个面包

葡萄酒每瓶 6 相对数量 2 瓶。

我们需要指数的下一年的数据如下

每条面包 1.20 英镑相对数量 35 条

葡萄酒每瓶 8 个相对数量 1 瓶。

使用基准年数量的拉斯佩耶尔指数计算如下:

1x35 = 35 1.20x35 = 42

6x2 = 12 8x2 = 16

总计 47 总计 58

指数= (58 / 47) × 100 = 123。

使用当年数量的 Paasche 指数计算如下:

1x35 = 35 1.20x35 = 42

6x1 = 6 8x1 = 8

总计 41 总计 50

指数= (50 / 41) × 100 = 122。

这两个指数非常相似，除非数量每年有明显的变化。Paasche 指数的一个缺点是不同年份的指数不能相互比较，只能与基准年比较。拉斯佩尔斯指数允许在任何两年之间进行比较。英国零售价格指数是一个拉斯派尔斯类型的指数，但它的衍生在许多方面进行了修改。其他众所周知的指数是那些说明股票价格的指数，如富时 100 指数和道琼斯指数，以及各种住房价格指数。

警惕汇集的数据，它们显然会显示出完全不同的结果。合并可能是为了掩盖一组令人尴尬的数据。考虑下面的例子。

一家公司有两个新销售员，史密斯和布朗。在第一周，史密斯通过 40 个联系人做了 5 笔生意，平均每 8 个联系人就有一笔生意。布朗从 10 个联系人中做成了一笔交易。所以史密斯有最好的平均值。这种情况如图 7-11 所示。在第二周，Smith 从 10 个联系人中完成了 3 笔销售，平均每 3.33 个联系人中就有一笔销售。布朗通过 40 个联系人做了 10 笔交易，平均每 4 个联系人就有一笔交易。所以史密斯又有了更好的平均值。

图 7-11。

Simpson’s paradox

但是如果我们把两个星期的结果汇总起来会怎么样呢？Smith 有来自 50 个联系人的总共 8 笔销售，而 Brown 有来自 50 个联系人的总共 11 笔销售。所以布朗有更好的平均值。谁是更好的推销员？有些人可能会认为史密斯更好，因为他在两周内对公司的业绩做出了更大的贡献。其他人可能会说布朗更好，因为当更多的数据可用时，他的更好的表现就会显现出来。最现实的结论是，没有足够的证据来区分它们。他们自己在两周内的表现之间的差异大于他们自己和他们同事的表现之间的差异。此外，可能有一个或多个变量影响这两个星期的条件，其中没有考虑。

这种情况被称为辛普森悖论，通常会令人惊讶。除了它的好奇价值，它确实很好地说明了一个事实，即统计结果不应该盲目接受，而应该总是与其他证据和实际考虑因素一起判断。

FOOD FOR THOUGHT

顾问的报告放在桌子上。莫罗尼饼干公司的食品加工主管利兹·费希尔拿起它开始阅读。该公司决定推出一种新的低糖饼干，利兹的团队制作了两种配方，这两种配方都被认为是适销对路的。

在决定哪种饼干将投入生产之前，格雷厄姆咨询公司已经被雇佣在公众面前测试这两种新型饼干。

报道描述了两家已经在卖莫罗尼饼干的商店，如何在一个繁忙的下午各设两个摊位。一个摊位，处理配方 A，给每个愿意的顾客提供一个样本饼干，然后邀请顾客以优惠价格购买一包。第二个摊位用配方 b 的饼干做了同样的事情。顾客不知道这两个摊位提供不同的饼干。记录品尝饼干的顾客数量和购买一包饼干的顾客数量。

报告得出结论，配方 A 在两家商店都比配方 B 更受欢迎，尽管差别并不大。

利兹认为这些数字看起来很奇怪。她对调查结果不满意:

商店 1

配方 A 22 从 24 个样本中购买 92%

配方 B 89 从 106 个样本中采购 84%

商店 2

配方 A 50 从 71 个样本中购买 70%

配方 B 18 从 26 个样本中采购 64%

她怀疑情况不尽如人意，决定将两家商店的结果汇总起来，得到以下结果。

配方 A 72 从 95 个样本中购买 76%

配方 B 107 从 132 个样本中采购 81%

现在情况正好相反:配方 B 比配方 A 更受欢迎！利兹认为这是辛普森悖论的一个例子。一个或多个附加变量影响了结果。这两家商店的实验安排没有可比性。

她知道这份报告必须被拒绝，格雷厄姆公司必须调查问题的根源。这个实验必须用改进的控制方法重复进行。

她拿起电话…

估计人口属性

概括地说，总体是一个完整的，也许是假设的，也许是无限的，随机抽取样本的数据集。有必要认识到，从样本中获得的信息如果不做一些修改，可能不能代表总体特征，尽管这些修改通常是很小的。前面已经提到过，样本有时由全部人口组成，这就简化了问题。

总体平均值μ的最佳估计值是样本平均值 c _m 。当谈到预期的平均数而不是计算的平均数时，统计学家用期望这个词而不是平均数。因此，我们称之为“样本的平均值”和“样本所来自人群的期望值”。

总体标准差σ的最佳估计是样本标准差 s，稍加修改。这种修改是必要的，因为样本标准差稍微低估了总体标准差，特别是当样本很小时。样本标准差必须乘以 n 与 n-1 之比的平方根，以给出总体标准差σ的估计值，其中 n 是样本中值的数量。因此，

估计的人口方差是

ψ²= s²n/(n-1)。

如果样本很小，样本标准偏差的变化可能很明显，但对于大样本，比率 n/(n-1)接近于 1，只有很小的影响。

如果将两个样本合并起来提供一个更大的单个样本，则总体的估计平均值可以通过获得加权平均值的常用方法获得。因此，

μ，=(n1c_m1+n₂c_m2/(n₁+n_2】

其中后缀 1 和 2 指的是两个样本。估计的混合方差为

ψ_{2= {(n₁-1)s₁²+【n】2}-【1】s₂

估计的混合标准差是这个的平方根。

人口比例的最佳估计是样本比例，混合的处理方式与估计人口平均数完全相同。

置信区间

上一节说样本均值提供了总体均值(期望值)的最佳估计。因此，如果我们调查在当地电影院观看特定电影的人，发现在 40 人的样本中，平均年龄是 32 岁，那么这提供了在相同情况下观看或可能观看的人的平均年龄的最佳估计。显然，这很容易出错，一个有用的方法是附加置信限。这些是从总体方差中计算出来的，但是在你看到它们是如何呈现的以及它们的含义是多么有用之前。结果可能被引用为，例如，

平均年龄= 32 5 (95%的置信度)，

这意味着在 95%的此类调查中，真实的人口平均数将在 27 岁至 37 岁之间。

请注意，这并不意味着真实总体均值有 95%的概率位于区间 27 至 37。真实值要么在给定的区间内，要么不在。这个问题很微妙，可以用下面的例子来说明。假设真实的人口平均数是 26。我们获得的样本估计平均值在 27 到 37 之间，这是不正确的。然而，我们很不幸，因为其他 19 个类似的样本，平均起来，有 26 个在不确定范围内。可见这和说 26 的真值有 95%的几率在 27 到 37 之间是不一样的。它不可能如此。然而，建立一个不限制真实值的范围显然是相当罕见的，并且很容易看出置信界限的含义是如何经常被错误地陈述的。

现在让我们看看置信限是如何得到的。从本章第二节对正态分布的描述中，我们知道从总体中抽取的单个值大约有三分之二的机会在平均值的一个标准偏差内。单一值是平均值的最佳估计值，但它显然是一个非常差的值。只有一个值——例如电影院中的一个人——我们无法计算标准差，所以我们甚至不知道我们的估计有多差。

实际上，我们取一个样本并计算平均值。这是目前我们对人口平均值的最佳估计。在我们的电影例子中，我们有一个 32 岁的样本均值，我们假设它是从 40 岁的样本量中获得的。我们可以计算样本的标准偏差，得到 16 年的值。这使我们能够计算总体标准偏差的最佳估计值，在进行上一节所述的微小修正后，该值为 16.2。

总体均值的估计比单个数据值的估计更可靠，但可靠多少呢？事实证明，当获得样本的均值时，它们本身是正态分布的，但其标准差比总体的标准差小。实际上，同等大小样本的标准差等于总体的标准差除以每个样本中数据个数的平方根。所以样本越大，样本均值越有可能接近总体均值。这是人们所期望的。样本平均值的标准偏差变为

参考标准正态分布表显示，一个值有 95%的概率位于平均值任一侧的 1.96 个标准偏差内。在我们的例子中，

1.96 x 2.56 = 5.02。

因此，我们的结论是，参加或潜在参加电影院的估计平均年龄为 32.5 岁(95%的置信度)。

值得补充的是，样本的平均值被发现是正态分布的，或者接近正态分布，即使原始数据与正态分布相差很大。

值得注意的是，值 1.96 总是与 95%的置信限相关，因此没有必要每次都查阅标准正态分布表。类似地，对于其他置信限，可以始终使用的适当值总结如下:

在哪里

c _m =样本平均值

σ =总体的估计标准偏差

n =样本量

到目前为止，在本节中，我们假设我们的样本是大的。如果我们的样本很小，少于 30，我们不使用正态分布。相反，我们必须参考名为 Student's-t 的分布表。该分布随着数据数量的变化而变化，因此我们无法像上面那样确定给定置信度下的标准偏差数量。随着样本中数据数量的增加，t 分布越来越接近正态分布，因此只有小样本才需要 t 分布。(学生是威廉·戈塞特的笔名，他设计了小样本测试；这种测试之所以没有这样命名，是因为它被统计学专业的学生所使用。)

下面是一些不同样本大小的 t 分布的列表值。显示的值取代了上述置信限陈述中的数值因子，这些数值因子是从正态分布中获得的。为了便于比较，后面的因素在表格的最后一行重复出现。可以理解 t 分布值接近正态分布值的趋势。

| 样本量(n) | 95%的信心 | 98%的信心 | 99%的信心 | 99.9%的信心 | | --- | --- | --- | --- | --- | | five | Two point five seven | Three point three seven | Four point zero three | Six point eight seven | | Ten | Two point two three | Two point seven six | Three point one seven | Four point five nine | | Twenty | Two point zero nine | Two point five three | Two point eight five | Three point eight five | | Thirty | Two point zero four | Two point four six | Two point seven five | Three point six five | | Sixty | Two | Two point three nine | Two point six two | Three point four six | | 正态分布 | One point nine six | Two point three three | Two point five eight | Three point two nine |

还可以看出，样本越小，置信界限越宽。这种加宽是对由于总体标准差估计中 n 值较小而引起的加宽的补充。

八、重要程度

What Odds Are You Giving?

当我们获得两个或两个以上的样本时，我们可能期望它们来自同一个总体。因此，我们可能会对同一家工厂两条生产线上生产的产品进行抽样检查，或者我们可能会对来自两家不同供应商的相同产品进行比较。如果我们发现样本来自同一个群体，我们可以将它们汇集起来，以创建一个更大的样本，并更简洁地总结数据。如果我们发现样本来自不同的人群，我们就能得出重要的结论。例如，我们可能会更换供应商。

在进行比较时，统计学家一开始就提出有差异或没有差异。这些建议被称为假设。假设检验描述了相关的过程。一个假设的正确性是无法确定的。总会有一定程度的不确定性，这种不确定性以重要性的程度来表示。

零假设 H ₀ 是其正确性正在被检验的假设。H ₁ 是备选假设，如果不能接受原假设，则接受该假设。

因此，我们可能会有一个无效假设，即市中心区的平均收入与该县其他地区的平均收入没有什么不同。另一个假设是，市中心区的平均收入与该县其他地区不同。对零假设的接受将通过陈述中城区的平均收入与该县其他地区的平均收入没有显著差异来表达。这个结论有一定的重要性。比方说，5%的水平意味着结论有 20 分之一的可能性是错误的。

在前一章最后一节中描述的显著性水平和置信限之间有相似之处。在那里，我们使用接近 100%的百分比来表示我们结论的可信度。这里，我们的显著性水平接近于零，表示我们对差异的发现很可能是错误的。稍后您将看到，相似性延伸到计算置信限和显著性水平的方式。

零假设通常以这样一种方式表述，即如果它被接受，那么情况没有变化，使用“零”一词意味着这种方法。如果中城区例子中的零假设被接受，我们将不会发现中城区有什么特别之处，情况实际上也不会改变。

这似乎是一个相当迂腐的惯例。毕竟，为什么不采用一个零假设来说明市中心区的平均收入与该县其他地区不同呢？计算程序将保持不变，获得的结果也将相同。然而，正如在第十二章中所看到的，当我们考虑在我们的不确定度范围内可能出现的误差时，该惯例确实会提高清晰度。

检验可以分为单尾检验和双尾检验。刚才描述的测试是一个双尾测试，因为我们要问的是中城区的收入是否与其他地区不同，是低于还是高于该县其他地区的收入。如果我们测试中城区的收入是否低于其他地区，或者测试中城区的收入是否高于其他地区，我们将在每种情况下进行单尾测试。所谓的尾部是指远离平均值的分布的尾部，即偏离平均值的标准偏差值较大，因此不太可能被观察到。

大于 5%的水平通常不被认为是显著的，因为它只是一个奇怪结果的可能性太大了。对于许多目的来说，甚至 5%也被认为不够好，可能需要 1%的水平。结果出错的概率是 1/100，这个结果可以说是非常重要的。当然，对于医疗活动或健康和安全应用中的生死攸关的情况，即使这一水平也可能不够，可能需要 0.1%或更高的显著性水平。

当引用结果及其显著性水平时，也可以引用样本中的数据数量。可能还会提到自由度，这在第七章中有解释。

在接下来的四章中，我将描述检验假设的各种方法。重点是让你理解统计学家在说什么，以及她使用的语言。我不会涉及任何复杂的数学，但会概述和说明所涉及的步骤。在任何情况下，数学处理通常是由计算器或计算机程序而不是手工完成的。当参考小样本或大样本时，分界线在 30 个数据左右。

九、比较的一般程序

Eight Easy Steps from Null to Significance

在你决定了要比较什么和什么之后，你应该清楚地定义零假设。很容易混淆零假设和替代假设。

下一步是选择可接受的统计显著性水平。在一开始就确定并声明这个显著性水平是很重要的，这样你的选择就不会受到你所获得的结果的影响。

接下来选择您将使用的统计测试。以下三章将描述与可用数据和所寻求的结论相关的各种测试的适当性。每一个统计检验都使用公布的表格，从中可以获得显著性水平。这些表格是由通常很复杂的计算产生的。实际上，计算机程序的使用已经消除了许多查阅表格的需要；从原始数据到显著性水平的陈述的完整计算序列是隐藏的。然而，明智的做法是理解程序中遵循的步骤。

可用的测试数量非常多，新的测试正在开发中。不可能把它们都包括在内。许多成熟的测试都是常用的，我将对它们进行描述。

统计检验的功效各不相同，检验的功效是对获得非虚假结果的可能性的度量。显然，应该选择测试以使功率最大化。不假设数据符合的分布的检验不如假设特定分布的检验有效。

每一组数据都是独一无二的；显然不可能为每种情况提供一个数值表。因此，数据被处理以产生一个被称为检验统计量的标准值。实际上，数据被缩放以允许与标准分布直接比较。在第七章的标准正态分布一节中介绍了缩放数据以便与标准分布进行比较的想法。

测试统计与自由度的数量或统计计算中涉及的数据数量一起被引用到适当的表中。在某些情况下，您需要在参考表格时区分单尾检验和双尾检验。

总之，比较数据样本及其统计特性的程序如下:

Decide on the comparison to be made. State the null hypothesis. Decide on the required level of significance. Choose the statistical test. Calculate the test statistic and the degrees of freedom. Note, if necessary, whether to use one-tailed or two-tailed values. Refer to the tables. Read off the level of significance.

到目前为止，我们在处理数值数据之前处理了描述性数据，从简单到复杂。然而，现在我们将首先考虑数值数据。这是因为数字数据的比较过程通常更为人所知。此外，一些描述性的数据可以用数字的形式重铸，并以我已经描述过的方式处理。

十、数值数据的比较

Are Today’s Chocolate Bars Smaller Than Yesterday’s?

一旦以可量化的方式描述了一个数字样本或总体，如第七章所示，就可以将其与其他样本或总体进行比较，以寻找差异或相似之处。本章解释了从单个值、成对值、成对样本和样本集可以学到什么。在每种情况下，都建立了零假设，即没有明显的差异；并且，通过计算适当的检验统计量，确定是否应该接受零假设。

单一值

无效假设是单一值可能来自给定的总体。例如，调查一块重 121 克的巧克力是否来自生产平均重量为 120 克、标准偏差为 0.5 克的巧克力的生产线。这种情况被认为是巧克力重量呈正态分布。

我们已经看到，正态分布曲线下的面积代表该面积范围内的值出现的概率。如果我们对 5%的显著性水平感兴趣，比方说，我们会问，在平均值为 120.0 克、标准偏差为 0.5 克的正态分布的 5%尾部中，是否会发现像 121 克这样大的值

通过计算所谓的 Z 值，将 121 克和 120 克之间的差异调整为符合标准正态分布，其中

Z =(单值-总体均值)/(标准差)

= (121–120)/ 0.5

= 2.0 .

这给出了被调查值与总体平均值的差异量，以标准差为单位。参考图 7-9，一个值与平均值的标准差至少为 2.0 的概率为 2%。(读出 A = 2.0，B =无穷大，得出 2%。)正态分布的完整表格给出的结果更准确，为 0.0228 (2.28%)。该值低于 5%的显著性水平，因此我们得出结论，零假设是不正确的，巧克力棒不太可能来自生产线。换句话说，如果我们说巧克力棒不是来自生产线，那么只有 2.28%的可能性是错误的。

这个例子是一个单尾检验，因为我们引用的是观察到高达 121g 值的概率。在一个双尾检验中，我们将询问一个值距离平均值 1g 的概率，无论是高于还是低于。因此，我们将在上尾部以 2.5%的概率工作，在下尾部以 2.5%的概率工作，以固定对应于不可能从总体中选择的值的 5%概率的限制。

对于常用的显著性水平以及单尾和双尾检验，出现概率与偏离平均值之间的关系如下所示:

使用这些显著性水平的优选值避免了查阅正态分布的完整值表的需要。值得注意的是，双尾检验的值与我们在第七章设置置信限时使用的值相同。这并不令人惊讶，因为，例如，一个值在对称中心带内的 95%的概率相当于它在该带之上的 2.5%的概率和它在该带之下的 2.5%的概率。

样本的平均值

零假设是样本平均值可能来自给定的总体。继续以我们的巧克力棒为例，一条生产线已经维修，维修后，发现 100 块巧克力棒的样本平均值为 119.9 克，而之前确定的总体平均值为 120.0 克。为了确定生产线现在是否运行令人满意，我们设置了零假设，即从中抽取样本的总体平均值为 120.0 克。我们假设样本的预期标准偏差为 0.5 克，与之前一样。

该过程类似于前一示例，获得 Z 分数并参考正态分布表。但是，因为我们的样本平均值比前面部分中的单个值更具代表性，所以我们减少样本的标准偏差以获得平均值的标准偏差。这是通过将样本的方差除以样本中数据值的数量，然后求平方根来实现的。这给了我们均值的标准差，通常称为均值的标准差。换句话说，我们将样本的标准偏差除以数据值数量的平方根，得到平均值的标准偏差。因此，平均值的标准偏差为 0.5g 除以 100 的平方根，即 0.5/10 = 0.05g。这具有降低结果不确定性的作用。在第七章的中，标准差的减少以类似的方式用于计算置信限。

Z 值是

(119.9 – 120.0)/0.05 = – 2.0.

该值超过了 5%显著性的要求值，几乎达到了 2%的水平，这可以从上一节显示的值中看出。我们的结论是应该拒绝零假设，因为有证据表明生产线没有按照要求运行。(Z 得分的负值仅表明被测值低于总体平均值；你会记得标准正态分布的均值位于零。)

最好使用大样本，因为这会降低 Z 值。然而，因为减少的是样本大小的平方根，收益递减的情况就出现了。在样本大小为 16 的情况下，与单个值的 Z 得分相比，Z 得分减少了 4 倍。如果我们想把它减少到八分之一，我们需要一个大小为 64 的样本。因此，当我们试图减少结果的不确定性时，获取样本的努力和成本迅速上升。

如果样本量很小，则采用稍微不同的程序。Z 得分稍作修改，但不是参照正态分布表，而是参照 t 分布表(第七章)。t 分布接近正态分布，对大样本给出相同的结果。

方差之间的差异

零假设是具有不同方差的两个样本可能来自同一总体。这相当于检查这两个样本是否有显著差异，因为如果它们不可能来自同一人群，那么它们一定来自不同的人群。

两个方差之比 F 的计算方法是将较大的方差 s₁²_{除以较小的方差 s ₂ ² ，得到一个大于 1 的值，}

f = s₁2/s₂2。

若 n ₁ 和 n ₂ 为两个样本中的数据个数，则自由度为 n₁–1 和 n₂–1。F 值和自由度参见 Snedecor 的 F 值表。这些表格相当广泛，因为需要满足每个显著性水平和两个样本中每个样本的数据数量。表格摘录见“多样本”部分和第十六章中的，其中说明了 f 检验的进一步用途。

如果两个方差没有显著差异，可以将它们合并起来，用加权平均值作为总体方差的更可靠的估计。因此，如第七章中的所示，汇总的估计总体方差由下式给出

ψ_{2= {(n₁–1)s₁²+【n】2}–1)s₂

均值之间的差异

无效假设是具有不同平均值的两个样本可能来自同一总体。请注意，应该首先执行前面的测试，即方差比测试。如果 f 检验显示两个样本显著不同，询问均值是否显示样本不同可能是没有意义的。当然，f 检验有一定程度的不可靠性，所以如何进行就成了一个判断的问题。

假设我们继续检查两个平均值，计算 Z 得分，用标准差的数量表示平均值之间的差异。这类似于我们在“样本均值”一节中所做的，当时我们将单个样本的均值与总体均值进行了比较。然而，我们现在有两个样本，每个样本都是对假定的潜在人群的估计。和以前一样，我们将使用两个平均值之间的差异，但所需的标准差现在指的是一个新的分布，即两个样本之间差异的分布。这里使用的标准差是差值的标准差。每个平均值都有其相关的方差，表示其不确定性。所以两个方差之和表示了均值之间的差异的不确定性。

在这个阶段，一个例子将清楚地说明如何进行。假设我们有两个销售人员在一段时间内销售特定产品的详细信息，我们希望进行比较:

| 员工 | 天数 | 平均每天销售额 | 标准偏差 | | --- | --- | --- | --- | | | n | x _m | s | | one | Thirty | Sixteen | six | | Two | Thirty-five | Twelve | five |

均值之差的方差为σ²/n₁+σ²/n₂其中σ ² 为总体方差，由于不知道其值，所以必须进行估计。使用样本标准差，总体方差的估计值为

ψ_{2= {(n₁–1)s₁²+【n】2}–1)s₂

这就是你在第七章中遇到的等式，以及上一节中提到的合并两个样本以估计总体方差的等式。使用上表中的值得到 30.06，因此均值差异的方差为 30.06/30 + 30.06/35，即 1.86。均值的差的分布的标准差是这个的平方根，是 1.36。

因此，Z 值(两个平均值之间的标准差之差)为(16–12)/1.36，即 2.94。从本章“单一值”部分显示的正态分布的值可以看出，这在 1%的水平上是显著的，因此我们可以得出结论，零假设被拒绝，两名员工的表现不同。

请注意，这里使用了方差的可加性:我们不能简单地将两个标准差的值相加来获得均值之间差异的标准差。

配对数据的平均值

配对数据经常出现在前后情况中。因此，我们可以在一周的复习前后得到一组学生的测试结果。例如:

| 学生 | A | B | C | D | E | 平均 | 变化 | | --- | --- | --- | --- | --- | --- | --- | --- | | 以前 | Twenty | Sixty | Forty | Fifty | Thirty | Forty | | | 在...之后 | Thirty | Fifty-five | Fifty | Sixty-five | Fifty | Fifty | | | 提高 | Ten | –5 | Ten | Fifteen | Twenty | Ten | Eighty-seven point five |

如果没有修改会议的影响，我们预计这些增加是很小的，平均接近于零。因此，我们可以问，这种增长的分布是否与从平均值为零的总体中可能得到的值有显著的不同。因此，我们的零假设是，增长样本可能是从平均值为零的总体中抽取的。

现在可以按照与上一节相似的程序进行计算，在上一节中，我们比较了两个样本平均值。均值差的方差减少到增量均值的方差，总体方差的估计减少到增量的方差。

上表中的值给出了以下内容:

估计人口方差= 87.5

均值差的方差= (87.5)/5 = 17.5

均值差的标准差= = 4.18

z 得分=(10–0)/4.18 = 2.39

样本小；因此，与其引用 Z 分数，不如将结果称为学生的 t 值，然后使用 t 值表来确定显著性水平。配对数据中的样本通常较小，因为当所需样本量变大时，精确配对变得更加困难。在本例中，t 值 2.39 略低于样本量为 5 时表示 5%显著性水平所需的值。(参见第七章中 t 值的选择。因此可以得出结论，零假设被接受，没有足够的证据表明复习课有任何益处。

多个样本

如果需要比较两个以上的样本，使用上述方法成对比较它们是完全可能的。然而，由于以下原因，这将是不令人满意的程序。如果有三个样本 A、B 和 C，那么将有三对样本进行比较:AB、AC 和 BC。如果我们在 5%的水平上进行测试，我们有 1/20 的机会在这些比较中出错。我们有大约 20 分之 3 的机会至少有一个结果是错误的。随着样本数量的增加，情况会迅速恶化。四个样本产生六对，五个样本产生十对，导致错误的概率高得不可接受。

在这种情况下使用一种叫做方差分析(ANOVA)的技术，正是在这里，方差在统计程序中的重要作用变得显而易见。尽管方差通常有奇怪的单位，但它具有可加性的有用性质。我们以前遇到过这种情况，为了计算平均标准偏差，我们首先从每个标准偏差中获得方差，然后对方差进行平均，并通过求平均方差的平方根来获得平均标准偏差。类似地，在“均值之间的差异”一节中，您可以看到，为了获得两个值之间差异的方差，我们将两个个体方差相加。

如果我们有许多样本，每个样本中的数据会有变化。此外，样本会彼此不同。为了量化样本之间的差异，有必要分离样本内的变化和样本之间的变化。方差分析允许这样做。

根据所有样本的方差，我们可以得到一个混合方差。这给出了样本内变化的度量。实际上，我们暂时假设样本实际上来自同一个总体，因此每个样本方差都是总体方差的估计。然后，通过汇集几个估计值，获得总体方差的最佳估计值。这是样本内方差的度量。

然后，我们可以用样本平均值替换每个数据，并计算总数据的方差，从而暂时消除每个样本中的差异。这给出了样本之间变化的度量。实际上，我们在问，如果每个样本由一组具有原始均值但方差为零的相同值组成，那么总体方差的最佳估计值是多少。

如果所有的样本都来自同一人群，那么样本内的变异应该与样本间的变异相似。因此，样本内方差与样本间方差的比值表明样本具有共同来源的程度。举个例子就能说明这一点。

五名足球运动员在多场比赛中进球如下。每个玩家参加的比赛次数不一定相同。无效假设是这五个样本可能来自同一人群。换句话说，没有证据表明五个玩家的表现有显著差异:

| 运动员 | A | B | C | D | E | | --- | --- | --- | --- | --- | --- | | 目标 | three | three | Zero | one | four | | | Zero | Two | three | three | Two | | | three | three | Zero | one | Two | | | | four | Two | four | four | | | | | Zero | one | three | | 平均 | Two | three | one | Two | three | | 变化 | three | Zero point six seven | Two | Two | one | | 总体平均值= 2.18 | 混合方差= 1.65 |

按照第七章中的说明的合并程序，合并方差为 1.65。这是样本内方差。与此方差相关的自由度是通过将每个样本的自由度相加获得的:即比数据数少 1。所以，(2+3+4+4+4) = 17 是自由度的个数。

为了获得样本间方差，每个数据都被其样本均值所替代:

| 目标 | Two | three | one | Two | three | | --- | --- | --- | --- | --- | --- | | | Two | three | one | Two | three | | | Two | three | one | Two | three | | | | three | one | Two | three | | | | | one | Two | three | | 平均 | Two | three | one | Two | three | | 变化 | Zero | Zero | Zero | Zero | Zero | | 总体平均值= 2.18 | 方差= 3.32 |

这些值在总体平均值 3.32 附近的方差是样本间方差。与该方差相关的自由度比样本数少一个，即, 4.请注意，样本内方差和样本间方差的自由度之和为 21，即 17 + 4，等于总共 22 个数据值的总自由度，即 22–1 = 21。

两个方差的比率(3.32/1.65 = 2.01)以及它们的自由度参见“方差之间的差异”一节中描述的 F 值表表格摘录如下:

| 显著性水平 | | 较大方差的自由度 | | --- | --- | --- | | 5% | | three | four | five | | --- | --- | --- | --- | --- | | 较小方差的自由度 | Fifteen | Three point two nine | Three point zero six | Two point nine | | | Sixteen | Three point two four | Three point zero one | Two point eight five | | | Seventeen | Three point two | Two point nine six | Two point eight one | | | Eighteen | Three point one six | Two point nine three | Two point seven seven |

在这个例子中，方差比 2.01 不足以表明玩家的表现之间的显著差异。接受零假设。

以这种方式使用的方差分析被称为单向方差分析，其中检查样本组之间的变化，每个样本是相似类型的，并且可能来自相同的总体。在第十六章中，你会看到方差分析可以应用于在某些方面不同的样本集。

MANAGING THE MANAGER

Premier Pressings 是一家为制造汽车、洗衣机、燃气锅炉和类似产品的工程公司制造钢压制件的公司。该公司在五个不同的城市设有分支机构，每个分支机构都服务于当地的需求。

首席执行官 George Robinson 担心，与其他四个部门相比，他的一个部门 Shempton 在过去六个月中利润较低。他与 Shempton 部门的经理 Tom Greeves 讨论了他的顾虑，以确定问题所在。会议并不令人满意:汤姆无法对他糟糕的结果给出任何合理的解释，并声称这是一种统计上的怪癖，毫无疑问，在随后的几个月里，这种影响将会抵消。

乔治不服气，决定进一步调查。他请设计室的一位懂一些统计学的高级绘图员来看看这些数字。

制图员阿诺德·梅森立即看出，六个月期间的平均利润比其他四个单位的利润低得多，尽管每个月的差异都很大。他决定首先检查其他四个单位的结果是否一致。他列出了 4 个单位的 6 个利润值，共 24 个数据，并进行了单向方差分析。这给他一个样本内方差的值和一个样本间方差的值。他计算了方差比 F。参考 F 值表显示结果不显著，因此可以认为四个单位产生的结果具有相似的差异量。因此，他计算了 24 个利润值的平均值和方差。

下一步是观察 Shempton 的结果是否与 24 个值的总和有显著差异。计算 Shempton 结果的平均值和方差。两个方差的比较给出了不显著的 F 值。然而，两个平均值的比较显示了 5%水平的显著差异。这表明，如果坚持认为舍普顿的结果不如其他的结果，那就有 1/20 的概率是错误的。

有了这些结果，CEO 召集 Tom 开了一个会，并指出有充分的证据表明 Shempton 的结果并不令人满意。人们认为证据并不充分；而且，考虑到一定程度的不确定性，汤姆被告知将再给他六个月的时间来提高利润。这个练习将在六个月后重复进行，然后再考虑汤姆的未来。

十一、描述性数据的比较

Is Your Staff Female/Male Ratio OK?

第六章解释了描述性数据可以通过将不同类别中的项目数量表示为比例来进行数值化——从而能够对数据进行进一步的分析。在这一章中，将对一个单一的比例与一个总体进行比较，并对两个样本比例进行比较。如果数据是有序的——也就是说，它可以按逻辑顺序列出——那么将要介绍的等级测试就可以用来比较等级对。

拥有大样本的描述性数据有一个特别的优势，因为使用的几个程序允许数据作为正态分布数据处理。

单一比例

由是/否数据组成的样本将提供处理比例的示例。假设我们从之前的调查中得知，纽镇出生的居民比例为 0.7。我们可以利用这一信息来决定在城镇的一个地区获得的一个大小为 100 的样本是否代表该城镇，或者该样本是否显示出显著的差异。

零假设是样本比例，比如说 0.8，与城镇的总体比例 0.7 没有显著差异。我们的 100 人样本中有 80 人出生在纽敦，而根据整个城镇的已知结果，我们预计会有 70 人。该程序遵循与第十章第节相似的模式，在该模式中，我们询问是否可能从已知平均值的总体中抽取单个值。通过将单个观察值和总体平均值之间的差异除以方差的平方根来计算 Z 得分。这给了我们一个以标准差为单位的差异度量。

比例是一个二元尺度:我们样本中的每个人要么出生在纽敦，要么没有出生。所以正确的分布是二项式分布，我们一会儿会讲到。但是，如果样本很大，并且人口比例不是过大或过小，则可以假设正态分布是相关的。二项分布数据的方差为 NP(1–p)，其中 p 为总体比例，n 为样本中数据的个数。因此，Z 值为

该值表明我们的样本在 5%的水平上与总体有显著差异。(参见第十章第节正态分布的数值选择。)

当样本量较小时，二项分布不同于正态分布，但不幸的是，二项分布的表格不便于使用。概率值随着样本中的数据数量和人口比例而变化，因此必须为每个样本大小和每个人口比例值建立一个单独的表。此外，列出的值是累积概率。图 11-1 给出了二项式分布的一个更容易理解的视图，它提供了许多样本大小和人群中感兴趣的财产的不同比例的标绘值的选择。当人口比例较小时，分布是偏态的，但当比例为 0.5 时，就变得对称了。如前所述，随着样本量的增加，分布接近正态分布。

假设我们有一家只有 10 名员工的公司，其中只有两名女性。这是否提供了公司歧视女性员工的证据？假设不存在歧视，女性的预期数量为 5，因此零假设是，包含 2 名或更少女性的 10 名员工样本可能来自女性比例为 0.5 的人群。

将我们示例中的值输入二项式分布表中，出现的概率为 0.0547，即略高于 5%。我们不得不得出结论，在 5%的歧视水平上没有证据。如果只有一名女性员工，概率会更低——0.0107，略高于 1%——我们会认为有歧视的证据。如果没有女性员工，这种可能性会更低，但我们必须小心。这份工作不适合女性员工或对女性员工没有吸引力，很可能是有潜在原因的。

在图 11-1(b) 中，你可以概略地看到这些结果。底部分布适用于样本大小为 10，人口比例为 0.5 的情况。1%显著性的要求显示为零出现，5%显著性的要求显示为小于 2，即 0 或 1。

图 11-1。

The binomial distribution showing the probability of a number of specified events in a sample when the proportion in the population is p, for a range of p values and for a sample size of (a) 5, (b) 10, (c) 20, and (d) 30

比例之间的差异

可能我们有两个样本，我们希望检查它们之间的差异。无效假设是这两个样本可能来自同一人群。如果样本很大，我们可以再次使用正态分布，并按照第十章的的“平均值之间的差异”一节中描述的数值数据来处理数据。对于相同大小的样本，将两个样本的方差相加，Z 得分是每个样本中出现次数之差除以组合方差的平方根。如果样本大小不相等，则差值必须是两个比例之间的差值，并且必须对组合方差的表达式进行适当的调整。因此，Z 分数呈现更复杂的外观，

其中 p ₁ 和 p ₂ 为样本中的两个比例，n ₁ 和 n ₂ 为两个样本量，p 为总体比例。如果人口比例未知，则使用两个样本比例的加权平均值。

级别

序数数据是可以按照逻辑顺序放置的描述性数据，可以通过排序测试进行比较。这些是非参数的——意味着没有假设特定的分布。

假设我们有两个想要比较的类别，我们的样本数据由两个类别的代表的总体排名组成。例如，我们可以有一个由投票者小组按偏好排序的歌手列表，我们希望看到对男歌手或女歌手是否有明显的偏好。该列表可能如下所示:

M F M M M F M F F F F F M。

曼-惠特尼 U 检验是一种合适的检验。稍有不同的一个等价检验是 Wilcoxon 秩和检验。

举一个我们可以更详细了解的例子，考虑两个赛跑队:A 队的五名选手和 B 队的五名选手。我们的数据由跑步者完成的顺序组成，我们的零假设是两个团队之间没有显著差异。按完成顺序排列的赛跑运动员是

A A B B A B B A A B B B A。

每个数据项被赋予其等级值，并且每个组的值被合计，如下所示

A 队排名 1、2、5、8、9、13 号，n _A = 6 共，R _A = 38

B 队排名 3、4、6、7、10、11、12 号，n _B = 7 共，R _B = 53

计算两个 U 值，

u_A= n_An_B+n_A(n_A+1)/2–R_A和

u_B= n_An_B+n_B(n_B+1)/2–R_B

统计量 U 是 U _A 和 U _B 中较小的一个，参考曼-惠特尼 U 检验的临界值表。使用上面的值得到 U _A = 25，U _B = 17，所以 U = 17。该值需要等于或小于表中的临界值，以表明 A 和 B 两组在指定显著性水平上的差异。下面是从表中选择的值:

| | 一条尾巴 | 两条尾巴 | | --- | --- | --- | | n _A | n _B | 5% | 1% | 5% | 1% | | five | five | four | one | Two | Zero | | five | Ten | Eleven | six | eight | four | | six | six | seven | three | five | Two | | six | seven | eight | four | six | three | | six | eight | Ten | six | eight | four | | six | Ten | Fourteen | eight | Eleven | six | | seven | seven | Eleven | six | eight | four | | seven | Ten | Seventeen | Eleven | Fourteen | nine |

双尾检验是合适的，因为我们测试的是无差异，而不是有利于 A 或 b 的差异。可以看出，我们的 U 值太大，无法表明两组跑步者之间有任何显著差异。

对于较大的 n 值，可以使用正态分布。合适的均值是 n _A n _B /2，方差是 n_An_B(n_A+n_B+1)/12。因此，可以根据 U 值计算 Z 得分，并参考第十章第节中所示的正态分布表。

如果使用 Wilcoxon 秩和检验，较小组 RA(在本例中为 38)的秩和是参考 Wilcoxon 秩和检验临界值表以获得显著性水平的统计量。如果各组大小相等，则使用较小的总数。如果样本很大，可以再次使用正态分布。合适的均值是 n_An_B/2+n_B(n_B+1)/2 方差是 n_An_B(n_A+n_B+1)/12。

Kruskal-Wallis 检验是 Mann-Whitney 检验的扩展，适用于三个或更多样本。检验统计量有一个复杂的公式，基本上描述了等级的方差。参见第七章的中描述的卡方分布表，以获得显著性水平。然而，如果组太小(少于约 5 个)，统计偏离卡方分布。

成对数据的秩

如果要比较的两个样本由成对值组成，可以使用 Wilcoxon 配对秩和检验。假设我们希望连续两年比较一个学生在一系列科目中的成绩。我们正在调查与第一年相比，第二年是否有总体改善。课堂上的位置如下:

| 科目 | 英语 | 数学 | 法语 | 德国人 | 艺术 | 物理学 | 生物 | 历史 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 第一年 | three | four | six | one | one | eight | six | Two | | 第二年 | one | one | Two | Two | three | three | three | one | | 改进第 1 年–第 2 年 | Two | three | four | –1 | –2 | five | three | one | | 排名(不考虑+或-) | Three point five | Five point five | seven | One point five | Three point five | eight | Five point five | One point five | | +排名之和= 3.5+5.5+7+8+5.5+1.5 = 31 | | | | | | | 等级之和= 1.5+3.5 = 5 | | | | | | | | | (任何零差都被忽略。) | | | | | | |

负秩的和，在本例中为 5，是统计量 W，它必须等于或小于 Wilcoxon 配对检验表中的值。线对的数量 n 输入为 8。下面是表格中的一小段摘录:

| 对数 n | 一条尾巴 | 两条尾巴 | | --- | --- | --- | | | 5% | 1% | 5% | 1% | | --- | --- | --- | --- | --- | | five | Zero | - | - | - | | six | Two | - | Zero | - | | seven | three | Zero | Two | - | | eight | five | one | three | Zero | | nine | eight | three | five | one | | Ten | Ten | five | eight | three |

单尾检验是相关的，因为我们测试的是显著改善而不是显著差异，值 5 表示在 5%的水平上有显著改善。

重复等级

如果我们对相同的项目有两个单独的排名，有许多排名方法可以使用。其中之一采用了 Spearman 等级相关系数ρ(希腊字母 rho)或 r _s 。我将通过想象七家不同的餐馆由两位评委进行比较来说明这种方法。我们想知道两位法官的意见是否有重大分歧。无效假设是这两种排序是相关的，并且可能来自同一个群体。因此，法官对餐馆会有相似的看法。排序可能如下所示:

| 餐馆 | 法官 1 | 法官 2 | 差异 | | | --- | --- | --- | --- | --- | | | 军阶 | 军阶 | d | d ² | | --- | --- | --- | --- | --- | | A | four | three | one | one | | B | Two | Two | Zero | Zero | | C | three | five | Two | four | | D | one | one | Zero | Zero | | E | five | seven | Two | four | | F | six | four | Two | four | | G | seven | six | one | one | | | | | 总数 | Fourteen |

如果两个或两个以上的等级在一个法官的排序中是相等的，则允许分数的平均值将代替每个等级；但是太多的相同等级使得分析不恰当。

对来自两个裁判的等级之间的差进行平方，并且从平方和计算相关系数ρ。ρ的值介于+1 和–1 之间，其中+1 表示两种排序完全一致，而–1 表示完全相反的排序。

该系数的计算公式如下

ρ= 1–6 x(d²之和)/(n(n²–1))，

其中 n 是被分级的项目的数量。在我们的例子中，

φ= 1–6×14/(7(49–1))= 0.75。

该值参考已公布的ρ表，以获得显著性水平。为了说明所需的ρ水平，下表显示了 n 个值和两个显著性水平的选择值:

| 项目数 n | 一条尾巴 | 两条尾巴 | | --- | --- | --- | | 5% | 1% | 5% | 1% | | --- | --- | --- | --- | | five | Zero point nine | One | One | Zero | | six | Zero point eight three | Zero point nine four | Zero point eight nine | One | | seven | Zero point seven one | Zero point eight nine | Zero point seven nine | Zero point nine three | | Ten | Zero point five six | Zero point seven five | Zero point six five | Zero point seven nine | | Fifteen | Zero point four five | Zero point six | Zero point five two | Zero point six five | | Twenty | Zero point three eight | Zero point five two | Zero point four five | Zero point five seven | | Thirty | Zero point three one | Zero point four three | Zero point three six | Zero point four seven | | Forty | Zero point two six | Zero point three seven | Zero point three one | Zero point four one |

我们的值 0.75 可以看出超过了单尾检验的 5%显著性水平，但没有超过双尾检验的显著性水平。在这个例子中，单尾测试是合适的，因为我们正在调查我们的两个评委是否以相同的顺序对餐馆进行了排名。分布的第二条尾巴与相关但顺序相反的排名有关。因此，我们的结论是，有证据表明，在 5%的水平上，两个排名之间的一致。

如果 n 大于约 40，可以计算 Z 分数(如第十章中的所示)并使用正态分布表来获得显著性水平。适当的正态分布的均值为零，方差为 1/(n–1)。

还有其他几个等级相关系数，包括 Kendall 等级相关系数τ(希腊字母 tau)，它们的计算方法不同，但产生的相关系数与 Spearman 的相关系数解释相同，并且可以归属于显著性水平。

严格意义上的相关性一词是指两个变量之间的线性关系，这些排名方法也用于考察关系。这里，我们简单地使用等级相关系数来比较可能来自同一总体的两个样本。在某种意义上，可以认为这两个排名之间存在关系:我们可以绘制一个法官 1 的排名与法官 2 的排名的图表。两个排名之间的完美一致将给出一条直线，其统一性的斜率不断上升。如果两位评委给出了完全相反的排名，这样的图表会给出一条斜率为 1 的直线。在第五部分，我们将处理关系，并再次满足排名。

十二、误差类型

How Wrong Can You Be?

无论何时引用显著性水平，所述结果都有可能是不正确的。如果零假设被拒绝，而事实上，它是正确的，这种错误被称为 I 型错误。因此，如果我们的零假设是，在同一次考试中，男生和女生的成绩之间没有显著差异，我们可以决定有差异，比如说，在 5%的水平上。如果事实上没有差别，而我们的结果仅仅是由于随机效应，即我们出错的几率为 1/20，那么第一类错误就发生了。

或者，我们的结果可能显示没有显著差异，我们会接受零假设。如果我们错了，而且实际上存在差异，那么就发生了第二类错误。

第一类错误是最容易识别的，因为它的概率是由结果的显著性水平决定的。在上面的例子中，如果我们得出结论，同意零假设，男孩和女孩之间没有显著差异(在 5%的水平)，我们有 5%的机会犯第一类错误。当不存在差异时，指示差异的错误将是假警报。I 类错误发生的概率用α(希腊字母 alpha)表示。当没有指示出显著差异(尽管是不正确的)时，类型 II 错误出现，并且被接受，因此是遗漏的检测。虚警和漏检是思考这两种错误的有用方法:名称 I 和 II 并不能说明哪个是哪个(图 12-1 )。

假设检验的一个重要目的是拒绝假假设。因此，避免 I 型错误是很重要的。第二类错误通常不太严重，因为它为使用改进的资源进行进一步调查留下了机会。测试的功效是当零假设为假时拒绝零假设的概率，也就是说，它等于 1 减去第二类错误的概率。发生 II 型错误的概率用β(希腊字母β)表示，因此测试的功效为 1–β。如果差异真的存在，这种力量决定了找到差异的可能性。

请注意，如果没有额外的信息，我们无法计算出犯第二类错误的概率，因为我们不知道真实情况与零假设中陈述的情况有多远。我们必须以定量的方式建立另一种假设。例如，对于我们班的学生，我们可以提出女生比男生平均优秀 3%,并作为替代假设进行测试。

图 12-1。

Type I and Type II errors, which arise when the null hypothesis is accepted though incorrect or when it is rejected though correct

如果我们通过在更高的显著性水平上测试来减少犯第一类错误的机会，比如说 1%，那么我们就增加了犯第二类错误的机会。这两者之间是有取舍的。在接受抽样涉及供应商和客户的情况下，存在利益冲突。假设供应苹果，并检查样本。无效假设是样本与抽取样本的总体没有显著差异。如果出现第一类错误，这对供应商是不利的，因为苹果可能会被拒绝，而事实上它们是令人满意的。如果出现第二类错误，样本可能会指示接受苹果，而实际上它们并不令人满意。顾客因此处于不利地位。降低第一类错误的概率会增加第二类错误的概率，反之亦然。然而，通过增加样本的大小，这两种错误的概率都可以降低。于是，在减少误差和采样成本之间就有了一个权衡。

一个简单的例子将说明这两种错误。假设苹果是从一个供应商那里得到的，他的苹果有 10%是坏的。相对于支付的价格，客户接受这种质量水平。保持数字较小以简化示例，我们假设要购买一批 10 个苹果。顾客决定试用 3 号样本。如果 3 个都令人满意，则该批 10 个将被接受。零假设是该批次只包含一个坏苹果，即 10%，与预期比例一致。根据乘法法则，样本中所有 3 个都令人满意的概率是 9/10 x 8/9 x 7/8 = 0.7。所以有 0.7 的概率接受零假设，接受 10 批。因此，I 类错误的概率——即，当其中只有一个不满意的苹果时，拒绝该批次的概率——是 1–0.7 = 0.3。

如果没有更多的信息，我们无法计算第二类错误的概率。例如，我们需要知道或假设十个苹果中可能有两个坏苹果。该批次中只有一个坏苹果的零假设现在是错误的。样本中三个苹果都令人满意的概率是 8/10 x 7/9 x 6/8 = 0.47。因此，第二类错误的概率——即当零假设为假时，客户接受该批次的概率——为 0.47。

在实际情况中，有可能建立抽样安排来平衡这两种类型的误差，从而平衡供应商的风险和客户的风险。在上面的例子中，如果顾客决定抽样 4 个苹果而不是 3 个，I 类错误的概率将增加到 1-(9/10 x 8/9 x 7/8 x 6/7)= 0.4。第二类错误的概率降低到 8/10×7/9×6/8×5/7 = 0.33。因此，风险平均在 3 到 4 个苹果之间，其中 4 个苹果更接近最佳值。

REDUCING THE RISK

赫布登斯是镇中心的一家大型百货商店，出售各种各样的家庭用品。这家商店从 Plushcrocks 购买了一系列产品，如盘子、杯子、茶碟和非常受欢迎的精美装饰品。这批货物以 100 件为一批运送到赫布登斯。检查每批中的五个项目，如果所有五个项目都没有损坏或缺陷，则该批被接受。这一程序是在过去某个时候临时建立的。

尽管有这样的安排，赫布登斯发现自己有一部分商品不得不报废或作为次品出售，而且这个数字似乎还在上升，侵蚀着利润。

质量控制经理罗杰·韦兰决定做一些计算。在他看来，不可接受项目的百分比已经上升到 5%以上，但是很少有批次被拒绝。在 5%的次品率下，平均每批有 5 个次品。当一批产品包含多达 6 件缺陷产品时，商店接受该批产品的概率为 0.73 (73%，客户风险)，而当一批产品仅包含 5 件缺陷产品时，拒绝该批产品的概率为 0.23 (23%，供应商风险)。这些安排非常有利于 Plushcrocks，罗杰显然需要引入一种新的程序，包括对更多的进货样本进行检查。

进一步的计算表明，如果检测的项目数量增加到 12 个，当包含超过 5%的缺陷项目时，接受该批次的风险下降到 48%，当包含少于 5%的缺陷项目时，拒绝该批次的风险增加到 46%。

Roger 向 Plushcrocks 提出了这个问题，通过展示客户和供应商的同等风险，他获得了 12 个项目将在未来接受检查的协议，除非所有项目都没有缺陷，否则该批次将被拒绝。新的程序不会使 Hebdens 的成本有任何明显的增加，但 Plushcrocks 将面临相当多的额外工作来处理被拒绝的批次。罗杰意识到这只是开始。有了他的计算，他可以继续给 Plushcrocks 施加压力。有消息称，Plushcrocks 已经听取了一位统计顾问的建议，目的是改进他们的质量控制安排。

十三、因果

Storks and Birth Rates

我们人类似乎有一种内在的欲望，去寻找不同观察到的效应之间的关系，并推导出因果关系。我认为，生存在某种程度上取决于认识到关系，并假设一个结果导致另一个结果。作为年轻人，我们通过将攀爬与坠落的风险联系起来来了解危险。不看就过马路和被车辆撞的可能性有关，等等。然而，我们倾向于想象不存在的关系，更糟糕的是，想象这些关系意味着因果关系。最极端的情况是在迷信领域:相当高比例的人避开数字 13 或携带幸运符。占星术声称我们生活中的事件会受到行星位置的影响，拥有大量的追随者。

当然，关系可能是表明因果关系存在的第一步。通过研究关系，科学和技术已经进步了，并且仍在进步。气象学家建立了空气运动特征和由此产生的天气之间的关系。化学家在物质的成分和它们的性质之间建立关系。

在实验室受控条件下进行的科学研究中，可以排除合理怀疑建立因果联系。同一个实验可以重复多次。我们的化学家可以向我们保证，如果他知道所维持的条件，他就能预测一个特定的反应。气象学家就不那么确定了，不得不观察这些影响，却没有能力控制其中任何一个，也没有能力消除可能起作用的不必要的影响。然而，重复的观察可以建立信心，相信关系是有因果关系的，特别是如果有理论可以解释这种关系的话。事实上，理论，从假设开始，从因果关系的确认发展，并可能进展到法律的地位。

对照组的使用是建立因果关系的一种常见方式，尤其是在新药试验中。给一组病人服用这种药物，而给第二组，即对照组的病人服用安慰剂。病人不知道他们属于哪一组。当然，结果的有效性取决于两组的总体相似性，因此需要通过随机化程序来构建。

总的来说，除非我们有证据表明改变一个因素会带来另一个因素的持续变化，否则我们不能假定这是一种因果关系。仅仅确定这两个因素相关是不够的。一个没有因果关系的相关例子是，二战后哥本哈根的出生人数与在屋顶筑巢的鹳数量相关。这种相关性与白鹳接生人类婴儿的理论相一致，但并没有证明这一点。然而，这种相关性的一个更合理的原因是，城市人口的增加与建筑物的增加有因果关系，建筑物的增加为鹳提供了更多的筑巢机会。德国和荷兰也报道了鹳与生育的类似关系。一些相关性可能不仅仅是由于第三个共同原因，如这些例子中，而是由于一系列相互关联的因素。

有时，相关性可能以更微妙的方式出现。假设我们怀疑一种特定的药物治疗在病人身上引发了不愉快的副作用。这可能是基于在治疗的使用和副作用的发生之间观察到的相关性。然而，可能副作用并不是真正的副作用，而是治疗用来缓解的疾病的结果。

Blastland 和 Dilnot (2007: 163-174)提供了一个发人深省的章节，描述了相关性被用来暗示因果关系的情况。一个例子是长寿和超重。来自美国的数据显示，超重的人比瘦的人活得稍长。然而，一个没有被考虑的因素是，病得很重的人往往很瘦。这一类别的数据影响了整体情况，表明超重会导致更长的寿命。作者还指出，由于许多错误的因果关系主张，我们中的一些人对所有主张进行了不幸的谴责，不管它们是否有效。

一些提出的因果关系不容易证明，因为我们无法直接控制所涉及的影响。例如，你如何理解下面的内容？理查德·怀斯曼(2007: 27-31)描述了一个涉及 40，000 人的实验。每个人都被要求评价自己是幸运还是不幸。结果发现与出生月份相关。自称幸运的人出生在夏季，而不幸运的人出生在冬季。

该实验在南半球(新西兰)重复进行，尽管只有 2000 名受试者，并且发现幸运的人的出生率在 12 月达到峰值——南半球的夏天。有人认为，出生时的温度可能会影响婴儿在最初几个月的照顾方式，或者母亲的饮食可能会根据气候在一年的不同时间发生变化。另一方面，我怀疑许多统计学家在发表意见之前希望看到更详细的结果。他们可能还想知道新西兰的受试者在参与之前是否知道英国的发现。

惊人的巧合经常发生。我们每周都在报纸上读到他们的消息。当我们考虑到世界上发生的大量事件和大量的人将经历这些事件时，这并不令人惊讶。我们必须永远记住，事件之间的关系不足以证明因果关系。相关性是因果的必要条件，但不是充分条件。统计数据可以在特定的可靠性水平内展示关系。但这是它能做到的最大限度。光靠统计永远无法证明因果关系。

十四、数字数据的关系

Straight Lines, Curved Lines, and Wiggly Lines

经常需要比较两组或更多组数据，以确定它们是否以某种方式相关。一些量是相关的，因为我们已经定义了它们。公里与英里有精确的关系，这种关系可以用公式表示:

公里=英里 x 1.609。

美元与英镑之间有一个精确的汇率，这个汇率可能每天都在变化，也可能因地而异，但对于一笔特定的交易来说，这个汇率是精确的。然而，一般来说，我们处理的量可能显示一些关系，但很少是精确的关系。

在严密控制的实验室条件下进行的科学研究可能最接近精确的关系，但即使在这里，在进行测量时也会有小误差，这给已建立的关系带来不确定性。在天平的另一端，我们可能在寻找，例如，人们在选举中投票的方式和他们的父母如何投票之间的关系。在这里，很可能任何关系都是不确定的，统计分析的作用是量化不确定性。

当寻求两个变量之间的关系时，就要区分自变量和因变量。在图 14-1 中，冰淇淋的销量与每天中午的温度之间的关系显示为一个线形图。温度是独立变量，销售额是因变量，销售额取决于温度，而不是相反。线图通常用于显示关系，在绘制线图时，有一个约定，即选择位于两个轴上的量。横轴用于自变量，纵轴用于因变量。有时并不清楚哪个是哪个，两个变量都取决于其他因素。我们可以选择把哪个作为因变量，哪个作为自变量。如果我们在每天中午测量一个位置的温度和湿度，并绘制温度和湿度的曲线图，那么这两个变量的坐标轴的选择将是任意的。

图 14-1。

Graph of ice cream sales at various daily temperatures, illustrating the difference between the dependent and independent variables

两个变量之间的关系是最容易处理的情况；随着更多变量的引入，困难迅速增加。这些困难不仅存在于分析中，也存在于所能得出的结论的可靠性下降中。

已经收集的原始数据可能允许对关系进行许多不同的探索。如果对不同年龄的人进行抽样，或者如果涉及不同类别的产品，可能的变量对的数量可能很多。有一种危险是，调查者不是在一开始就决定要检查什么样的比较，而是将一切可能的东西与其他东西进行比较。结果可能完全不可靠。例如，如果打算接受 5%的统计水平，很可能 20 个比较中就有 1 个会虚假地表现出这种显著性水平。由于要描述的统计检验现在可以由计算机程序迅速完成，寻找任何可能的关系的诱惑是很大的。当测试以前必须手工进行时，时间根本不允许深入寻找任何关系的证据，无论这种可能性有多大。

现在，我们似乎被声称的关联淹没了。媒体充斥着与我们的想法、行为、饮食、饮食等等相关的统计相关性。我想知道——我想这是一种嘲讽——一些制造商是否会赞助调查，以寻找他们产品的特性和任何其他可能提升他们产品吸引力的东西之间的关系。

在查看他人获得的结果时，不可能知道有多少不同的变量配对被检验或没有被检验。如果有原始数据，或者如果抽样的细节是已知的，如果报告的结果看起来特别有选择性，就可能引起怀疑。如果报告的结果仅涉及卷心菜，但一系列蔬菜也包括在抽样中，则需要做出一些解释。

我需要指出，我上面所说的严格适用于变量对之间的关系。它不适用于目的是同时研究几个不同变量的影响的调查。此类调查完全正确，并将在第十六章中予以考虑。

线性关系

如果两个量精确相关，这种关系可以用线图来表示；如果这条线是直的，这种关系被称为是线性的。这条线可能穿过图形的原点，表明这两个量彼此成比例。因此，美元对英镑的图表，说明了汇率，是一个通过原点的直线图(图 14-2 )。描述图表的公式是

英镑=雷亚尔 x 美元，

r 是汇率。

图 14-2。

A straight-line conversion graph

有些线性关系有不经过原点的直线。例如，将货物运送到特定目的地的成本可能是每公斤 2 美元加 60 美元。该公式具有以下形式:

成本($) = 2 x 重量(公斤)+ 60。

图 14-3 中的图表显示，当其中一个量增加时，另一个量也会增加。这就是所谓的正相关。负相关描述了一个量随着另一个量的增加而减少的关系。

图 14-3 也说明了变量之间的关系如何通过改变用于绘制图表的比例和通过抑制原点而显得不同。

图 14-3。

A graph of the cost of shipping goods of different weights, presented in several ways to illustrate the visual effects of changing the scale and suppressing the origin

当我们处理不精确相关的变量时，对数据的初步检查包括绘制散点图。各个数据点被绘制在一个图表上，该图表的轴代表涉及的两个变量。通过肉眼，可以看到上升或下降趋势，表明正相关或负相关。如图 14-4 所示，一种有用的技术是画一条水平线，使一半的数据点在这条线上，另一半在这条线下。然后画一条垂直线，使一半的点在左边，一半在右边。对每个象限中的点进行计数表明，在任一对角相连的象限对中存在任何明显的过度相关。

图 14-4。

Examples of scatter graphs used to explore the existence of correlation between two variables

如果有相关性的证据，可以用肉眼找到最合适的直线。透明标尺允许对线进行定位，以使线的两侧有相等或几乎相等数量的点，并且使这些点与线的距离最小。对程序的改进包括计算两个量中每一个的平均值，将这些值绘制成图上的一个点，并确保直线穿过该点。

最佳拟合线的梯度(换句话说，陡度或斜率)是该线向上延伸的范围除以向右移动的范围。请注意，梯度可能会被错误地视为两个变量之间相关性的度量，一条陡峭的线似乎表明强相关性。事实上，梯度的数值是任意的，取决于测量变量所用的单位。例如，烹饪一只鸡的时间公式可能是

时间(分钟)= 45 ×体重(公斤)+ 30，

图形的斜率是 45°。如果使用小时，等式为

时间(小时)= 0.75 ×重量(公斤)+ 0.5，

并且梯度是 0.75。两个变量之间的相关程度取决于点与线的接近程度，而与线的梯度无关-前提是存在梯度。显然，如果没有梯度，其中一个变量不会影响另一个变量，相关性为零。回头看一下图 14-3 ,可以确认，通过改变比例，梯度可以变大或变小，因此可以错误地表示两个变量之间的相关程度。

最佳拟合线的位置可以通过一种叫做线性回归的统计方法来确定，我们现在需要研究一下这种方法。这里使用的回归一词有估计的意思，因为这条线将用于从一个变量的值估计另一个变量的值。

假设我们想知道某一特定种类的树长得有多快。我们获得的数据显示了一棵代表性的树的高度，这是每年测量的，一直到五年。这些点绘制在图 14-5 中，数值如下:

| | 年 | 高度(米) | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | | | x | y | (x–x_m | (y–y_m | (x–x_m)(y–y_m | (x–x_m)² | (y–y_m)² | | | one | Zero point one | –2 | –0.6 | One point two | four | Zero point three six | | | Two | Zero point six | –1 | –0.1 | Zero point one | one | Zero point zero one | | | three | Zero point nine | Zero | Zero point two | Zero | Zero | Zero point zero four | | | four | Zero point nine | one | Zero point two | Zero point two | one | Zero point zero four | | | five | One | Two | Zero point three | Zero point six | four | Zero point zero nine | | 总数 | Fifteen | Three point five | | | 2.1 = S _xy | 10 = S _xx | 0.54 = S _yy | | 平均 | 3 = x _m | 0.7 = y _m | | | | | |

显示了 x 的每个值与 x 的平均值之间的差值，以及每个差值的平方。y 值的处理方式类似。包括每个 x 差和相应的 y 差的乘积。

最佳拟合线的方程由下式给出，

y–y_m=(x–x_mS_xy/S_xx，

插入上面的值并重新排列，得到

y = 0.21x + 0.07。

包含在图 14-5 中的直线穿过位于 x 的平均值和 y 的平均值处的点，并且总是如此。该线是最佳拟合的，因为测量的 y 值与图表预测的值的偏差的平方是最小的。

图 14-5。

A graph of the height of a tree at different ages with its calculated simple linear regression lines

细心的读者会注意到，尽管 S _xx 的值出现在等式中，但 S _yy 没有出现。这是因为实际上有两条最佳拟合线，第二条具有类似的等式，除了用 S _yy 代替 S _xx 以及 x 和 y 的换位。怎么可能有两条最佳拟合线呢？原因是它取决于如何使用图表。我们刚刚计算的这条线叫做 y 在 x 上的回归，它的目的是在给定 x 值的情况下给出 y 值的最佳估计。因此，如果我们知道我们的树的年龄，我们可以使用图表来估计它的高度。

但是，当我们测量树的高度时，我们可能希望使用图表来估计树的年龄，这是一个不同的过程。

然后，要求直线代表 x 对 y 的回归。公式为

x–x_m=(y–y_mS_xy/S_YY

当重新排列时，给出

y = 0.26 x–0.07。

第二条回归线包含在图 14-5 中。这条线再次穿过代表 x 和 y 的平均值的点，但与前一条线相比，它的梯度略有不同。在这个例子中，两条线是相似的；而且，一般来说，两个变量之间的相关性越大，两条线就越近。事实上，如果有完美的相关性，例如转换图，可能只有一条直线。

选择上面的例子是为了说明两条回归线的用处和区别。然而，通常只在一个方向上使用图表是明智的:这就产生了自变量和因变量之间的区别，这在前面已经描述过了。如果我们可以随意固定其中一个变量的值，那么这个变量就是自变量。另一个是因变量，因为它的值取决于自变量的固定值。关系通常用于估计因变量的值，因此只需要一条回归线。

有时一开始就知道回归线必须经过原点，因为当一个变量为零时，另一个变量也必然为零。这个等式现在稍微简单了一些，但是我们需要一些额外的计算，如下所示。

| 年 | 高度(米) | | --- | --- | | x | y | 正常男性染色体组型 | x ² | y ² | | one | Zero point one | Zero point one | one | Zero point zero one | | Two | Zero point six | One point two | four | Zero point three six | | three | Zero point nine | Two point seven | nine | Zero point eight one | | four | Zero point nine | Three point six | Sixteen | Zero point eight one | | five | One | Five | Twenty-five | One | | 总数 | | 12.6 = S(xy) | 55 = S(x ² | 2.99 = S(y ² |

方程式是

y = (S(xy)/S(x ² ))x，

这给了

y = 0.23x

如果我们把 x 作为自变量。换句话说，我们根据树的年龄 x 来估计树的高度 y。如果 y 被认为是独立变量，则允许根据已知高度来估计年龄，则等式为

x = (S(xy)/S(y ² ))y，

这给了

y = 0.24x。

我们可能会争辩说，当我们的树的年龄为零时，树的高度为零，或者非常接近于零，因此，这些将是首选方程。然而，从一个更实际的角度来看，我们可以说我们的图是用于那些已经达到足够高度的树；此外，当树比幼苗大不了多少时，生长率可能会有很大的不同，在实际应用的范围内，不应允许影响相关性。在这种情况下，我们将使用图 14-5 的图表。

适当的分析会产生回归线，但问题是这种相关性有多大意义。在确定回归线的同时，可以容易地计算出相关系数 r。该系数的全称是积矩相关系数，但它通常被称为皮尔逊系数。该系数具有总是取值于+1 和–1 之间的特性。值+1 表示完全正相关:所有绘制的点都正好位于直线上，并且直线斜率上升。值为–1 表示完全负相关:点再次正好位于直线上，但是斜率在下降。值为 0 表示没有相关性，绘制的点随机分散。在解释所获得的值时，一定程度的判断通常是必要的。大约 0.5 的值表示一些相关性，但是低于大约 0.4 的任何值都将引起严重的怀疑。r 的等式是。

在上面的树示例中，数据给出 r = 0.90。

r ² 的值可以用于指示相关性的有用性。当 r 等于 0.9 时，r ² 为 0.81，表明因变量的变化有 81%是由于自变量的变化。因此，19%的变化是由于其他因素。

已经建立的相关性与这个特定样本中的数据严格相关，而我们希望在研究类似树木的其他样本时使用这种相关性。为了证明使用相关性来代表样本所来自的总体是合理的，有必要确定结果的显著性。这可以通过使用乘积矩相关系数的临界值表来实现。下面显示了一些值。

| | 一条尾巴 | 两条尾巴 | | --- | --- | --- | | 样本大小 | 5% | 1% | 5% | 1% | | --- | --- | --- | --- | --- | | three | Zero point nine eight eight | One | Zero point nine nine seven | One | | four | Zero point nine | Zero point nine eight | Zero point nine five | Zero point nine nine | | five | Zero point eight zero five | Zero point nine three four | Zero point eight seven eight | Zero point nine five nine | | Ten | Zero point five four nine | Zero point seven one five | Zero point six three two | Zero point seven six five | | Fifteen | Zero point four four one | Zero point five nine two | Zero point five one four | Zero point six four one | | Twenty | Zero point three seven eight | Zero point five one six | Zero point four four four | Zero point five six one | | Thirty | Zero point three zero six | Zero point four two three | Zero point three six one | Zero point four six three | | Forty | Zero point two six four | Zero point three six seven | Zero point three one two | Zero point four zero three |

对于单尾和双尾测试，我们的值 0.9 在 5%的水平上是显著的。如果一开始我们研究树高和年龄之间是否有显著的相关性，换句话说，图表的真实梯度是否不为零，那么我们将应用双尾检验。如果我们要研究树高和年龄之间是否存在正相关，换句话说，梯度是否大于零，我们将应用单尾检验:第二个尾对应负相关，这在我们的树示例中显然是不可能的。前面已经指出，统计检验的目的是确定在一开始就明确定义的假设的重要性。

看起来很奇怪，对显著性的测试依赖于将图形的梯度与零值进行比较。比方说，我们可能在一个场合有 28 的梯度，而在另一个场合只有 0.28 的梯度。第一个值比第二个值离零远得多。然而，如前所述，梯度的数值是任意的，因为它取决于所用的单位。显著相关的标准是存在梯度的可能性——也就是说，我们关注的是梯度具有任何非零值的概率。

可以获得置信区间，并用回归线两侧的条带表示。这些表明，平均而言，从该线作出的预测的可靠性。有些相似的是具有更宽波段的预测区间，显示了沿图形不同位置的单个预测的可靠性。

在一些研究中，可能知道图上的单个点具有不同程度的可靠性。有些可能是大样本的平均值，有些可能是小样本的平均值。一些可能来自比其他更精确的测量。在这种情况下，每个点可能会显示一个误差条，指示单个可靠性。垂直误差线位于标绘点的中心，误差线的长度表示因变量的置信限。如果自变量受到某种不确定性的影响，可能会有一个类似的以该点为中心的水平条。

请注意，回归线预测仅在所表示的值范围内有效。不可能外推一条回归线来获得这个范围之外的值。为获得回归线以推断数据而付出的努力会给出危险的误导性结果。

数字数据可以在排序过程中作为获得回归线的替代方法来处理。我在第十一章中描述了这个方法。每组数据按顺序排列，并从 1 向上给定等级数。与我们在线性回归示例中处理数值数据相比，该方法速度更快，但主要优势出现在数据包含极值时，这通常是数据不呈正态分布的结果。例如，工资样本通常包含一些非常高的值，这些值会极大地影响基于拟合直线的数值相关性。当数据按大小排序时，没有极值。但是，请注意，排名测试是非参数的:它们不假设任何特定的数据分布，也不像参数测试那样强大。此外，尽管排名提供了相关程度的度量，但除了显示相关性是正还是负之外，它没有给出关于两个变量相关方式的信息。

非线性关系

当绘制数据时，可能存在曲线关系而不是线性关系的证据。处理这种情况的一种方法是转换数据以实现线性。以下数值显示了一个城镇多年来的人口增长情况:

如图 14-6(a) 所示，该图是弯曲的，随着时间的增加，该图变得越来越陡，这表明对每个人口值取平方根会产生一条更直的线。

图 14-6。

Graphs of the population growth of a town showing (a) the raw data and (b) the data transformed by plotting the square root of the population

图 14-6(b) 显示了重新绘制的数据，可以看出该图近似呈线性。显著相关的检验可以如前一节所述进行。

数据可以通过应用任何数学程序进行转换。常用的变换采用平方、平方根、立方、立方根、取一个变量的对数以及取两个变量的对数。

在科学工作中，当寻求两个变量之间的联系时，成功的转换可以揭示规律背后的物理过程。为了说明这一点，我们可以考虑一个众所周知的关于行星到太阳的距离 R 和绕太阳一周所需时间 T 的定律。如果我们将这两个变量绘制成图 14-7(a) 所示，我们会得到一条曲线。如果我们通过绘制 T 的立方根与 R 的平方根来变换变量，我们会得到一条穿过原点的直线，如图 14-7(b) 。(这相当于表明 T ² 与 R ³ 成正比，这是该定律通常的表述方式。然而，T ² 对 R ³ 的绘图必须大到无法接受，以容纳非常宽的数据范围。)然后，我们可以应用线性回归来定位最佳线，并使用它来预测任何可能被发现的新的小行星的路径。当然，实际上，关于 T 和 R 的定律是众所周知的(虽然不像这里所说的那么简单，因为轨道是椭圆形的，而不是完美的圆形)，任何行星的轨道特征都可以精确地计算出来。

图 14-7。

Graphs of a planet’s length of year in relation to its distance from the Sun, showing (a) the raw data and (b) the transformed data

然而，有时会突然冒出红鲱鱼。提图斯-波德定律是基于行星离太阳的顺序和它们离太阳的距离之间的明显关系。图 14-8(a) 显示了 x 轴上的数字序列和 y 轴上距太阳的距离。请注意，当该定律被提出时，海王星尚未被发现，谷神星(一颗著名的小行星)被认为是一颗行星。图形是弯曲的，转换看起来很有用。如果我们通过取距离的对数并重新绘图进行转换，我们得到一个线性关系，不包括海王星，如图 14-8(b) 所示。相关性很好:相关系数 r 的值为 0.995。当海王星被发现时，它被发现与假设的关系有很大的不同。如今，泰特斯-波德定律被认为仅仅是一个奇怪的巧合，或者充其量是几个因素的组合，结合起来给出一个明显的简单联系。

因此，通过使用变换来实现线性关系是一种有用且简单的技术。它确实存在这样的问题:为了获得最佳拟合而使误差最小化本身就受到变换的影响。换句话说，最佳拟合线代表变换变量的最佳拟合，但不一定是变量本身的最佳拟合。

图 14-8。

Graphs of a planet’s distance from the Sun in relation to its numerical sequence from the Sun (Titus-Bode law), showing (a) the raw data and (b) the transformed data

应该注意的是，总是有可能找到一条穿过任何点分布的直线的方程。形式为的方程

y = a + bx，

其中 a 和 b 是常数，总是一条直线。形式为的方程

y = a + bx + cx ²

给出一条转一圈的曲线。形式为的方程

y = a+bx+CX²+dx³

给出一条转两圈的曲线，依此类推。这种方程称为多项式，这种方程的拟合称为多项式回归。如果我们寻找一个对长度没有限制的多项式方程，我们总是能够得到一条通过我们所有实验点的曲线。显然，这变成了一个无用的练习:最终的等式将没有任何意义。我们还不如用手画一条穿过我们所有点的曲线。常识决定了沿着这条路走下去的合理程度。

很明显，如果我们允许不受限制的曲线弯曲，就没有唯一的最佳拟合线:总是有必要根据线的形状或描述线的方程的形式来决定什么是可接受的。许多计算机软件包可用于非线性回归。它们本质上是试错法，因此是计算机密集型的，通过迭代进行拟合，以满足可接受的标准，并使实验点的误差与线的预测相比最小化。当然，这就是我们所看到的线性相关，其中直线是可接受的标准，数学将单个点的误差降至最低，尽管不需要长时间的迭代。

不正常的关系

两个变量可能没有任何明显的、甚至是可预测的联系，但却可能有联系。通常，其中一个变量是时间。许多事情随着时间而变化:事实上，大多数事情确实如此。在商业领域，人们非常关注各种量是如何变化的。我们希望看到我们的利润逐月或逐年增加。或者我们看看每天早上报纸上股票市场数字的变化。这种数据的特征在于它们的往复可变性，正因为如此，可以得出许多结论，其中一些从演示者的角度来看是有利的，而另一些则是不利的。图 14-9(a) 显示了富时 100 金融股票指数自 1984 年创立以来的变化。很明显，这是一种显著的正相关，但是寻找一种可以量化的相关性是毫无意义的。

在第六章中，我警告过在呈现条形图时要抑制原点。同样的警告也适用于线图:结果可能会非常误导人，特别是当原点隐藏在垂直轴上时，即因变量上。然而，我们必须记住，有时，特别是对于显示随时间变化的图表，我们必须抑制原点。的确，时间是从什么时候开始的？时间轴显然可以从任何方便的点开始，而垂直轴可能必须从远离零的地方开始。图 14-9(a) 中的图表有一个真实的来源，因为富时指数始于 1984 年，其值为 1000，该图表有助于显示历史变化。但是如果你在过去几周内购买了股票，你会对图 14-9(b) 更感兴趣，它必然隐藏了它的来源。纵轴坏了。在纵轴中示出了一个断点，即索引值；但是鉴于已经说过的话，打破时间轴将是迂腐的。

类似地，与公司相关的财务数据可能仅在最近感兴趣，并且抑制图表的来源可能是合理的。然而，这种理由可能会给人留下误导的印象。

图 14-9。

Graphs of the movements of the UK FTSE 100 index showing (a) the inclusion of the origin on the vertical axis and (b) an acceptable presentation of the suppression of the origin

下面的图表显示了一家小公司两年内的月利润。为简单起见，这些数字显示为以 1000 美元为单位的小数字。

数据如图 14-10(a) 中的线形图所示。大起大落为该公司提供了不时表达乐观观点的机会，也为批评者提供了表达不太赞同的评论的机会。

为了以平滑波动的方式呈现数据，可以使用移动平均值。当认识到数据中可能存在周期性变化(例如，季节性变化)时，这尤其有用。

采用的平均值可以是平均值或中间值。我们将使用基于平均值的三个月移动平均值。也就是说，我们将计算 2008 年 1 月至 3 月前三个月的平均值；然后，向前移动一个月，我们将计算 2008 年 2 月到 4 月的平均值。下一个平均值是 2008 年 3 月到 5 月，依此类推。结果如图 14-10(b) 所示。该图现在更平滑了，显示出随着时间的推移而缓慢上升。积矩相关系数是 0.88，而原始图是 0.70。图 14-10(c) 所示的六个月移动平均线的图形，波动更小，相关系数已经增加到 0.99。

图 14-10。

Graphs of the growth of profits of a small company showing (a) the raw data, (b) the three-month moving average, and (c) the six-month moving average

图 14-11 显示了图 14-10(c) 的数据，原点被抑制，垂直刻度被扩展，垂直轴没有中断。可以看出，其效果是表明利润增长有所改善。同样，很明显，省略垂直轴上的原点(因变量)比省略水平轴上的原点(自变量)更容易引起误解。

图 14-11。

Data from Figure 14-10 (c) with the origin suppressed and the scale changed

时间总是被描绘成独立变量，正如我先前指出的，要显示一个真实的原点是不可行的。其他一些变量也存在同样的问题。温度通常是独立变量；真正的零度是-273 摄氏度，除了在与极低温度相关的科学出版物中，它从来没有出现过。在图 14-1 中，温度轴显示为原点被抑制且轴中没有中断。请注意，0°C 和 0°F 并不是真正的零点:20°C 的温度并不是 10°C 的两倍。将这两个温度分别转换为华氏温度(50°F 和 68°F ),表明这种明显的翻倍是没有意义的。

MARKET MARKETING

约翰和他的妻子凯特在附近城镇的市场摊位上经营一家小企业。他们每周在同一天访问每个城镇一次。他们出售一系列家庭必需品，如厨房和浴室清洁产品、肥皂、抛光剂、掸子和刷子。

尽管他们的管理费用很低，但他们仍然很难在价格上与大型超市竞争。他们考虑像超市那样对多次购买提供降价，但不确定这是否会增加利润。

凯特向她的哥哥泰德征求意见。他有一些商业经验，也有一些统计知识。

泰德建议做一个实验。当购买两个相同的项目时，货物将在百分比折扣的基础上出售。实验的目的是找到要应用的最佳百分比缩减。如果降价幅度太低，比如说 10%，对销售额或利润影响不大。80%的人说，如果价格太高，就会严重侵蚀现有的利润率，以至于增加的销售额无法弥补。介于两者之间是最佳选择。

Ted 建议 John 和 Kate 从两周内减少 10%开始，每两周增加 5%的减少量，最多减少 75%。每两周每天的利润将被记录下来。

实验开始了，结果交给了特德进行分析。他首先绘制了利润与降价百分比的散点图。他毫不惊讶地发现，最好的直线没有任何用处:它将是近似水平的。然而，他很高兴地看到，在图表的中心区域有利润增长的迹象。任务是确定峰值出现的位置。他利用统计软件包对数据进行低阶多项式拟合，发现利润峰值位于降价 35%左右。约翰和凯特采用了“买两个一样的打三分之一折”的做法，并很高兴地享受了 3%的利润增长。

特德指出还可以做更多的事情。在最初的实验中，其他变量没有被分离出来。有可能进一步试验一系列适用于不同产品和这对夫妇交易的不同城镇的降价。这只是新营销策略的开始。

十五、描述性数据的关系

Any Color as Long as It’s Black

商业运作中涉及的许多数据是描述性的，而不是数字性的。在产品开发和市场营销中，我们要做出关于颜色、形状和包装的决定。调查将对问题给出是/否的答案。记录会显示一个产品是受欢迎还是不受欢迎，是卖还是不卖。

标称数据

如果数据是名义上的，我们说变量之间的关联而不是相关性，这可以通过几种方法来检验。假设我们想知道一种特定的医疗方法是否有助于治愈一种疾病。患者样本可能会给出以下结果:

| | 对待 | 未治疗 | 总数 | | --- | --- | --- | --- | | 治愈 | One hundred | Thirty | One hundred and thirty | | 未治愈 | Forty | Thirty | Seventy | | 总数 | One hundred and forty | Sixty | Two hundred |

利用对角线的乘积，可以从二乘二表中的四个值计算出尤尔关联系数 Q。有了上面的值，

q =(100 x30–30x 40)/(100 x30+30x 40)= 0.43。

Q 的值总是在+1 和–1 之间，值的大小与关联的强度有关。符号+或-表示关联的方向:在我们的例子中，是治疗导致更多还是更少的治愈。尤尔系数的一个改进版本是四分相关系数，它涉及到一个稍微复杂一点的计算。当有两行或多列时，不能使用尤尔关联系数。相反，使用多轴相关系数。

同样的数据可以通过所谓的偶然性检验来检验。如果治疗没有效果，可以预期治疗组和未治疗组治愈与未治愈的比例是相同的。在保持总数不变的情况下，这些值将如下所示:

| 预期数字 | | --- | | | 对待 | 未治疗 | 总数 | | 治愈 | Ninety-one | Thirty-nine | One hundred and thirty | | 未治愈 | forty-nine | Twenty-one | Seventy | | 总数 | One hundred and forty | Sixty | Two hundred |

因此 91/49 = 39/21 = 130/70。接下来的问题是实际值是否明显偏离这些期望值。我们的零假设是两组值没有显著差异。

您在第七章中看到了卡方检验如何用于比较两个分布。实际上，这里有两种分布:采样值的分布和期望值的分布。因此可以使用卡方检验。第一步是将实际值和期望值之间的差异制成表格。每个差值被平方并除以期望值。这些值的总和就是卡方值。

| | 差异 | 差异 | d²/预期值 | | --- | --- | --- | --- | | | d | 平方，d ² | | | 对待 | | 治愈 | + 9 | Eighty-one | 81/91 = 0.89 | | 未治愈 | – 9 | Eighty-one | 81/49 = 1.65 | | 未治疗 | | 治愈 | – 9 | Eighty-one | 81/39 = 2.08 | | 未治愈 | +9 | Eighty-one | 81/21 = 3.86 | | | | 总数 | Eight point four eight |

只有一个自由度，因为表中四个值之一的固定决定了其他三个。从第七章的所示卡方分布表的摘录中，我们看到 8.48 的值在 1%的水平上是显著的。因此，我们的无效假设被驳回，我们得出结论，有强有力的证据表明这种疗法是有效的。

上面的例子使用了一个 2×2 的表格，有两行和两列。该过程可以在两个变量的限制下容纳更多的类别。例如，变量可以是头发的颜色和出生地。下表显示了一个小样本的一组可能的数据:

| | 毛色 | | --- | --- | | 出生地 | 褐色的 | 黑色 | 金黄色的 | 总数 | | 英格兰 | Eleven | Two | four | Seventeen | | 苏格兰 | five | eight | Zero | Thirteen | | 威尔士 | four | five | one | Ten | | 总数 | Twenty | Fifteen | five | Forty |

如果头发颜色和出生地之间没有关系，我们会认为这些数字只是反映了不同类别的大小。因此，该表可以改写，显示每个类别中的预期人数。例如，出生在威尔士的棕色头发个体的预期数量显示为 5:抽样的 20 个棕色头发个体总数的四分之一，因为总个体的四分之一，40 个中的 10 个，出生在威尔士。

| | 预期数字 | | --- | --- | | | 毛色 | | 出生地 | 褐色的 | 黑色 | 金黄色的 | 总数 | | 英格兰 | Eight point five | Six point three eight | Two point one three | Seventeen | | 苏格兰 | Six point five | Four point eight eight | One point six three | Thirteen | | 威尔士 | Five | Three point seven five | One point two five | Ten | | 总数 | Twenty | Fifteen | five | Forty |

要做的决定是这两个表是否有显著的不同。如果它们没有显著差异，我们可以得出结论，没有证据表明头发颜色与出生地有关。这两个表之间的差异可能是由于抽样中的随机误差造成的。如果我们发现显著差异，我们将得出结论，有证据表明头发颜色与出生地有关，我们将进一步检查数据，以确定头发颜色和出生地的哪些组合是这种关系的来源。

为了确定显著性水平，如前所述计算卡方。每个样本值与其期望值之间的差被平方并除以期望值。这些值，卡方的单个值，加在一起得到整个数据集的累积卡方。有四个自由度，因为固定表中九个值中的四个决定了另外五个。通常，对于列联表，自由度是行数减一乘以列数减一。在这个例子中，卡方值是 10.0，尽管没有显示计算结果；从第七章的分布表中，我们发现结果在 5%的水平上是显著的。

序数数据

你在第十一章中看到了如何比较两组排名来决定它们之间是否存在显著差异。在你看到的例子中，两位评委分别给七家餐馆排序。使用 Spearman 等级系数或类似系数的相同技术可用于检查不同属性的两个等级是否相关。事实上，我们提到过，这些排名技术本质上是用于检查可能关系的相关技术。无论变量的性质如何，都可以对不同变量的数据进行排序，正是这一特性使得排序技术如此通用。

例如，假设我们怀疑上一个例子中的第一个判断是受餐馆大小的影响，而不是食物和服务的质量。我们可以根据餐厅的大小对它们进行排名，并把它们和评委的排名放在一起:

| | 法官 1 | 大小 | 差异，d | d2 | | --- | --- | --- | --- | --- | | 餐馆 | 军阶 | 军阶 | | | | --- | --- | --- | --- | --- | | A | four | four | Zero | Zero | | B | Two | Two | Zero | Zero | | C | three | six | three | nine | | D | one | one | Zero | Zero | | E | five | three | Two | four | | F | six | seven | one | one | | G | seven | five | Two | four | | | | | 总数 | Eighteen |

斯皮尔曼系数的计算公式如下

ρ= 1–6 x(d²之和)/(n(n²–1))

其中 n 是被分级的项目的数量。在我们的例子中

φ= 1-6×18/(7(49-1))= 0.68。

该值参考已公布的ρ表，以获得显著性水平。第十一章的中包含了一组公布值。当 n 等于 7 时，我们的值 0.68 没有达到 5%的显著性水平，因此我们得出结论，没有明显的证据表明法官受到餐馆大小的影响。

十六、多元数据

Variety Is the Spice of Life

实际问题常常使获得均匀和相似的样本变得困难。例如，样本可能涉及不同年龄的个体，并且可能必须在一周的不同天采集。每个人都有很多不同之处，不同的日子会产生不同的影响。可以很正确地说，样本不同是因为各种效应总是存在，每一种效应都会产生差异。换句话说，无论我们的目标是如何获得同质样本，我们最终都会产生多重效应。在过去，当分析涉及冗长的程序时，这是一件麻烦事。现在，随着提供快速和更通用处理的计算机软件包的出现，多变量数据分析被认为是一个很大的优势，并在许多领域取代了我刚才描述的简单方法。

快速计算机处理的可用性带来了其他的特点。一个是越来越多的新方法出现。新方法在处理过程中带来了更大的复杂性，但是在理解所涉及的细节方面有更大的困难，并且在它们对特定情况的适用性上有争议。容易处理的一个伴随的缺点是，它变得容易搜索任何可能的关系，似乎是由数据暗示的。正如我以前指出的，如果寻找足够多的相关性，就会发现一些虚假的相关性，这仅仅是因为决定显著性的概率。应该在检查数据之前定义所寻求的关系。

第四章提到了许多组织拥有的大型数据库。数据是未知有用关系的潜在来源；复杂的计算机密集型程序被用来提取这些关系。这个过程被称为数据挖掘，开发和应用这种方法的进展已经将数据挖掘本身提升为一个重要的课题。在某种程度上，这与我上面所说的相矛盾，即在搜索数据之前，需要定义可能的关系。这个问题将在第七部分进一步讨论。

计算机处理的一个缺点是失去了处理的可视性。数据被输入程序，结果很快显示出来。在这一章中，试图详细说明数据的处理是没有意义的。对你更有用的将是各种方法的适当性的指南，每种方法做什么的概要，以及解释结果的指南。计算机化程序的另一个缺点是，任何人——即使是对方法、限制和正确解释缺乏了解的人——都可以进行分析并得出结论。

对大样本的需求已经被多次提及。这里，因为涉及许多不同的效应，所以相对于每个感兴趣的效应，样本需要很大。不过，请注意，太大的样本可能会导致大量的影响被发现是重要的，但几乎没有实际用途或意义。在示例中，每个特征都是真实的。样本越大，有意义的变量就越多。最终，随着样本量接近总人口，每个数据的每个特征都变得重要，并反映了人口中每个特征都是真实的这一事实。

你之前已经看到了因变量和自变量之间的区别。因变量是我们观察而不是控制的变量，或者是我们试图预测的变量。自变量是我们固定的或由环境为我们固定的变量。因此，如果我们希望了解疾病如何随年龄变化，疾病是因变量，年龄是自变量。显然，疾病取决于年龄，而年龄不取决于疾病。这两种变量之间的区别对于选择合适的多变量分析方法很重要。

以前，在介绍各种技术时，我们将数字数据与描述性数据分开。当我们处理多元数据时，这种区别就变得模糊了。在同一个关系中，我们可能既有数字数据，也有描述性数据。此外，在某些方法中，我们可以通过使用虚拟变量来用数字表示描述性数据。虚拟变量是代表描述性变量的数字代码。例如，如果我们将男性或女性作为变量之一，男性可以编码为 0，女性编码为 1。对于三个级别的描述，编码可以是 0、1 和 2，依此类推。以下章节中描述的各种方法通常按照从数字到描述的顺序排列；但是正如你将看到的，有相当多的重叠。

多次回归

如果有一个因变量和几个自变量，可以使用多元回归。例如，我们可能希望知道一个人在买车时通常要付多少钱，与这个人的年龄、收入和储蓄有关。原理和简单线性回归中的一样(第十四章)。观察值和预测值之间的差的平方被最小化。换句话说，分析是根据方差进行的。

使用的关系形式是

y = a+bx₁+CX₂+dx₃+，

其中 y 为因变量(即上例中汽车的成本)，x ₁ ，x ₂ ，x ₃ ，....是自变量(年龄、收入和储蓄等。).字母 a，b，c，d，....表示常数，分析的目的是确定这些常数的最佳值。方程的形式是线性的-换句话说，y 值相对于 x 值之一绘制，其他 x 值保持不变，将产生一条直线。

然而，这并不意味着不能适应曲率。如果数据表明，随着储蓄的增加，储蓄的增加会产生越来越大的影响，我们可以在线性方程中加入 x ₃ ² ，即储蓄的平方。等式将会是

y = a+bx+CX₂+dx₃+ex₃²

数据可能暗示其他非线性关系，变量的变换可用于适当地修改方程。例如，通过将 x ₂ 数据值转换为 1/x ₂ ，c(1/x ₂ 可能会取代 cx ₂ 。如有必要，因变量 y 也可以转换。该方程还可以包含变量之间可能的相互作用。例如，我们可能决定包含一个 f 项(x ₁ x ₃ )来考虑年龄和储蓄之间的相互作用。换句话说，我们将考虑到储蓄对不同年龄组的影响不同的可能性。必须记住，回归方程的拟合是基于最小化转换变量的误差，而不是原始变量的误差。

当常数 a，b，c，d，…已经计算出来并且回归方程已经得到，我们需要一个方程有用性的度量。多重决定系数 R ² ，类似于我们在两个变量的简单线性回归中遇到的 r ² 。R ² 以类似的方式表示 y 的变化的比例，这由等式说明。R ² 的值越接近 1，方程就越符合数据。然而，请注意，尽管这个等式可能有用，但它可能不是最好的。可能变量的不同选择或变量的不同变换会给出更有用的方程。

还要注意，随着包含更多变量，R ² 的值将接近 1。事实上，当变量的数量等于数据的数量时，R ² = 1。随着样本量的增加，R ² 也会增加。R ² 的调整值，即调整后的决定系数，补偿了样本大小和变量数量的增加，通常在计算机软件包提供的结果中引用。

除非样本由总体构成，否则有必要建立用回归方程代表总体的可靠性。第十章中描述的方差比检验或 f 检验可用于在适当的显著性水平上检验 R ² 是否不为零，换句话说，是否存在显著关系。此外，回归方程中的每个常数 b，c，d，…可以用 Student 的 t-test 来检验，以确定它是否与零有显著差异以及差异的显著性水平。一个与零没有显著差异的常数表明相关的变量可以去掉而不影响相关性的有效性。

虽然因变量必须是数值型的，但描述性变量可以通过使用虚拟变量包含在多元回归分析中。一种称为典型相关的技术将多元回归的原理扩展到处理几个数值因变量和几个数值自变量。通过使用虚拟变量，该技术可以扩展到处理几个描述性因变量和几个描述性自变量。

方差分析

您在第十章中看到了如何使用方差分析(ANOVA)来比较两个或多个样本，以确定它们是否来自同一人群。该方法可以扩展到分析受不止一种效应影响的数据。例如，假设我们有学生四个科目的测试结果。我们希望调查男孩和女孩的成绩是否有差异，以及不同科目的能力是否相关。这里我们有两个影响或因素——受试者和性别——这两个都是描述性的。这些是自变量，而因变量是数字，是测试中获得的分数。

因此，数据可能如下所示:

| | 测试中获得的分数 | | --- | --- | | | 英语 | 数学 | 历史 | 科学 | | 男孩 | 45, 52, 51,… | 66, 58, 56, … | 59, 51, 46, … | 71, 67, 60, … | | 女孩 | 70, 64, 55, … | 64, 61, 55, … | 62, 54, 43, … | 66, 62, 59, … |

对于这种类型的分析，有必要有一个数字因变量和几个描述性自变量。方差分析将允许数据中的总方差在各种方差源之间划分。在这个例子中，存在归因于学生性别的差异和归因于测试对象的差异。此外，由于这两种主要效应之间的相互作用，也存在差异。当性别对不同科目的影响不同时，就会产生互动:男生在科学方面可能比女生好，但在英语方面比女生差。分析中未包括的影响也会对总方差产生影响。这是剩余方差。

为了说明该方法，我们将概述一个具有三种效果和数据复制的示例的工作过程。

一家公司有三个工厂，每个工厂都有三台略有不同的机器，版本 1、2 和 3。在大多数日子里，机器会遭受高达 3 度的过热。该公司希望了解过热是否与机器版本或三家工厂的使用环境有关。观察每台机器的工作温度，并记录超过的温度。如果一周中的某一天是相关的，则从周一到周五的五天中进行记录。该练习在接下来的一周重复进行，以给出复制的度量。结果汇总如下:

| | 机器过热(摄氏度) | | --- | --- | | 工厂 | 子一代 | 第二子代 | 第三子代 | | 机器 | M1 | 货币供应量之二 | M3 | M1 | 货币供应量之二 | M3 | M1 | 货币供应量之二 | M3 | | 第一天 | Zero | one | Two | Zero | one | one | Two | Two | three | | 第一天 | Two | Two | three | Zero | one | Two | Zero | three | Two | | 第二天 | one | Two | three | Two | one | three | one | one | Two | | 第二天 | Two | one | one | Zero | Two | Two | Zero | three | three | | 第三天 | one | one | Zero | one | Two | one | one | one | one | | 第三天 | three | one | Two | one | one | three | one | Two | Two | | 第四天 | Two | Zero | Two | Two | Two | three | Zero | one | three | | 第四天 | Zero | three | three | Zero | Two | one | Two | Two | one | | 第五天 | Two | three | Two | Two | Zero | Two | Two | Zero | Zero | | 第五天 | three | one | three | Two | Two | three | Two | Two | three |

注意，这里的数字都是小整数。这纯粹是为了使图示简单。在实际情况下，我们希望数字由几个数字组成。

列出的 90 个值有一个差异，这是由许多因素造成的。工厂之间、机器之间以及一周中各天之间的可变性导致了总体差异。每对变量之间以及所有三个变量之间的相互作用可能有所贡献。此外，几乎可以肯定还有其他无法识别的变异来源。差异分析允许在各种因素之间分配总差异。正是方差的这种可加性使得方差分析成为一种强有力的工具。

详细地钻研算术是没有用的:计算机软件包可以完成这项工作。更有用的是对计算的解释。

上表的前三列是 F1 工厂的结果，总共 30 个。如果我们用 30 个值的平均值临时替换每个值，并对 F2 和 F3 进行同样的操作，我们将得到一组 90 个值，其方差将反映工厂之间的任何差异造成的变化。类似地，我们可以获得三组反映由于机器引起的变化的调整值和五组反映由于一周中不同日子引起的变化的调整值。注意，与方差相关联的自由度通过平均值的这种替换而减少。F 的方差只有两个自由度，因为只使用了三个平均值，尽管事实上有九十个数据。

可以进一步细分总体差异。共有 9 组数据，包括因工厂和机器而产生的变化。这是表中的 9 列。通过再次用集合中的平均值替换集合中的每个值，可以计算方差。除去已经获得的工厂和机器的分离效应，我们只剩下一个关于工厂和机器之间相互作用的变量。也就是说，相应机器的行为在某种程度上取决于它位于哪个工厂。

有 15 组数据包含因机器和日期而产生的变化，还有 15 组数据包含因日期和工厂而产生的变化。有 45 组数据，尽管每组只有 2 个值，包括工厂、机器和日期的变化；最后，还有一个完整的 90 个值的集合，它还包括由于其他因素和随机影响而产生的变化。每组值又可以通过用该组的平均值替换每个成员值来临时修改，并且方差可以通过去除单因素影响来调整，留下归因于交互的方差。

我必须补充一点，这并不是一个人实际进行计算的方式——因为你可能会使用一个计算机软件包——但这是一种观察实际正在做什么的方式。

所有这些的结果可以如下所示:

| 变异的来源 | 变化 | 自由度 | | --- | --- | --- | | 工厂，F | Zero point four one | Two | | 机器，M | Five point three four | Two | | 星期几，D | Zero point six four | four | | 交互 F-M | Zero point four five | 4 (2x2) | | 交互 M-D | One point zero eight | 8 (2x4) | | 互动 D-F | Zero point seven three | 8 辆(4x2) | | 交互 F-M-D | Zero point two nine | 16 (2x2x4) | | 剩余 | One point one two | 45 (89–16–8–8–4–4–2–2) | | | 总数 | eighty-nine |

剩余方差是在没有任何由特定工厂、特定机器或一周中的特定日子引起的影响的情况下观察到的变化的度量。换句话说，随机或未知的影响正在产生如此大的差异。因此，我们可以检验其他方差是否明显大于剩余方差。要使用的检验是方差比检验，即 f 检验。在上面的例子中，只有一个方差大于剩余方差:机器引起的方差。所以，这是唯一一个需要测试的。方差比为 5.34/1.12 = 4.77，发现在 5%水平上显著。F 统计表格的相关摘录如下所示:

| 显著性水平 5% | 较小方差的自由度 | 较大方差的自由度 | | --- | --- | --- | | | | one | Two | three | | | Thirty | Four point one seven | Three point three two | Two point nine two | | | Forty | Four point zero eight | Three point two three | Two point eight four | | | Sixty | Four | Three point one five | Two point seven six |

因此，我们可以得出结论，机器之间的差异可能是一个真实的影响。我们还可以得出结论，没有明显的证据表明一个工厂比另一个工厂更容易过热，也没有证据表明过热与一周中的某一天有关。

关于相互作用，还需要提到另外两点。首先，如果一个交互作用被发现是显著的，那么交互作用中的主要因素就不能被检验。这种情况需要进一步调查。第二，如果交互作用不显著，那么它们的方差是剩余方差的附加度量。因此，它们可以与剩余方差合并。

通过汇集一些不显著的方差，我们可以进一步理解方差分析的多面性。将 D、M-D、D-F、F-M-D 和残差方差合并后，修正残差方差的值为 0.89。现在结果如下所示:

| 变异的来源 | 变化 | 自由度 | | --- | --- | --- | | 工厂，F | Zero point four one | Two | | 机器，M | Five point three four | Two | | 交互 F-M | Zero point four five | 4 (2x2) | | 剩余 | Zero point eight nine | 81 (89–4–2–2) | | | 总数 | eighty-nine |

这里感兴趣的一点是，如果我们在一开始就决定一周中的某一天不太可能对结果有任何影响，我们可以将不同天获得的值视为重复。因此，我们将有 9 个工厂和机器的组合，每个组合有 10 个数据。分析是根据两个主要效应 F 和 M 以及一个交互作用 F–M 进行的。结果将完全如上图所示，残差方差为 0.89。

通过绘制一些图表来显示机器过热示例的结果是很有用的。在图 16-1 中可以看到机器类型的显著影响，其中每台机器的平均过热温度与机器编号相对应。两个不重要的主要影响的类似图表也显示出来。这些图没有理由一定要有特殊的形状:任何明显偏离水平线的现象都可能表明有显著的影响。

图 16-1。

Comparison of overheating of different machines in different factories on different days

拉丁和希腊-拉丁方块

方差分析的一个版本使用拉丁方或 Graeco-Latin 方，通常用于农业实验。例如，如果用作物产量来比较肥料，那么用于研究的土地的肥力就有可能因地而异。显然，不可能在同一时间同一地点测试所有的肥料:每一种肥料都在肥力不同的地方测试。

在拉丁方排列中，矩形测试区域被分成更小的地块，形成行和列的网格。每种肥料每行使用一次，每列使用一次。因此，如果我们有四种不同的肥料，命名为 A、B、C 和 D，其排列如下:

| 列 | | --- | | 行 | A | B | C | D | | B | C | D | A | | C | D | A | B | | D | A | B | C |

这对应于 16 个作物产量数据，处理 A、B、C 和 d 各 4 个。作物产量为因变量，肥料品牌和土壤肥力为自变量。差异分析可安排如下:

| 变异的来源 | 变化 | 自由度 | | --- | --- | --- | | 行 | XXX | three | | 列 | XXX | three | | 肥料 | XXX | three | | 剩余 | XXX | six | | 总数 | | Fifteen |

行和列的变化反映了整个实验区土壤特性的变化。请注意，没有列出交互的差异。这是拉丁方设计的结果。给定肥力的一块地只施一种肥料，可大大节省所需的地块数量。肥料和土壤肥力的实际组合数是 4 x16 = 64。使用 64 块地是不可行的:除了需要更大的试验面积和额外的费用之外，由于试验面积的增加，土壤肥力也会有额外的变化。

一个额外的效果可以通过使用如下所示的希腊拉丁方块来实现。和之前一样，拉丁字母 A 到 D 代表四种处理方法，希腊字母α到δ代表第二种处理方法——杀虫剂:

| 列 | | --- | | 行 | A δ | B γ | C β型 | D α型 | | b 型血 | 一个α | D δ | C γ | | C a | D β | 一个γ | B δ | | D γ | C δ | A B | A β |

在拉丁方块中，每种肥料在每行和每列中只使用一次。此外，每种农药每种肥料只使用一次。可以设置不同大小的正方形，但是对于边长为 6 的正方形，这种排列是不可能的。

虽然描述是根据农业实验进行的，因为这是实际应用的主要领域，但是正方形也可以用于其他地方。当出于成本、时间或可访问性的原因，必须将观察次数保持在最低限度时，它们特别有用。

医学研究通常属于这一类。如果需要研究一种疾病的四种不同治疗方法，可以选择四个合适的患者。假设需要一个月的时间来评估每种治疗的效果。上面显示的拉丁方块中的列是四个治疗，行是连续的四个月。字母 A、B、C 和 D 代表四个病人。在一个月结束时，所有四种治疗都将被测试；四个月后，将会有 16 组数据代表每个病人每次治疗的结果。

从这个医学例子中可以看出，拉丁方是一种非常有效的研究方法，特别是当主要效应之间的相互作用被认为不太可能时。如果存在明显的相互作用，其效果将是增加剩余方差，并使验证处理之间的任何显著差异变得更加困难。

可以通过删除一行或一列来修改拉丁方。由此产生的矩形排列被称为尤登广场。

TIRE TRIALS

作为 ZIP Deliveries 的首席会计，Mark Groves 一直在寻找削减开支的方法。该公司经营包裹递送服务，拥有大约 40 辆货车。这个领域竞争非常激烈，成本非常重要。

车辆轮胎的成本相当可观，这也是马克目前正在考虑的。目前，该公司正在购买一种廉价品牌的轮胎，但也许使用一种更贵的品牌会有所回报，从而获得更长的使用寿命。

其他三个品牌也很容易买到，马克提出了一个实验，将它们与目前使用的品牌进行比较。他想到了一种拉丁式的正方形排列。四辆货车将安装新轮胎，每辆货车都有不同的品牌。这四辆货车，每辆都有固定的司机，将构成一个 4 × 4 的拉丁正方形。四条日常路线，每一条都有相似的距离，但是，当然，不同的路况，将构成广场的行。

在实验中，每辆货车将在每条指定路线上行驶一个月。轮胎磨损将由车库维护小组通过测量胎面深度来记录。

拉丁方排列确保了四个不同车手的影响和四条不同路线的影响将与不同品牌轮胎的影响分开。

实验获得批准后，马克拿起一个标准的 4 × 4 拉丁方块，将列随机排列，将行随机排列，并将四个品牌分配给字母方块 A、B、C 和 d。这为四辆货车提供了路线表，试验继续进行。

试用期结束时，马克分析了结果。他发现货车造成的差异并不显著。由于路线造成的差异在 5%的水平上是显著的，这可能并不太令人惊讶。重要的是，轮胎品牌的差异非常显著，在 5%的范围内。因此，不同品牌之间的差异可以被认为是真实的。

对于每个品牌，Mark 使用轮胎磨损值和成本来计算哪个品牌最划算。结果发现这是其中一个比较贵的，所以这次练习没有浪费时间，这让马克松了一口气。决定轮胎合同也要做相应的修改，这一天剩下的时间里，马克脸上都带着微笑。

多维列联表

你在第十五章中看到了如何通过列联表来比较两个描述性变量之间的关联。如果我们有两个以上的变量，我们实际上有一个三维或更多维的表。当然，这样的表格可以被布置成几个二维表格；但是为了解释如何进行，通过尝试给出三维的透视图来强调情况的多维性质是有用的。这已经在图 16-2 中完成。

三个自变量是出生地、头发颜色和眼睛颜色，因变量是病例数。任务再次是基于变量没有显著影响的假设，用期望值临时替换实际采样值。换句话说，这些值与从每个类别的总体比例中获得的值没有显著差异。然而，与只有两个变量的情况不同，没有唯一的期望值。确定最佳期望值需要判断。

图 16-2。

A three-way contingency table

为了找出问题所在，考虑从图 16-2 中提取的蓝眼睛表格。预期值如下:

| 期望值 | | --- | | 蓝色的眼睛 | 头发 | 头发 | 总数 | | | 褐色的 | 黑色 | | | 英格兰 | Seven point six | Three point four | Eleven | | 苏格兰 | Three point four | one point six | five | | 总数 | Eleven | five | Sixteen |

比如 7.6/11 = 3.4/5 = 11/16。

如果我们现在从上方俯视我们的三维表，顶层如下所示:

| 英格兰 | 头发 | 头发 | 总数 | | --- | --- | --- | --- | | | 褐色的 | 黑色 | | | 眼睛棕色 | three | one | four | | 蓝色的眼睛 | nine | Two | Eleven | | 总数 | Twelve | three | Fifteen |

如果我们计算期望值，我们得到如下结果:

| 期望值 | | --- | | 英格兰 | 头发 | 头发 | 总数 | | | 褐色的 | 黑色 | | | 眼睛棕色 | Three point two | Zero point eight | four | | 蓝色的眼睛 | Eight point eight | Two point two | Eleven | | 总数 | Twelve | three | Fifteen |

比如 3.2/12 = 0.8/3 = 4/15。

我们对英格兰——棕色头发——蓝色眼睛——的期望值现在是 8.8，而我们第一次计算的期望值是 7.6。原因当然是如果排除了棕色眼睛，第一个值是预期的，如果排除了苏格兰，第二个值是预期的。同样的问题也出现在出生地、头发颜色和眼睛颜色的八种组合中。

在这些情况下用于解决问题的分析称为对数线性分析。这是一个冗长的迭代过程，需要反复估计期望值，因此需要大量的计算机。标题中的“对数”指的是数值的对数用于在处理中给出附加属性的事实。该技术类似于前面显示的方差分析，用于处理涉及多个变量的数值数据。你可以看到，不仅每个变量有主效应，而且每对变量，每组变量都有交互作用，等等。您还看到了方差的使用允许我们划分主要效应和交互作用之间的可变性。

我们的多维列联表也有类似的情况。这里的相互作用意味着，例如，出生地和头发颜色对眼睛颜色的影响，一起作用，并不等同于单独作用的效果的总和。这个过程涉及到判断的因素。自上而下的方法将基于三个主要影响来估计最佳期望值。如果残差变异性太大，如其显著性水平所示，则二阶相互作用将被包括在内，依此类推。在这个例子中，涉及所有三个变量的三阶交互作用不能被处理，因为它们被采样时的值可能是期望值。如果我们有一个重复的样本，三阶相互作用可以从残差变异中分离出来。“方差分析”一节中给出的例子涉及一个重复样本，并允许这种分离。

另一种处理方向是自下而上。从包括所有主要效应和相互作用开始，检查最高级相互作用的重要性。如果这些相互作用不显著，则从估计期望值的活动中去除。这种情况会持续下去，直到剩下的影响只有可接受的显著性水平。

对数线性分析的一种变体是 logit 分析。这允许使用非数字的因变量，但可以采用两个描述性标签中的一个:例如，男性或女性。男性(或女性)的比例限制在 0 到 1 之间。logit 或 log odds 函数将比例转换为一个从负无穷大到正无穷大的无限范围的值。

多元方差分析

方差分析(ANOVA)的扩展是多变量方差分析(MANOVA)。你看到方差分析能够处理多种效应，但只有当我们有一个因变量和几个自变量时。在多元方差分析中，我们能够处理几个因变量。

举个例子，假设要比较两个超市的烘焙部。涉及三种不同的产品:面包、小圆面包和蛋糕。比较所基于的两个相关数字变量是利润和客户满意度。因此，变量如下:

| | 超级市场 | 超级市场 | | --- | --- | --- | | | 大块烤过的食物 | 小圆面包 | 蛋糕 | 大块烤过的食物 | 小圆面包 | 蛋糕 | | 利润 | xxx | xxx | xxx | xxx | xxx | xxx | | 满意 | xxx | xxx | xxx | xxx | xxx | xxx |

对于每个变量的每个级别，都将有一个数据样本，用上面的 xxx 表示。随着数据组数量的增加，对大样本量的需求也在增加。每个组的大小必须大于变量的数量，并且应该至少有大约 20 个数据。

在方差分析中，方差的分割产生方差比 F 的值，该值可用于评估每个自变量对因变量的影响。在多变量分析中，我们使用相应的统计量来评估对每个因变量的每个影响。有许多可能的统计数据:威尔克斯的λ、霍特林-劳里迹、皮莱-巴特利特迹和罗伊的最大根。像在方差分析中一样，首先检验交互作用的影响。如果发现交互作用不显著，那么可以对每个组成变量进行显著性检验。

处理是复杂的，并可能涉及额外的程序，以确保结果的可靠性:因此需要一个合适的计算机软件包。关于数据的基本统计假设也可能需要检查。对结果的解释需要相当小心。因为有许多潜在的影响需要确定，所以测试的能力——即当关系存在时检测关系的能力——可能很低。为了确保足够大的能力来识别小的影响，所需的样本量可能非常大。

联合分析

联合分析用于调查顾客对产品或服务的评价。它与其他技术的不同之处在于，研究者在一开始就设定了代表产品真实或假设版本的特征组合。这些是独立变量。因此，被抽样的消费者只是对这些组合进行排名，而不是根据他们回答的性质来创造变量。例如，除臭剂可以制成滚涂型、泵喷型或气溶胶型，每种装在三种颜色的容器中，每种装在两种尺寸的容器中。这将给出总共 18 种可能的组合。三个独立变量——形状、颜色和大小——是描述性的，而因变量是由排列顺序记录的每个组合的偏好。

从每个抽样消费者提供的排名中，可以评估每个因素的部分价值，并考虑交互作用的影响。没有必要向每个回答者展示所有的组合:可以选择一个来提供评估数据。大多数其他方法没有的一个特点是，可以对单个受访者进行评估。来自几个回答者的结果可以被汇总，以提供对产品或潜在产品的单独属性的总体评估。

邻近地图

描述性变量之间的关联可以通过地图直观地呈现，在地图上，两个项目之间的关联程度用它们之间的距离来表示。更紧密的间距表示关联程度更高。当然，二维或三维地图可以显示为图表，但如果涉及三维以上的空间，则只能从视觉上欣赏地图的“切片”。

对应分析就是这样一种方法。数据用列联表表示，如第十五章和本章“多维列联表”一节所述。分析遵循我们为多路列联表描述的程序，在无关联的基础上获得每个单元格的期望值。每个实际值和期望值之间的差异被表示为卡方统计值，这提供了一种关联度量。然后计算与卡方值相关的映射距离:值越大，距离越小。

为了以简单的方式说明这种方法，我们可以使用第十五章中的双向列联表，将头发的颜色与出生地联系起来。此处重复了该表:

| 观察到的数字 | | | | | | --- | --- | --- | --- | --- | | | 毛色 | | 出生地 | 褐色的 | 黑色 | 金黄色的 | 总数 | | 英格兰 | Eleven | Two | four | Seventeen | | 苏格兰 | five | eight | Zero | Thirteen | | 威尔士 | four | five | one | Ten | | 总数 | Twenty | Fifteen | five | Forty |

在没有关联的基础上，预期数字计算如下:

| 预期数字 | | | | | | --- | --- | --- | --- | --- | | | 毛色 | | 出生地 | 褐色的 | 黑色 | 金黄色的 | 总数 | | 英格兰 | Eight point five | Six point three eight | Two point one three | Seventeen | | 苏格兰 | Six point five | Four point eight eight | One point six three | Thirteen | | 威尔士 | Five | Three point seven five | One point two five | Ten | | 总数 | Twenty | Fifteen | five | Forty |

统计卡方等于预期值和观察值之差的平方除以预期值。对表中的每个单元格进行计算，如下所示。(当观察值小于期望值时，负值在计算卡方总数时被视为正值。)

| 毛色 | | --- | | 出生地 | 褐色的 | 黑色 | 金黄色的 | 总数 | | 英格兰 | Zero point seven four | 3.00(负数) | One point six five | Five point three nine | | 苏格兰 | 0.35(负数) | Two | 1.63(负数) | Three point nine seven | | 威尔士 | 0.20(负数) | Zero point four two | 0.05(负数) | Zero point six seven | | 总数 | One point two eight | Five point four two | Three point three three | Ten point zero three |

这些值为每对变量水平提供了相似性的度量，最大的值代表最大的正关联。负值代表负面联想。(可能需要注意的是，第十五章中的使用了上述卡方值之和 10.03，以表明发色和出生地之间存在显著关系。)

| 类似 | | | | | --- | --- | --- | --- | | | 毛色 | | 出生地 | 褐色的 | 黑色 | 金黄色的 | | 英格兰 | +0.74 | –3.00 | +1.65 | | 苏格兰 | –0.35 | +2.00 | –1.63 | | 威尔士 | –0.20 | +0.42 | –0.05 |

我们可以使用相似性值来制作地图。九个值中的每一个都提供了一个距离，用于分隔一对可变级别:值越大，距离越小。图 16-3 显示了一个大致的布置。苏格兰黑人排名第一，差距最小，而英格兰黑人排名垫底，差距最大。地图显示了不同程度的关联。棕色和金色的头发与英国人联系紧密，而黑色的头发与威尔士人和苏格兰人联系更紧密。你会意识到分离不可能完全符合要求:必须有一个折衷方案来将变量组合在一起。在实际应用中，计算机软件包会应用迭代过程来优化拟合。

图 16-3。

A map showing association between hair color and place of birth

可以使用的最大维度数比任一变量的最少级别数少 1:在本例中为 2。一个现实的研究可能有更多的变量，每个变量有更多的层次，因此一个地图有更多的维度。为了获得提供一致布置的最佳距离组，则需要冗长的迭代过程，并且只有在计算机程序的帮助下才是可行的。

多维标度类似于对应分析，使用多维图来揭示关联。它的不同之处在于变量在开始时没有被定义；它更多的是从样本数据的分析中建立潜在的变量。该技术将实体之间的相似性或偏好表示为它们在地图上的距离。例如，为了提供一个样本，每个志愿者可以一次比较六种谷类早餐。比方说，这种比较可以在 1 到 10 的范围内。六个项目产生 15 对用于比较；并且为了以一致的方式映射项目，关于正确的相对分离，映射可能需要几个维度。在最小化维数的同时优化映射位置的过程需要判断和重复计算。

所得到的地图尺寸提供了关于潜在特征的信息，这些信息促进了所记录的感知。这可能是因为甜度似乎存在于一个维度，而“脆度”则存在于另一个维度。应当理解，在解释中需要相当多的判断。该方法的一个特点是每个回答者提供一个可以单独分析的样本。当然，可以将单个分析汇总起来。

结构方程建模

在迄今为止所讨论的处理多重效应的方法中，一直存在着因变量和自变量之间只有一种关系的局限性。有时需要同时建立几个相互关联的关系。当寻求这种关系的理论的确认时，可以使用结构方程模型，但是在探索阶段它是没有用的。

建立了一个基于理论判断的模型，该模型由通过(假设的)因果关系连接的多个变量组成。因此，如果我们关心一所学校的声誉，例如，我们可以提出考试的成功(a)取决于学生的能力(b)和教学质量(c)。教学质量取决于聘用教师的质量(d)和可用资源的质量(e)。受聘教师的质量取决于考试成绩和地点(f)。学生的能力取决于可用的资源和位置。在符号中，我们有

a = w ₁ b + w ₂ c

c = w ₃ d + w ₄ e

d = w ₅ a + w ₆ f

b = w ₇ e + w ₈ f

其中 w ₁ … w ₈ 是考虑不同程度影响的权重。实际上，我们有一些类似于一组相互关联的多元回归方程。

处理是复杂的并且不是唯一的。它涉及到路径分析，与因子分析和回归有关。该方法具有包含潜在变量的能力，这些潜在变量不是直接测量的，而是从测量变量中显现出来的。为了获得满意的结果，在建立初始模型、建立可接受的拟合优度以及解释和修改模型时需要非常小心。

关联:一些进一步的方法

一些实际情况，如上一节中关于学校声誉的例子，涉及的变量不仅是描述性的，而且是主观的，难以精确定义。变量采用的水平也可能是主观的，难以界定。此外，可能有许多这样的感兴趣的变量。这种情况出现在市场营销和产品开发中。发刷可以在尺寸、形状、颜色、手柄形状、手柄手感等方面有所不同。顾客对牙刷的评价可能包括使用的舒适性、刷牙的有效性、美学吸引力等等。在社会学或心理学研究中，态度和观点可以在两个极端之间变化，没有明确的方法来衡量两者之间的价值。友好、幸运、雄心、痛苦、快乐等等的程度很难衡量。

有一些方法可以通过识别显著的相似性来帮助减少变量及其水平。这些方法中有许多是相互依赖的方法，因为在因变量和自变量之间没有区别。所涉及的数学通常很复杂，需要相当多的背景知识。此外，适当程序的规划和结果的解释需要谨慎。

因子分析是一种分析大量变量之间关系的方法，目的是用较少的因子来表示数据。所有的变量都被平等对待:自变量和因变量之间没有区别。例如，我们可以考虑客户对牙科诊所的各种评价，如预约的难易程度(a)、合适时间段的可用性(b)、在候诊室花费的时间(c)、工作人员的友好程度(d)、工作人员的效率(e)、治疗质量(f)等等。比如说，每项评估都是数字的，从 1 到 10 分不等。将确定每对变量之间的相关性，列出的六个变量产生 15 个相关性。从这些数据中，可以找到变量的最佳分组，使组内方差最小，组间方差最大。例如，可以确定的是，上例中的三组(a)-(b)-(c)、(d)-(e)和(f)足以提供所需的评估。类似的方法是主成分分析。

聚类分析类似于因子分析，但用于对实体而不是变量进行分组。这些实体在显示相似的属性方面彼此相似。集群的特征不是一开始就确定的，而是在过程中出现的。人们可以根据他们的个人特征或特点来分组。这个过程同样适用于所有种类的东西，例如汽车、鸟或帽子。

在多重判别分析中，定义了组，并且该过程在适当的组中定位项目，同时最大化正确定位的概率。该技术处理一个描述性因变量和几个数字自变量。例如，该技术可以用于根据几个数字指定的特征来区分潜在客户和不太可能的客户。

这种处理多元数据的方法的简要概述决不是详尽无遗的。能够以令人难以置信的高速执行迭代程序的计算机的出现，给了统计学家使用和发展越来越复杂的方法的手段。