从数据统计分析中做出更好的商业决策来取得职业成功-二-从数据统计分析中做出更好的商业决策来取得职业成功（二）十七、推断

从数据统计分析中做出更好的商业决策来取得职业成功（二）

原文：Better Business Decisions from Data Statistical Analysis for Professional Success

协议：CC BY-NC-SA 4.0

十七、推断

Malthus Got It Wrong

托马斯·马尔萨斯，英国牧师、经济学家和统计学家，以其人口增长理论而闻名。他在 1798 年关于人口原理的文章中写道，由于人口以几何级数增长(1，2，4，8，…)而食物以算术级数增长(1，2，3，4，…)，人口最终会超过食物供应。他警告人类会过早死亡。只有通过流行病、瘟疫、瘟疫、饥荒和预防措施才能防止灾难的发生。他在这个问题上的大量著作引发了马尔萨斯学说。

这种学说是基于一种推断；因为它是很久以前提出的，我们可以看到它是不合理的。这是相关的在目前为我们提供了一个突出的例子外推的危险。

没有人知道明天会发生什么。没有人能确定地预测未来。当然，有些事件我们可以相当肯定:没有人怀疑明天太阳会升起，但这不是那种要求统计学给出判断的事件。统计学是基于对过去的观察和测量，但统计学的目的，除了提供有趣的历史事实外，是试图预测未来。每个向供应商订购商品的店主都沉迷于预测。他怎么能确定明天会有多少顾客？

在超级百万彩票中，每个号码都有均等的机会被抽中。虽然有些人可能会有疑问，但大多数人会接受这是真的。尽管有这些潜在的知识，许多人认为一定程度的预测是可能的。他们认为每个数字最终会出现相同的次数。事实上，每个数字被抽中完全相同次数的概率很小，尽管每个数字出现的次数很可能大致相同。比如说，如果 23 号在出场次数上落后，一些预测者得出结论，23 号现在有更大的机会被抽到。其他人可能持更愤世嫉俗的观点，他们认为 23 出现频率下降肯定有原因，并得出结论认为这一趋势可能会持续下去。我正好有一个硬币，我扔了五次，它给了五个头。有人想买吗？下一次它可能会赢一大笔钱！然而，我们的两组预测者对于下一次投掷的结果是正面还是反面意见不一。

单靠统计数据无法提供可靠的预测。常识和判断是需要的，但这两者都包含一定程度的主观性。客观是最理想的要求，统计数据有助于提供客观的分析。仅仅基于主观判断的预测可能是无用的，甚至是灾难性的。博彩业之所以繁荣，是因为人们通常不太擅长预测。假设一个成功的骑师在过去的四场比赛中没有赢过。因此，一些人可能会预测他会在下一场比赛中获胜。其他人会提出另一种观点，即他目前糟糕的表现可能会持续下去。这种情况在商界也有相似之处。如果今天的客户数量异常低，这是否允许我们说明天将带来额外的客户以保持平均水平，或者它是否允许我们认为这种趋势将继续下去并产生更少的客户？

预测是一项重要的活动，尽管有困难和陷阱，但我们必须接受预测会一直伴随着我们。预测未来只能基于对过去和现在的了解。为了使用现有数据来预测未来相应的数据，我们必须在某种程度上使用外推法。这在一开始就造成了严重的问题。我们永远无法确定同样的情况在未来是否会存在，因此我们永远无法确定我们的预测是否可靠。从严格的数学观点来看，我们不应该超出获得数据的范围来推断数据。因此，如果我们观察到我们镇的人口在过去 10 年中平均每年增长 1，000 人，我们就没有理由推断下一个 10 年将再增加 10，000 人。当然，我们可能认为通融一下规则是合理的，并假定明年将增加大约 1000 人，推断的程度相对较小。

我们可以区分不同程度的外推，以便对我们遇到的外推的合理性做出判断。从一个简单的情况开始，如果两个变量之间存在完美的相关性，我们预计外推不会有问题。如果我们知道一公斤糖所占的体积，我们就可以可靠地预测储存 1000 公斤糖所需的空间。如果我们知道 1 可以换成 2 美元，我们就可以肯定地预测 100 美元能换来多少美元。

当一个完善的科学定律涉及到许多变量时，就有可能做出可靠的预测。例如，卫星绕地球运行的速度与其在地球上方的高度有关。如果没有从这种关系中预测的能力，技术不可能以现在的方式发展。当然，即使是用得好的关系也有实际的局限性。弹簧的伸长与施加在它上面的重量成正比，但是如果它被过度拉伸，这种关系就会改变。

许多定律不是基于基本的物理原理，而是经验性的，可能有复杂多变的原因。例如，供求定律可以从实验和理论上得到证明，但并不总是适用。特殊情况可能会出现，打乱预期。

十八、根据已知分布来预测

Why Does the Phone Never Stop Ringing?

在前几章中，正态分布占有突出的地位，因为人们发现它能恰当地描述在许多情况下获得的数据。如果事先有充分的理由相信正态分布将适用，那么就可以对未来的观测进行预测。许多其他分布被发现适用于某些情况，并且，以类似的方式，这些可以提供对未来结果的有用估计。本章描述了几种常用的分布，并举例说明了它们在预测中的应用。

均匀分布

根据均匀分布进行预测是一个简单的过程，但是有必要简要地考虑一下其中的步骤。从投掷公平骰子获得的分数遵循均匀分布。从 1 到 6 的每个分数都有相等的发生概率。图 18-1 显示了分布情况。分布中的总面积为 1.0。如果我们想知道得到 1 或 2 的概率是多少，我们把这两个块的面积相加。因此概率是 1/6 + 1/6 = 1/3。

图 18-1。

A uniform distribution

这非常简单，但它确实让我们很好地了解了当我们考虑非均匀分布时会发生什么。

正态分布

您已经看到，正态分布是一个连续的对称分布，中心峰值位于平均值处。标准正态分布的中心均值位于零；控制分布宽度的标准偏差的值为 1。您还看到，分布描述了许多真实情况下的数据分布，在这些情况下，有一个驱动因素会使所有数据呈现相同，但来自不同且通常未知来源的随机误差会造成数据分布。

人们的身高和他们的其他身体尺寸——如臂长、腿长等——应该是正态分布的。服装制造商和零售商需要关于不同尺码服装未来需求的信息。例如，如果从过去的记录中知道陆军新兵的平均身高和标准偏差，就有可能预测未来可能的情况，并确保有合适尺寸的制服。

假设新兵平均身高 174 cm，标准差 7 cm。我们想知道身高在 180 cm 到 184 cm 之间的新兵的比例。这代表正态分布上的一个垂直带(图 18-2 )，该带的面积表示遇到这些极限之间的值的概率。我们必须将我们的值转换成标准值，这样我们就可以使用公布的正态分布表，我们通过计算 Z 分数来完成这项工作，正如我们在第十章中所做的那样。对于我们的每个极限，180 cm 和 184 cm，Z 等于极限和平均值之差，除以标准差。对于 180 cm，Z 为 0.857；而对于 184 cm，Z 为 1.43。实际上，Z 分数用平均值的标准差数来表示每个极限值。

参考表格中的 Z，给出了所需的面积(即概率),从两个极限值得出的两个面积之差，给出了新招募人员的比例。计算结果如图 18-2 所示，给出的结果是 12%的新兵预计在我们选定的范围内。利用图 7-9 可以更容易地得到一个近似值。输入 A = 0.9(对于 0.857 的 Z)和 B = 1.4(对于 1.43 的 Z)给出 10%的概率，这大约是正确的。

图 18-2。

Use of the normal distribution to predict the proportion of army recruits within a height range

二项分布

第十一章中的描述了二项分布。在这里，我们将回顾它的特点，并展示它可能如何用于预测。该分布描述了当只有两种可能的结果时观察到特定事件的概率。因此，如果我们对一个问题有一系列是或否的答案，在已知总体中是(或否)答案的平均数量的情况下，分布描述了是(或否)答案的预期数量。如果我们投掷硬币多次，分布显示获得一定数量正面或反面的概率。

如果人口比例从理论上是已知的(如在我们掷硬币的例子中),或者是从以前获得的大样本中估计出来的，我们可以用它来预测随后样本的特征。如果样本很大，二项式分布可以近似为正态分布，我们可以像上一节一样继续。对于 Z 得分，我们取样本比例和总体比例之差，然后除以标准差。二项式分布的标准差是方差的平方根，方差是 NP(1–p ),如前所述，其中 n 是样本中的数据数量，p 是总体比例。

然而，如果样本很小，并且人口比例不接近一半，则二项分布是偏斜的，如图 11-1 所示，我们必须采取不同的方法。为了说明这个过程，考虑投掷骰子几次。我们会看投出 3 的概率，所以两个可能的结果是 3 或者不是 3。当我们掷一次骰子，得到 3 的概率是 1/6，得不到 3 的概率是 5/6。图 18-3 中的树形图说明了这一点，这将有助于你评估骰子进一步投掷的结果。如果掷两次骰子，两个 3 的概率是 1/36，一个 3 的概率是 10/36，零个 3 的概率是 25/36，使得总概率为 36/36(即 1)。图 18-3 包括投掷骰子三次的结果，此外，还显示了三个阶段中每个阶段的二项式分布。以这种方式计算任意次数投掷的结果是可能的，但是计算变得冗长乏味；通常通过查阅公布的二项分布表来获得结果。

图 18-3。

Tree diagram showing the probability of obtaining a number of 3s in several throws of a die

一个实际的情况是应用道路上 5%的汽车没有注册的知识。这将从记录或大样本中获得。警察可能会考虑随机截停一些车辆，检查是否有未登记的车辆。例如，在随机抽样的 20 辆汽车中，有 1、2 或 3 辆汽车没有登记的概率，可以使用我们在投掷骰子时使用的相同程序来计算。对于 20 的样本量和 0.05 的未注册汽车比例，二项式分布表给出了以下概率。

| 累积的 | | --- | | 概率为 0 | = 0.3585 | 0 的概率= 0.3585 | | 1 或更小的概率 | = 0.7385 | 1 的概率= 0.3773 | | 2 或更小的概率 | = 0.9245 | 2 的概率= 0.1887 | | 3 或更少的概率 | = 0.9841 | 3 的概率= 0.0596 | | 4 或更少的概率 | = 0.9974 | 4 的概率= 0.0133 | | 5 或更少的概率 | = 0.9997 | 5 的概率= 0.0023 | | 6 或更少的概率 | = 1.0000 | 6 的概率= 0.0003 | | | 总计= 1.0000 |

样本中没有未注册车辆的概率为 36%，这为拟议的抽样安排提供了有用的指导。例如，可以决定应该采用更大的样本量来增加检测到至少一辆未注册汽车的概率。结果如图 18-4 所示为概率分布。注意二项式分布的表格给出了累积概率。上面最后一列显示的单个数字的概率是通过减去相邻的累积值得到的。因此，2 辆未注册汽车的概率是 2 或更少的概率和 1 或更少的概率之间的差。

我们可以问在 20 辆车的样本中，平均有多少辆车没有注册，而不是问具体数量的车没有注册的概率。这是由期望值给出的，它等于 np，其中 n 是样本中的数字(20)，p 是比例(0.05)。因此期望值是 1，这是我们一开始就能推断出来的结果。

图 18-4。

Binomial probability distribution of the number of unregistered cars in a sample of twenty

泊松分布

当我们处理在时间或空间上随机分散的事件时，泊松分布是相关的。给定时间段内的交通事故数量和足球比赛中的进球数量是时间分布的随机事件的例子。一段链条中有缺陷的链环的数量和一本书每一页上印刷错误的数量就是分布在空间中的随机事件的例子。

泊松分布总体均值的最佳估计是样本均值，总体方差的最佳估计是样本方差。令人惊讶的是，泊松分布的方差等于均值。当平均值较大时，分布接近正态分布，然后可用于预测。例如，如果我们知道总机每天接到的平均电话数量是 200 个，我们可以按照第十章中的方法计算 Z 分数。因此，我们可以确定一天接到少至 100 个电话，或多至 300 个电话的概率。

然而，如果我们关注的是较短时间内可能的变化，平均调用次数将会很少。当均值很小时，泊松分布严重偏离正态分布，变得非常偏斜。然后有必要查阅表格来获得所需的概率。例如，我们可能会对我们的电话通话感兴趣，对每五分钟内收到的电话数量感兴趣，以揭示呼叫者可能等待的程度。

假设五分钟内的平均通话次数是 2.5 次。从泊松分布的表格中，我们可以读出在五分钟内到达的各种呼叫数量的累积概率。因此:

| 累积的 | | --- | | 概率为 0 | = 0.0821 | 0 的概率= 0.0821 | | 1 或更小的概率 | = 0.2873 | 1 的概率= 0.2052 | | 2 或更小的概率 | = 0.5438 | 2 的概率= 0.2565 | | 3 或更少的概率 | = 0.7576 | 3 的概率= 0.2138 | | 4 或更少的概率 | = 0.8912 | 4 的概率= 0.1336 | | 5 或更少的概率 | = 0.9580 | 5 的概率= 0.0668 | | 6 或更少的概率 | = 0.9848 | 6 的概率= 0.0268 | | 7 或更小的概率 | = 0.9958 | 7 的概率= 0.0110 | | 8 或更小的概率 | = 0.9989 | 8 的概率= 0.0031 | | 9 或更少的概率 | = 0.9997 | 9 的概率= 0.0008 | | | 总计= 0.9997 |

最后一列中显示的特定呼叫次数的概率是通过减去相邻的累积值获得的。因此，两次呼叫的概率是 2 或更少的概率和 1 或更少的概率之间的差。概率分布如图 18-5 所示。

图 18-5。

Poisson probability of the number of telephone calls in a five-minute period

指数分布

指数(确切地说是负指数)分布与泊松分布相关。同样，它涉及在时间或空间上分布的随机事件，但记录的是连续事件之间的时间或距离，而不是给定时间或空间范围内的事件数量。如果我们不像上一节那样记录每个给定时间间隔内到达的电话呼叫数，而是记录每对连续电话呼叫之间的时间，那么数据将由按照指数分布分布的数值组成。指数分布是连续的，而泊松分布是离散的，它是极度偏斜的，最大概率为零。与泊松分布一样，方差等于均值。

图 18-6。

Negative exponential distribution showing the likely spacing of telephone calls

图 18-6(a) 显示了连续电话呼叫之间时间的指数分布，假设呼叫之间的平均时间为 2 分钟。这相当于 5 分钟内 2.5 个呼叫的到达率，这在上一节的泊松分布图中使用。因为时间轴是连续的而不是离散的，所以概率是通过评估曲线下的面积来获得的。当使用正态分布时，这是你认为必要的程序。当然，可用的表格消除了相当复杂的计算的需要。

在图 18-6(b) 中，显示了累积概率。您可以看到，较短的通话时间间隔比较长的时间间隔更有可能。间隔少于一分钟的概率几乎是 40%。近三分之二的电话间隔不到两分钟，尽管两分钟是平均间隔。

几何分布

几何分布适用于在成功之前进行多次尝试的情况。例如，许多游戏和运动都是基于尽量减少击中目标或投掷六分球的次数。与二项式分布一样，可以通过组合概率来构建几何分布。我们可以通过考虑掷骰子时 6 的成绩来说明这一点。

因为投出 6 的几率是 1/6，这就是第一次投出成功的几率。如果直到第二次投掷才成功，第一次投掷一定不是 6，这有 5/6 的概率。第二次投掷以 1/6 的概率产生 6。组合概率——即第二次尝试成功的概率——是 5/6 × 1/6 = 5/36。这就是“与”法则的应用:一个非 6 和一个 6。如果直到第三次投掷才成功，我们必须将两个非 6 和一个最后的 6 组合起来。这样概率就是 5/6 × 5/6 × 1/6 = 25/216。这些概率可以在图 18-3 的树形图中看到，我们在讨论二项式分布时使用了它。请注意，当我们考虑每一次后续投掷时，概率会降低。每次投掷成功的概率保持不变，当然是 1/6 的值；但是后面的成功需要前面的失败，而这些失败包含了发生的可能性。

和与之相关的指数分布一样，几何分布是极度偏斜的，在第一次尝试时具有最大概率。几何分布是离散的，而指数分布，如你所见，是连续的。

作为一个实际的例子，考虑一个上门推销员。从公司记录中可以知道，房子卖出去的概率是 1/10。这对于构建以下列表来说是足够的信息:

| 累积的 | | --- | | 第一次电话销售的可能性 | = 1/10 | = 0.1000 | 0.1000 | | 第二次电话销售的可能性，但不是之前 | = (9/10) x 1/10 | = 0.0900 | 0.1900 | | 第三次电话销售的可能性，但不是之前 | = (9/10) ² x 1/10 | = 0.0810 | 0.2710 | | 在第四次拜访时销售的可能性，但不是之前 | = (9/10) ³ x 1/10 | = 0.0729 | 0.3439 | | 在第 5 次拜访时销售的可能性，但不是在此之前 | = (9/10) ⁴ x 1/10 | = 0.0656 | 0.4095 | | 在第 6 次拜访时销售的可能性，但不是在此之前 | = (9/10) ⁵ x 1/10 | = 0.0590 | 0.4685 | | 在第 7 次拜访时销售的可能性，但不是在此之前 | = (9/10) ⁶ x 1/10 | = 0.0531 | 0.5216 | | 第 8 次致电销售的可能性，但不是之前 | = (9/10) ⁷ x 1/10 | = 0.0478 | 0.5694 | | 在第 9 次拜访时销售的可能性，但不是在此之前 | = (9/10) ⁸ x 1/10 | = 0.0430 | 0.6124 | | 在第 10 次拜访时销售的可能性，但不是在此之前 | = (9/10) ⁹ x 1/10 | = 0.0387 | 0.6511 |

到第十次调用时的分布如图 18-7(a) 所示。分配无限期地继续下去:推销员，可怜的家伙，可能永远也不会得到一笔销售，但在大量拜访后得不到一笔销售的概率是非常小的。

图 18-7。

Geometric distribution of the first success in a sequence of house calls

图 18-7(b) 中显示的累积值可能是销售员和他的公司更感兴趣的。这些显示了在第一次拜访、第二次拜访、第三次拜访等情况下的销售概率。随着调用次数的增加，累积值接近值 1，这反映了这样一个事实，即销售的概率随着调用次数的增加而增加，并且在调用次数无限的情况下将成为确定性的。

威布尔分布

威布尔分布是一种具有复杂数学描述的连续分布。定义中的形状参数可以取一定范围的值，以给出不同形式的分布。在一种形式中，分布与指数分布相同，而在另一种形式中，它近似于正态分布。

该分布在描述正偏斜的数据时特别有用，在低值处有一个峰值，然后逐渐变小，直到很少但很大的值。组件的故障——例如滚珠轴承——经常遵循这种分布。其他应用包括制造和交付时间，以及风速分布等气象数据。极值理论，处理不寻常事件的低概率——如大洪水、野火、反常海浪和巨额收入——利用了威布尔分布。

十九、时间序列

Yesterday Rain, Today Rain, Tomorrow...?

预测最困难的领域之一是处理时间序列。过去三年我们的利润是 x、y 和 z，那么明年会是多少呢？不幸的是，我们可能会说，这也许是商业和商业世界中最需要预测的领域。在英国，很可能在其他地方，涉及股票和其他投资产品销售的文件必须带有警告“过去的表现不能作为未来表现的指南。”

回归

问题实质上是根据先前时间段的数据知识来预测与下一个时间段相关的数据。在第十四章中，我解释了应用于两个变量之间关系的回归分析技术，并展示了如何推导出描述这种关系的数学表达式。时间序列可以被视为两个变量之间的关系，使用这种技术可以获得数学关系。然后，该关系可以给出未来时间的预测值。

这种方法存在许多问题。首先，我们将外推一个超出其适用范围的相关性。当然，正如我以前说过的，我们必须以这样或那样的方式进行推断，我们确实在寻找最不可取的程序。第二个问题是，我们在没有理由的情况下将数据拟合成直线或平滑曲线。这与在建立基本物理性质之间的关系时使用这些相关方法非常不同，基本物理性质通常根据明确定义的定律彼此平滑变化。第三个问题是，我们无法确切知道我们的预测有多准确。

关于我们预测的准确性，我们可以说，相对于我们过去数据的范围，我们对未来的扩展是适度的，误差不大。我们也可以给预测值的最大可能精度赋值。我们将知道相关性的可靠性，这是对现有数据点的相关性估计精度的度量。对未来数据点的估计不可能比这更精确，因此我们有一个预期的最佳精度水平的度量。换句话说，相关性在预测未来值方面不可能比预测已知的过去值更好。

如果你回顾一下在第十四章中讨论的时间序列以及图 14-10 中的图表，你会想起一个简单的线性回归得出的相关系数 r = 0.70。通过使用移动平均数，相关系数增加到 0.99。这为数据显示的上升趋势提供了强有力的证据，但上升趋势本身对短期内预测月度表现没有什么价值。从长远来看，问题在于不得不在现有数据范围之外进行推断。

自相关

自相关提供了一种检查过去不同时间的数据之间是否存在相关性的方法。选择并比较来自不同时间的数据对。如果比较显示了显著的关系，那么有证据表明过去的值可以用来预测未来的值。

我们希望每天的温度与前一天的温度有一定的关系。这两者在几天内的相关性将为我们预测第二天的温度提供基础。它不会是完美的，但会有一定程度的成功。如果我们考虑月平均温度，并与前一年相应月份的温度值建立关联，我们会取得更大的成功。事实上，这是在设定不同地点的预计月气温时使用的方法。

当然，并非我们必须处理的所有事情都具有天气和气候的可重复性，但在与商业活动相关的数据中，可识别的周期性变化并不少见。我们可以用下面的数据来说明一个实际应用，这些数据显示了一家公司的月利润，比如说，以千美元计。数据绘制在图 19-1(a) 中。

图 19-1。

An example of autocorrelation

| 一月 | 二月（February 的缩写） | 瑕疵 | 四月 | 五月 | 六月 | 七月 | 八月 | 九月 | 十月 | 十一月 | 十二月 | | One point nine | One point three | One point four | One point seven | One point one | One point four | Two | One point two | One point five | One point eight | One point three | one point six |

通过对以下两组数据进行简单的线性回归分析，可以获得每个值与前一个月的值之间的相关性:

| | 二月（February 的缩写） | 瑕疵 | 四月 | 五月 | 六月 | 七月 | 八月 | 九月 | 十月 | 十一月 | 十二月 | | 目前的 | One point three | One point four | One point seven | One point one | One point four | Two | One point two | One point five | One point eight | One point three | one point six | | 以前的 | One point nine | One point three | One point four | One point seven | One point one | One point four | Two | One point two | One point five | One point eight | One point three | | (一个月) | | | | | | | | | |

按照第十四章的程序，回归线方程计算如下

当前值=–0.45×先前值+ 2.16

如图 19-1(b) 所示。下个月(下一年的 1 月)的预测值是通过插入上个月的 12 月值 1.6 获得的。预测是 1.4。这是不可靠的，因为数据的相关系数是–0.49，在 5%的水平上不显著。(参见第十四章，了解产品力矩相关系数显著性水平的选择。)也就是说，回归线的梯度为–0.45，与零没有显著差异。

季节性效应的可能性可以通过使用三个月前的数值来检验。现在两组数据如下:

| | 四月 | 五月 | 六月 | 七月 | 八月 | 九月 | 十月 | 十一月 | 十二月 | | 目前的 | One point seven | One point one | One point four | Two | One point two | One point five | One point eight | One point three | one point six | | 以前的 | One point nine | One point three | One point four | One point seven | One point one | One point four | Two | One point two | One point five | | (三个月) | | | | | | | |

回归线的方程式计算如下

当前= 0.79 ×先前+ 0.33

其中，上个月(12 月)的值为 1.6，下一个月(1 月)的预测值为 1.6。数据如图 19-1(b) 所示。相关系数为 0.83，在 1%水平上显著。显然，这是一个比上一个更好的预测。

指数平滑法

在第十四章的中，我们展示了一个时间序列的例子，并描述了移动平均的使用如何对图形的形状产生平滑效果。如果我们假设图中的波动是由于随机效应，而不是有意义的效应，我们可以决定移动平均线图将提供一种预测未来值的方法。为了实现一些改进，我们可以认为最近的数据点比旧的数据点更能预测未来。因此，我们可以在计算移动平均数时应用加权程序。这种想法让我们想到了指数平滑法。

在指数平滑法中，时间周期的预测值从最早的开始连续计算。每个下一个周期的值是通过将当前值的比例α(希腊字母α)与以前类似产生的预测值的比例(1–α)相加而获得的。比例α介于 0 和 1 之间:比例 1 保持当前值不变，比例 0 用以前的值替换整个值。公式是

f_t+1= d_t+(1-α)f_t

其中 F _t+1 =下一期预测

F _t =应用于当前期间的先前预测

D _t =当前实际值

α =加权系数

因为每个预测都直接依赖于前一个预测，所以它也依赖于所有前一个预测，尽管预测越新，依赖性就越大。

下面是一个小例子，使用 0.2 的加权因子来说明这个过程。假定的销售数字连续显示了六个时期。还显示了第七个期间的预测值。

每个期间的误差是实际销售额 D _t 和预测值 F _t 之间的差值，预测值是根据以前的销售额计算出来的。总误差通常用均方误差来量化。

在执行这一程序时，我们必须作出两个选择。首先，我们必须决定加权因子。较大的值给予最近的销售额较大的权重，而较小的值给予较早的销售额较大的权重。第二，因为我们没有以前的预测值，我们必须决定用什么作为 F _t 的第一个值。该示例使用了值 50，这是前一时期的实际销售额。

为了实现可接受的预测，需要最小化总体误差；但是要做出两个有些随意的选择，手动实现这一点并不容易。当然，有现成的计算机程序可以快速运行一系列场景，以达到最小均方误差。

所描述的方法被称为单指数平滑，仅使用一个加权因子。当数据随着时间的推移近似恒定并且上下变化是随机的时，该方法工作良好。然而，在许多情况下，数据点会显示一种趋势，随着时间的推移而增加或减少。然后需要双指数平滑。引入第二个常数β(希腊字母β)来调整每个先前区间的趋势。第一个平滑常数以类似于单指数平滑的方式应用于趋势调整值。

除了趋势之外，时间序列通常显示周期性变化，可以是每天、每月、每季或每年。为了包括周期性变化的影响，可以包括第三个平滑常数γ(希腊字母 gamma ),以给出三重指数平滑。

指数平滑法本质上是一种试错法，但很容易用现有的计算机软件来处理。然而，值得指出的是，这种方法有许多变种，所以不是所有的计算机程序都产生相同的结果。

请注意，在指数平滑中，与回归不同，不考虑拟合曲线的预期形状。该预测实质上是基于最近的值，该最近的值是根据每个先前的值对该系列中下一个值的预测程度而修改的。

PLUMB WISE

劳顿管道供应公司位于城镇边缘的一个工业园区。这是一家小企业，由老板比尔·劳顿经营，向当地商人和 DIY 爱好者提供工具和管道消耗品。厨房和浴室配件也向公众出售。

铜和黄铜价格的上涨严重影响了存货的价值，而且由于塑料管道和配件的使用越来越多，许多存货已经变得滞销。尽管如此，比尔意识到有必要保持顾客所需的库存，以留住他们。他意识到他的库存控制和提前订购的做法一团糟，需要整理。

他和不同的同事谈过这件事，有人建议他应该花些时间检查他的销售记录，并采用一种合理的例行程序，也许以某种形式的时间序列分析为指导。

带着当地图书馆的一本统计学书籍，比尔研究了各种可能性。由于铜和黄铜销售的下降趋势，以及塑料销售的上升趋势，他认为指数平滑法似乎是有用的。它承诺了应对随机波动和潜在趋势的能力。纳入周期性变化也可能有好处，因为在冬季，当许多住户遭受管道冻结和中央供暖故障时，管道系统的销售会增加。

在这个阶段，他需要帮助。通过他的许多关系，他找到了一个经营电脑维修业务的当地 IT 专家。只需支付适当的费用，比尔就在他的电脑上安装了一个合适的软件包，并进行了几次简短的辅导。

比尔对这一过程非常着迷，并用这一技术分析了他的大部分股票的销售记录。他意识到，收益不会立竿见影，但会随着时间的推移而改善，尽管很快就可以看出，系统正在认识到他最关心的趋势。他也很精明，明白没有统计分析会给出准确的答案，他在商业中的实践经验仍然是必需的。留住客户总是要求将安全边际纳入他的前瞻性规划中。

二十、控制图表

Navigating around the Factory

质量控制程序用于生产过程，以确保产品持续符合适当的规格。通常，对产品进行定期取样；控制图，有时也称为休哈特图，用于记录结果，以便预测生产过程中问题的出现。

使用两种类型的图表，具体选择取决于如何检查产品。如果通过数值测量来检查，则该过程称为变量抽样。如果通过观察满意或不满意的特征来检查，该过程被称为属性抽样。

变量抽样

大多数按规格生产的产品都有特定的尺寸要求。例如，假设一家工厂生产内径为 50 毫米的钢管，可接受的公差为 1.0 毫米。因此，直径小于 49 毫米或大于 51 毫米的钢管是有缺陷的，不可接受的。开始时，对大样本管子的测量将确定制造程序生产平均直径为 50.2 mm 的管子，这完全在公差范围内。样本也将提供标准偏差的测量，比如说 0.25 毫米。平均尺寸和最大允许尺寸之差为 0.8 毫米，即 3.2 个标准偏差。从正态分布表中，我们发现平均值两边的 3.2 个标准偏差将包括除 1 以外的所有 1000 个观察值。公司可能会接受约 1/1000 的拒绝率是可以接受的。降低废品率会增加成本，以确保生产过程能提供更稳定的产品。当然，根据产品的类型和成本，其他公司可能会满足于非常不同的拒绝率。

在生产过程中，将定期取样，并将结果记录在控制图上。样本必然是小的，也许由五个项目组成。图 20-1(a) 显示了控制图的典型布局。纵轴上是以 mm 为单位的刻度，50.2 mm 的既定平均值显示为水平线。沿着水平轴是指示取样时间或日期的刻度。绘制了每个样本的平均值，并且可以容易地理解其与 50.2 mm 的目标值的关系。

图 20-1。

Control charts for sampling by variable

50.2 mm 线的两边是另外两条水平线。内部的一对是警告极限，外部的一对是动作极限。如果样本均值向一个警告极限移动，公司将被预先警告制造过程中的一些错误，并可以发起额外的采样或过程调查。样本意味着达到行动限制将表明一个严重的问题。我们将很快看到警告和动作限制是如何确定的。

不仅要确保平均值不变，而且可变性不增加也很重要。在图表的下半部分是另外一组水平线，以应对可变性。同样，我们有目标线、警告线和行动线。目标线可以设置为标准偏差的值，但是因为标准偏差的计算需要一定程度的技巧，所以通常使用范围来代替。每个样本的范围可以很容易地识别和绘制。一系列值的范围与标准偏差有关，尽管这是一种不太精确的可变性度量。

警告限值通常设定为，假设样本仍然代表原始产品，则达到限值的概率约为 1/40。行动限制通常设定为相应的几率约为 1/1000。极限值的计算因两个因素而变得复杂。第一，样本小，所以需要 t 分布而不是正态分布。第二，因为正在使用范围，所以必须从标准偏差到范围进行转换，并且转换因子随着样本中项目的数量而变化。为了避免这些困难，公布了控制图表，给出了不同样本量的 A 和 D 值，用于以下表达式:

A 的列表值确定了限值，使得样本平均值的六个标准偏差(平均值每侧三个)位于行动限值之间，四个标准偏差(平均值每侧两个)位于警告限值之间。D 值适当地对应。

在上面的例子中，表达式产生下列值，这些值包含在图 20-1(a) 中:

| 平均值:动作上限 | = 50.2 + 0.594 x 2.326 x 0.25 | = 50.55 | | 平均值:动作下限 | = 50.2–0.594 x 2.326 x 0.25 | = 49.85 | | 平均值:警告上限 | = 50.2 + 0.377 x 2.326 x 0.25 | = 50.42 | | 平均值:警告下限 | = 50.2–0.377 x 2.326 x 0.25 | = 49.98 | | 范围:动作极限 | = 2.34 x 2.326 x 0.25 | = 1.36 | | 范围:警告限值 | = 1.81 x 2.326 x 0.25 | = 1.05 |

对于样本量为 5 的情况，因子 2.326 提供了 0.25 的标准偏差到平均范围值的转换。

值得注意的是，公差在控制图的建立中不起任何作用。假设生产过程不会发生任何变化，公差以及初始大样本的平均值和标准偏差决定了可能产生的不可接受项目的比例。控制图的目的是指出生产过程中的变化，如果不注意，可能会导致不可接受项目的增加。控制图提供了过程的统计控制，独立于关于可容忍的不可接受项目数量的决策。

有时会使用另一种形式的图表，即累计和图。样本平均值和目标平均值之间的差值被累加，一个样本一个样本地累加，并绘制成累积图，如图 20-1(b) 所示。梯度的变化，无论是增加还是减少，都表明偏离了正常情况。该图表的一个优点是平均值的微小变化比控制图显示得更清楚。

按属性取样

有些产品要么是令人满意的，要么是不令人满意的，不能用缺陷的尺度来分级。例如，灯泡要么点亮，要么拒绝点亮。从我们之前所说的，这种情况将被认为是二项式的。

与上一节讨论的变量抽样相比，定期抽样现在必须涉及更大的样本。很明显，小样本很可能不会定期显示不可接受的项目，也不会提供任何有用的信息。虽然样本必须更大，但检查项目可能会更容易和更快:检查灯泡比测量管子的直径更直接。

假设，在灯泡方面，公司接受 100 个灯泡中有 1 个有缺陷；假设定期采样涉及 50 个灯泡。图 20-2 所示的控制图记录了样本中的不良灯泡数量。

图 20-2。

Control chart for sampling by attribute

平均来说，每个样本中会有 0.5 个有缺陷的灯泡。我们需要知道样本中有 0、1、2、3……个有缺陷灯泡的概率，以便设定警告限值和行动限值。从二项式分布的表格中，我们得到了样本量为 50，平均缺陷水平为 1%的下列值。

| 零缺陷概率 | = 0.6050 | = 60.50% | | 1 个缺陷的概率 | = 0.3056 | = 30.56% | | 2 有缺陷的概率 | = 0.0756 | = 7.56% | | 3 有缺陷的概率 | = 0.0122 | = 1.22% | | 4 有缺陷的概率 | = 0.0015 | = 0.15% | | 5 或更多缺陷的概率 | = 0.0001 | = 0.01% | | 总数 | = 1.000 | = 100% |

如果警告限值设定为有 1/20 的机会达到限值，而实际上制造过程没有变化，我们要求它对应于 5%的概率。这出现在 2 到 3 个有缺陷的灯泡之间，因此限值将设置在这些值之间。类似地，对于行动限制，千分之一的概率对应于 0.1%，因此限制将被设置在 4 到 5 个有缺陷的灯泡之间。这些限制包含在图 20-2 中。

二十一、可靠性

Would You Trust That Bungee Cord?

统计学在可靠性研究中起着重要的作用，但只代表了所涉及的数学理论的一部分。部件、机器或系统的可靠性可以定义为在要求执行功能的操作条件下，以期望的方式执行所需功能的概率。因此，可靠性 R 是一个概率，其值在 0 和 1 之间，0 表示立即失效，1 表示(不可能)不会发生失效。失败的概率是 1–r。

基本原则

机器和系统由许多部件组成。组件本身是由零件组装而成的。单个部件的故障可能会导致整个系统的故障，也可能不会。链节断裂会导致链条断裂，但钢丝绳中单股钢丝断裂不会导致钢丝绳断裂。因此，由于所涉及的项目数量以及这些项目在大会运作中相互作用的方式，可以看出分析是复杂的。简单的系统可以用组合概率的规则来分析，通过观察这些规则，我们可以理解其中的含义。

在钢丝绳的情况下，假设一股钢丝绳在要求的运行时间内出现故障的概率为 0.001。绳子有三股，直到三股都失效，绳子才失效。我们这里有一个平行的情况:三个股是相互平行的，故障模式被称为平行。对于绳索的失效，我们要求第一、第二和第三股都失效。这是一个“和”的情况；正如我们在第三章中看到的，概率必须相乘，当然假设一条链的故障独立于其他链的故障。因此 0.001 × 0.001 × 0.001 = 0.000000001 是绳索失效的概率。应该注意的是，这些值是不现实的。

上面提到的链环在物理上是串联的，我们可以将故障概率表示为一个系列。如果一个环节在要求的运行周期内发生故障的概率为 0.001，那么，对于三个环节，如果第一个、第二个或第三个环节发生故障，则链会发生故障。这是一个“或”的情况；正如我们在第三章中看到的，我们需要增加概率。因此，链条(尽管只有三个链环)的故障概率为 0.003。观察力敏锐的读者可能已经发现这里有一个错误。这三个事件并不相互排斥。我们没有适当考虑所有的可能性:两个或所有三个环节都可能失败。此外，如果我们认为只有一个环节出现故障，我们必须根据“与”规则，将另外两个环节的存在考虑在内。有 3 个链接，总共有 8 种情况，这里列出了每种情况的概率:

| | 链接 1 | 链接 2 | 链接 3 | 可能性 | | one | 不会失败 | 不会失败 | 不会失败 | 0.997,002,999 | | Two | 不会失败 | 不会失败 | 失败 | 0.000,998,001 | | three | 不会失败 | 失败 | 不会失败 | 0.000,998,001 | | four | 失败 | 不会失败 | 不会失败 | 0.000,998,001 | | five | 不会失败 | 失败 | 失败 | 0.000,000,999 | | six | 失败 | 不会失败 | 失败 | 0.000,000,999 | | seven | 失败 | 失败 | 不会失败 | 0.000,000,999 | | eight | 失败 | 失败 | 失败 | 0.000,000,001 | | 总共 2 到 8 个(至少一个链路出现故障) | 0.002,997,001 |

从表中的数值可以明显看出两件事。首先，场景 2 到 8 的总概率显示，至少一个链路发生故障的概率非常接近我们最初提出的值 0.003。这反映了这样一个事实，即当一个组件的故障概率非常小时，两个或更多组件在同一时间段内发生故障的概率甚至更小，即与单个故障概率的精确度相比微不足道。在实际情况下，故障概率比我们的简单例子要小得多:一个由几百个环节组成的链，每个环节在运行期间的故障概率高达 0.001，这是完全没有用的。因此，当在可靠性情况下遇到“或”规则时，通常可以在不损失精度的情况下将各个概率相加。

上述值的第二个有趣之处在于，通过计算所有三条链路发生故障的概率，并从 unity 中减去该值，可以更容易地获得至少一条链路发生故障的概率。

对于由许多部件组成的组件，将会有串联项目组和并联项目组，并且这些组可以与其他组以串联或并联的方式组合。图 21-1(a) 显示了一个由电源和水源、传感器、继电器、阀门和喷头组成的喷水灭火系统的假想例子。可以通过故障树进行分析，如图 21-1(b) 所示。各种项目相互关联，以显示每个项目对其他项目功能的依赖。根据依赖是串联还是并联来标记连接:换句话说，依赖是“与”还是“或”从树的底部开始，我们将插入组件的单个故障概率。我们将向上工作，在与门相乘，在或门相加。最终的故障概率将从 1 中减去，以给出可靠性。

图 21-1。

A hypothetical sprinkler system and its fault tree

项目可以以既不是串联也不是并联的方式组合。图 21-2(a) 显示了一个由两条平行路径激活的铃；但是增加了 Z，如图 21-2(b) 所示，使得系统既不是串联也不是并联(Smith，1976: 66)。X 或 Z 确保激活 X，Z 或 Y 确保激活 Y。X、Z 和 Y 不平行，因为 X 不激活 Y，Y 也不激活 X。将该图与图 21-2(c) 中的图进行比较，该图显示 X、Y 和 Z 平行，并作为一个单元与 X 和 Y 的平行排列串联

图 21-2。

A diagram showing that some systems may be neither series nor parallel

一些这样的安排可以用你在第三章遇到的条件概率来处理。在图 21-2(b) 所示的例子中，首先考虑 Z 失败的条件(概率 P _z )。那么我们实际上有了图 21-2(a) 所示的安排，我们可以用正常的方法计算失效概率(P ₁ )。接下来考虑 Z 不失效的条件(概率 1–P_Z)。x 和 Y 现在是不相关的，我们只需要并行计算 x 和 Y 的失效概率(P ₂ )。把这两种情况合在一起，现在就出现了“或”的情况:Z 失败，或者 Z 不失败。因此，系统的故障概率为

p_zXP₁+【1–p_zXP₂

可靠度是 1 减去这个值。

可靠性数据

我们在第四章中详细讨论了抽样，我们主要关心的是确保样本能够代表感兴趣的总体。当然，在可靠性调查中，这个因素仍然很重要，但是现在有了一个额外的复杂因素，即不容易获得样本数据。一些项目，例如电子元件，在长期使用条件下进行测试，直到出现故障。获得平均故障时间(MTTF ),并可用于预测组件的可靠性。这种方法的一般应用有严重的局限性。对许多项目来说，测试时间将会很长，费用也很高，而且创造真实的服务条件也很困难。当预期的服务寿命很长时，根本没有时间进行故障测试。例如，必须使用加速试验，包括过大的力、速度或环境条件，尽管这意味着试验条件不能精确地再现使用条件。可以通过同时测试多个项目并在一定比例的项目失败时缩短测试时间来缩短测试时间。测试整个组件的故障通常是更好的选择，但必须考虑时间和成本。

当测试失败是不可能的，历史证据可以使用。已经使用了一段时间的物品将产生关于失效时间的数据。在新颖、复杂的结构中，很可能许多部件都有在其他应用中的使用历史，这将为它们的预期可靠性提供一些指导。

分布

可靠性分析中使用了许多不同的分布。正态分布可能适用于以明确定义的方式发生故障的简单项目；但是随着项目和部件变得越来越复杂，人们发现假设故障是随机事件并且故障概率采用恒定值更有用。因此，使用了泊松分布和相关的指数分布，泊松分布表示在选定时间段内随机事件数量的概率，指数分布表示随机事件之间特定时间段的概率。

经常使用威布尔分布。在第十八章中指出，这种分配有很大的灵活性。当故障是由随机事件引起时，它可以描述一个恒定的故障率，这是在组件的大部分生命周期中可能出现的情况。当组件是新的时，故障率通常较高，但在下降。这是预烧期，该分布可用于降低故障率。接近使用寿命的末期(磨损期)，故障率增加，并且，威布尔分布可以应付。

实际的复杂情况

实际上，大多数机器和设备直到故障时才运转。进行检查和维护，在故障发生之前可以更换或翻新零件。显然，这使得可靠性的计算变得复杂。备用系统的使用和降额设备的实践增加了复杂性。

上面提到过，故障通常被认为是一个随机事件，除了在老化和磨损期间。预烧期实际上可以通过运行前的运行和校正来消除，而磨合期实际上可以通过维护来消除。

ALARM BELLS

卢克·罗杰斯是个体户，经营着一家小防盗报警器公司。他购买零部件，为家庭和小型企业设计系统，并进行安装。他向他的客户保证两年，在此期间，他将迅速做出反应，纠正故障并更换任何需要的部件。为了在这段时间后提供保障，他出售了每年可更新的维护合同。

在保修期内，他遇到了大量客户服务电话的问题。故障出在一个继电器上，它经常在安装后几个月就出现故障。他很便宜地大量购买这些继电器，有点愚蠢。就旅行和时间而言，一次服务呼叫的成本对他来说相当可观，而替换继电器的成本当然可以忽略不计。一个隐藏但严重的代价是他客户关系的恶化。

解决办法似乎是废弃继电器库存，购买一批更贵的继电器；但是卢克的女儿路易丝，她在大学学习工程，建议可能有一个更好的选择。她有一些统计学知识，知道故障树。

利用典型的安装电路图和服务电话记录中的数据，她制作了一个近似的故障树。她可以看到电路中有两个继电器，它们实际上是串联的，因此如果其中一个出现故障，系统就会关闭。Louise 计算出，在保证期内失败的概率大约是 0.3。由此，她计算出单次接力失败的概率为 0.16。

Louise 知道并联的组件会降低故障概率(“与”规则)，并意识到如果将一对继电器并联在一起以取代单个继电器，故障概率将从 0.16 降至 0.026(即 0.16 × 0.16)。以类似的方式替换系统中的两个单继电器将给出 0.052 的系统关闭概率。故障概率从 0.3 下降到 0.052，下降了 82%，令人印象深刻。Luke 立即在所有服务呼叫、维护访问和新安装中引入了加倍继电器，直到质量差的继电器全部被处理掉。

路易斯的朋友注意到她在那年的圣诞节得到了一部相当昂贵的新智能手机！

二十二、数据挖掘

Twenty-First-Century Gold Rush

数据挖掘是一种从大量数据中产生预测信息的方法。这是商业世界中发展最快的预测方法之一，它对未来的展望令人兴奋。

数据的增长

存储大量数据并不新鲜:图书馆自古就有。最近，公司保存了供应商、客户和员工的详细信息。商业交易、购买和销售、费用和利润等等的记录最初都保存在书籍和文件中。后来，数据库的电子存储大大节省了人力和空间。这种数据传统上被用于提供关于公司过去和现在状况的信息，但不作为预测的工具。随着数据库变得越来越大，计算机提供了更快的处理速度和更大的存储容量，这种情况已经改变。经常被引用的摩尔定律说，计算机能力大约每两年翻一番。如果没有这种惊人的增长率，数据库的规模也不可能有类似的增长。

数据库以两种方式发展。如果我们把一个数据库想象成一个二维的数据表，它的行数和列数都在增长。每一行都是一个新数据条目，比如一个新客户或一笔新的销售或购买。数字随着时间的推移而增加；随着存储成为一个越来越少的问题，没有压力消除旧的条目。列代表变量:姓名、地址、产品、日期等。这些增长部分是因为存储不再是问题，部分是因为收集信息变得更容易了。在零售活动中，扫描所购买的每件商品上的条形码可以记录交易，以及同一次购买中的其他商品、时间和日期以及付款方式。如果购买是使用商店信用卡支付的，或者如果出示了会员卡，则可以记录顾客的个人详细信息。互联网提供了大量的数据。每次点击按钮或链接都会增加商店。数据库中许多信息的积累仅仅是因为它变得易于收集和存储，而不是因为它被认为是需要的。

不仅数据库增长了，而且许多数据库的结合产生了数据仓库。大型公司通常会有许多数据库。这些可能位于不同的公司站点，或者在同一站点用于不同的目的。通过将数据库连接在一起，大量的信息就有可能被利用。在计算机存储方面，有大到几 Pb 的数据仓库。一个字节相当于一个文本字符的存储空间:一个千兆字节代表一个大约 6000 英里长的书架上所有书籍的信息。

人们认识到，不仅可以从数据仓库中检索大量信息，而且可以揭示不同变量之间的关系，这就产生了数据挖掘。揭示的关系可能提供一种预测未来趋势和机会的方法。

可用数据的增长每年都在加快。据说，我们在 2013 年拥有的 90%的数据在三年前并不存在。对于大公司积累的数据量来说，现场数据仓库变得不够用了。存储由外部提供商承担的云计算拯救了我们。组织通过使用大型服务器网络为客户提供数据的在线存储和分析。

这是大数据的开端。大数据没有精确的定义:它意味着你拥有的数据比你自己能够处理的还要多。对于像亚马逊或脸书这样的组织来说，这将是数百 Pb，但对于小型企业来说，这可能要小得多。大数据也可以说是传统数据库技术无法处理的数据，要么是因为数据太多，要么是因为数据是非结构化的。

Mayer-schn Berger 和 Cukier (2013 年)以所涉及的数据量的有用指标开始了他们对大数据的全面阐述。谷歌每天处理超过 24pb 的数据。脸书每小时有 1000 万张新照片上传，用户每天点击赞按钮或发表评论近 30 亿次。YouTube 的用户每秒上传一个小时的视频。Twitter 上的消息数量每天超过 4 亿条。一些估计表明，2013 年，世界上每几分钟就有大约 5 EB 的数据产生(FT Reporters，2013)。这个数量相当于一个 3000 万英里长的书架上的书。

大数据通常用三个特征来描述:这三个与。除了数量，还有速度和可变性方面的考虑。速度是指收集、存储和分析数据以及应用结果的速度。这些数据来自过去的交易，如果要用它们来预测未来的事件，就需要快速应用这些结论。数据的可变性是一个给存储方式和随后的分析带来困难的特征。数值数据很容易用传统方法处理；但是涉及文本识别、翻译、语音识别、视频剪辑和音乐的非结构化数据就不那么容易处理了。第四个 V 有时包括在内，指的是真实性。显然，如果要利用分析结果，真实性和可靠性是至关重要的。

因为数据量非常大，所以测试揭示的关系可能非常可靠。这种关系可以用与其发展无关的数据块来检验。当然，当这些关系被用来预测未来事件时，仍然有推断。未来什么都有可能改变。因此，重要的是反复修正这些关系，并立即应用结果。由于这个原因，利用一个现成的预测往往比拖延寻找一个更复杂的预测更好。事实上，技术已经从分析历史数据发展到提供实时结果。

数据仓库

数据仓库是通过集合许多传统类型的数据库而产生的，我们可以简单地看一下这些集合起来的数据仓库有什么不同。传统数据库是事务性的，因为它们允许操作人员自动输入新数据(例如，从条形码输入)或手动输入。操作员也可以编辑或删除数据。来自数据库的信息通过输入适当的查询来获得。

数据库是标准化的。这意味着数据存储在许多单独的表中，以确保任何数据只存储一次。例如，同一个供应商可能参与了多次采购，为每次采购重复记录供应商的详细信息是不明智的。重复条目中可能会出现错误，并且地址的改变会导致更新中的问题。结果是单独的表用于供应商详细信息。标准化还涉及到其他阶段，以最大限度地减少异常和冗余，最终结果是在一个相当复杂的网络中链接多个表。这种结构的缺点是，当需要查询时，相关的设置和处理相对较慢。当数据库不是很大时，这种情况是可以接受的，但随着数据库的增长，这种情况会越来越严重。

数据库中的数据自动地、定期地转移到数据仓库中。操作人员不会一点一点地添加或修改数据，因此数据库的规范化结构可以在很大程度上被放弃。这允许表格的星形结构，如图 22-1 所示，表格之间的链接较少。中央表称为事实表，包含数字或描述性数据。周围的表被分配给感兴趣的变量，每个表都直接链接到中央事实表。这种安排旨在加速信息的检索。

图 22-1。

The development of data mining from traditional databases

尽管采取了这些措施，但如果没有另外两个因素，信息的检索将不会快得令人满意。一个是引入数据的并行处理。一台计算机一次只能进行一项操作，尽管由于它的速度非常快，看起来它是在进行多任务处理。如果由于要执行的步骤太多，处理速度不够快，那么只有通过增加更多的计算机或处理器来同时并行工作，才能提高速度；这就是我们所做的。

第二个因素是立方体和超立方体的概念，允许自动聚合数据以备检索。图 22-1 中包含了一个立方体的示意图。严格地说，它是一个长方体，因为各边的长度不等；但是立方体这个名称已经成为标准术语。立方体的三个轴(边)代表三个变量的级别，立方体的单元包含适当的数据。可以在每个级别的三个方向上进行求和，并且可以存储聚合值，以备检索。

因此，如果我们对不同时间不同商店的产品销售感兴趣，我们要求的许多总数将已经被计算出来并很快得到。比方说，我们可能需要 2011 年在所有商店销售的某个商品的数量，然后请求 2011 年 12 月某个特定商店的总数。

这个例子只考虑了三个变量，但是也可以建立多维的超立方体来表示多个变量。不幸的是，不可能画出它们，尽管就计算机而言，用数学方法定义它们并不是什么特别的问题。

除了合计总数之外，还可以合计其他容易计算的统计指标。因此，可以容易地得到标准偏差和置信限，以及结果的图示，例如以条形图的形式。

未来发展

所谓的物联网已经在有限的程度上伴随着我们，但它可能的扩张确实令人难以置信。传感器可以连接到几乎任何东西上，以测量一系列属性并将数据传输到处理中心。任何指定的所需行动的细节可以传送到任何需要信息的地方。一般来说，对发动机和机械的监控已经存在一段时间了，但目前的热门话题是家用冰柜，这些冰柜会保存其内容的库存，并在库存需要补充时发出信号。安装在衣服上的柔性传感器可以检测到何时需要清洗或更换，或者警告扒手或丢失的一串钥匙。更重要的，也是用现有技术更可行的，是通过在病人自己家里远程监控病人来获得健康护理的好处。

最终将为大数据带来更大潜力的两个重要进步是更小的存储和处理设备以及更快的处理速度。

存储或处理特定数量的数据所需的空间量已经迅速减少，目前大约每三年减半。纳米技术的最新进展推动了在原子水平操纵存储单元的研究。2012 年，IBM 宣布成功存储和检索了 12 个原子磁性的 1 比特数据。目前的技术要求每比特大约一百万个原子。2013 年，英国南安普顿大学的研究人员展示了一种激光方法，在一小块熔融石英上实现了 360 万亿字节的数据存储，这种材料非常稳定。同样在 2013 年，剑桥大学的一个团队在一粒合成 DNA 上存储了 154 首莎士比亚十四行诗、一张照片和马丁·路德·金“我有一个梦想”演讲的 26 秒音频剪辑。

随着尺寸的减小，电路过热的问题增加了。这是因为尽管电流很小，但它们非常接近，并且局部温度可能很高。由于光脉冲沿光纤的传播不会产生明显的热量，因此使用光纤有望使器件变得更小。然而，光计算机的生产离未来还有一段路要走。

关于处理速度，并行排列计算机是目前提高处理速度的唯一方法。当第一台实用的量子计算机出现时，一项重大突破有望在未来实现，尽管没人能说它有多远。由于电子、光子等基本亚原子粒子的量子行为，它们有可能同时处于两种状态。原则上，这允许计算机电路不受每个单元必须打开或关闭的限制，记录一位。相反，该单元可以保持两种状态，称为量子位(“量子位”)。这种安排有可能实现并行处理，许多研究正在探索这种可能性。我们饶有兴趣地等待结果！

STOCKING UP FOR STORMS

在任何人听说大数据之前，沃尔玛就已经拥有了大数据，而且不仅拥有了大数据，还利用大数据来改善其业务运营，许多公司在随后的几年里都会争相效仿。

早在 2004 年 9 月，飓风“弗朗西斯”穿过加勒比海，向佛罗里达东海岸移动。正在采取预防措施。人们转移到地势较高的地方，尽可能做好准备。

就在三周前，飓风查理袭击了沃尔玛，沃尔玛意识到在这种困难的情况下，购物习惯可能会与平时大相径庭。高管们可以从 Charley 的经历中看到，预测需求，从而提供符合客户需求的商品应该是可能的。

即使在那时，沃尔玛的电脑上也存储了大约 460 兆字节的数据。这些数据来自 3600 家商店，每周约有 1 亿顾客在这些商店购物。收银台扫描仪逐项记录销售情况。

对与飓风查理有关的现有数据进行了挖掘，结果显示出所需产品的数量超过了正常水平。当然，正如我们所料，手电筒是显而易见的。然而，最畅销的商品是啤酒。没人会想到的产品是草莓馅饼。在飓风来临之前，这些产品的销售增长不是微不足道的，事实上是正常水平的七倍。

分析的结果是，预测的所需物品被运送到飓风弗朗西斯经过的沃尔玛商店，随后报告说，专门为这一事件储存的大多数货物很快售出。

二十三、预测分析

It’s Only Arithmetic!

为可能的关系询问数据的第一步是选择有限数量的数据，称为训练数据，将从该数据开发模型。该模型是一种理想化的关系，涉及许多变量，这是通过对训练数据的初始检查或通过实际观察提出的。许多不同种类的模型正在使用中，它们来自不同的学科。预测分析本质上是一个统计过程，因为获得的结果并不精确，而是用概率来表示。因此，置信限方面的可靠性水平是一个特征。我们在前面几章中讨论过的各种统计方法在建立模型时都是有用的。此外，来自机器学习、人工智能和神经网络研究的技术也在使用中。开发新的和改进的模型是一个活跃的研究领域。以下各节旨在说明所使用的模型种类及其工作方式。

简单的规则

规则是一个“如果…那么…”的陈述，它可能包含几个或几个变量。例如，我们可以有一个规则，如果一个抵押贷款的申请人是一个年龄在 30 到 40 岁之间的自雇管道工，那么他将有 90%的把握不会拖欠付款。当变量是描述性的时，规则更合适，尽管数字变量可以通过在定义的限制内分组值来处理，如引用的例子。

1R(一个规则)规则从多个可能性中选择一个变量，其基础是哪个变量给出最少数量的错误。为了说明这种方法，我们将使用以下数据，这些数据显示了某一特定商品是否畅销。我们有 12 位顾客的数据，男性和女性，在一周的不同日子，在两个不同的商店。这是一个非常小的样本，但可以用来说明程序:

| 性别 | 一天 | 商店 | 卖 | | --- | --- | --- | --- | | 男性的 | 星期六 | A | 是 | | 男性的 | 在星期日 | A | 是 | | 男性的 | 星期六 | B | 是 | | 男性的 | 工作日 | B | 不 | | 男性的 | 在星期日 | A | 是 | | 男性的 | 星期六 | B | 是 | | 女性的 | 工作日 | A | 是 | | 女性的 | 星期六 | A | 不 | | 女性的 | 在星期日 | B | 是 | | 女性的 | 星期六 | A | 不 | | 女性的 | 在星期日 | A | 不 | | 女性的 | 工作日 | B | 不 |

对于每个变量，我们注意到多数结果:

| 性别 | 男性的 | 六分之五 | 是 | | | 女性的 | 六分之四 | 不 | | | 总数 | 12 个中的 9 个 | | | 一天 | 工作日 | 三分之二 | 不 | | | 星期六 | 五分之三 | 是 | | | 在星期日 | 四分之三 | 是 | | | 总数 | 12 个中的 8 个 | | | 商店 | A | 七分之四 | 是 | | | B | 五分之三 | 是 | | | 总数 | 12 个中的 7 个 | |

采用性别作为该规则的变量，因为总成功次数(12 次中有 9 次)是三次中最高的。因此，规则是，如果顾客是男性，商品就会卖出，但如果顾客是女性，商品就不会卖出。

通过使用简单的统计数据，该方法可以扩展到从相同的数据中产生几个规则，以便可以看到所有变量的影响(Frank，2009)。同样的数据在这里有不同的表述:

| | | 是 | 不 | | 性别 | 男性的 | five | one | | | 女性的 | Two | four | | 一天 | 工作日 | one | Two | | | 坐 | three | Two | | | 太阳 | three | one | | 商店 | A | four | three | | | B | three | Two | | 总数 | | seven | five |

我们现在用概率来表示是和否的数字。因此，下面的 5/7 是发生销售时顾客是男性的概率。“总计”列中列出的分数是整个数据中获得销售或未获得销售的概率:

| | | 是 | 不 | | 性别 | 男性的 | 5/7 | 1/5 | | | 女性的 | 2/7 | 4/5 | | 一天 | 工作日 | 1/7 | 2/5 | | | 坐 | 3/7 | 2/5 | | | 太阳 | 3/7 | 1/5 | | 商店 | A | 4/7 | 3/5 | | | B | 3/7 | 2/5 | | 总数 | | 7/12 | 5/12 |

这些概率允许我们通过使用第三章中介绍的乘法规则(and 规则)为变量级别的各种组合提供一个规则。例如，如果我们在工作日有一个男性在商店 A，销售的相对概率是

5/7 x 1/7 x 4/7 x 7/12 = 0.034

不出售的相对概率是

1/5 x 2/5 x 3/5 x 5/12 = 0.020。

请注意，在这种形式下，这些并不是真实的概率，因为两者并不等于 1，但它们的比例是正确的，因此我们可以将这些值归一化为

| 销售的可能性 | = 0.034/(0.034+0.020) = 0.63 | | 不销售的概率 | = 0.020/(0.034+0.020) = 0.37 |

因此，尽管证据不足，总的来说还是会有出售的。

再举一个例子，在商店 B 的一个星期六的女性导致下面的计算:

| 销售的相对概率 | = 2/7 x 3/7 x 3/7 x 7/12 = 0.031 | | 不销售的相对概率 | = 4/5 x 2/5 x 2/5 x 5/12 = 0.545 | | 销售的可能性 | = 0.031/(0.031+0.545) = 0.05 | | 不销售的概率 | = 0.545/(0.031+0.545) = 0.95 |

与前一条规则相比，这条规则的可信度更高。

该方法为我们提供了 12 条规则，每条规则对应三个变量水平的 12 种组合。有些规则会比其他规则更可靠。如果碰巧数据包含相互矛盾的条目，并且这很可能发生在一个相当大的样本中，那么所导出的规则中的不确定性将会更大。

这个简单的技术有一个更严重的问题。从第三章可以回忆起，对于在“与”规则中相乘的概率，变量必须是独立的。很可能数据库中的许多变量不是独立的。在上面的例子中，工作日的购物者很可能主要是女性。变量之间的相关性会使结果产生偏差。通过将销售给女性顾客的概率乘以销售在工作日的概率，我们可以增加女性顾客的影响。

很明显，一组数据可以产生大量的规则；也正因为如此，存在过度拟合的危险。我们之前讨论了与非线性回归相关的过拟合，我们看到，总是可以获得一个方程，该方程产生一条穿过图上每一点的曲线。这样的方程式没有实际用途。类似地，我们可以以一组规则结束，这些规则完美地描述了训练数据中表示的每种情况。但是该组规则将仅仅是训练数据的替代表示，并且将不会实现任何东西。

规则的有用性取决于两个特征:准确性和覆盖范围。正如我们在上面看到的，准确性可以表示为规则给出正确结果的概率。覆盖率表示规则在数据库中的相对出现次数。在上面呈现的数据中，只有四分之一的数据涉及工作日期间的购买，因此涉及此类购买的规则的覆盖率仅为 25%。具有高准确度和高覆盖率的规则显然是可取的，但是如果每次出现都非常有利可图，低覆盖率规则可能非常有用。

更复杂的方法可用于确定规则。一个共同的特点是，它们以自下而上的程序运作。比如说，数据根据一个变量的水平分成两组。以类似方式基于第二变量的分割给出了四组。

PRISM 是一个商业上可用的系统，它通过反复测试和修改正在构建的规则来建立规则。 ¹ 它从一个简单的“如果 A 那么 Z”规则开始，根据正确的预测比例选择 A。通过以类似的方式选择 B 来获得改进，给出“如果 A 和 B，则 z。”该过程继续，引入 C、D、E 等。直到规则完善。由此产生的规则数不胜数，有些还会相互矛盾。必须解决含糊不清的问题，可能的办法是根据覆盖范围进行选择。

决策树

决策树是一种众所周知的结构，因其易于理解而广受欢迎。图 23-1 显示了根据我们在上一节中使用的数据构建的树。在树的每一个阶段，数据都根据一个标准进行分离，换句话说，就是回答一个问题。目的是在每个阶段提出正确的问题，以便适当地分离数据，从而做出有用的预测。

因此，关键问题是在每个阶段选择最佳的提问方式。分类回归树(CART)是一种常用的方法，它检查所有可能的问题并选择最佳的。最好的是减少数据混乱的那个；由于这个原因，人们使用了熵这个术语，它是无序度的一种度量。实际上构建了一个复杂的树，但是在每个阶段重复验证和避免过度拟合会产生一个有效的结构。

另一种方法是卡方自动相互作用检测器(CHAID)。顾名思义，卡方检验(第七章)用于决定要问哪些问题来形成树中的分裂。建立了列联表，你会记得，数据必须是描述性的。连续的数字数据可以按类别分组以便处理。与 CART 生成的树不同，这些树可以采用多种拆分方式，这导致了更广泛的排列并简化了解释。

决策树生成规则，但是这些规则与我们在上一节中看到的方法所获得的规则有所不同。决策树自上而下地工作，在每一层寻找可能的最佳分割。对于每个记录，将有一个规则来覆盖它，并且只有一个规则。在图 23-1 所示的例子中，从上到下走每一条路线都会重复用于构建树的记录。当然，这是一种过度拟合的情况，为了用少量的数据来说明这个原理，这种情况是合理的。

图 23-1。

A simple decision tree

联合

数据库中的每条记录都显示了指定值或级别的变量之间的关联。如果我们回头看看我们用来说明规则发展的示例数据中的第一条记录，我们可以看到这是如何应用的。我们有“如果男性和星期六和商店 A，那么是。”因此，我们在记录中有四个变量之间的关联。事实上，我们可以分解这些关联，以规则的形式给出更多的关联:

如果是男性，那么周六
如果周六，那么男性
如果男性和周六，则存储一个
如果男性和周六，则存储 A 和 yes
等等

总共有 50 条规则可以根据这一单个记录中揭示的关联来陈述。这是一个非常大的数字；但是，当然，许多规则不太可能有实际用途。因为可以生成如此多的规则，所以有必要有一个基本原理来剔除那些不太可能有用的规则，并选择那些有效的规则。

选择是基于准确性和覆盖面。准确性将显示规则给出正确答案的可能性，而覆盖率将表明规则可能应用的频率。

我们可以使用前一个示例中的 12 条记录的完整列表来展示如何应用该过程。数据中包含的级别数如下:

可能的双组分组的数量-例如，“男性，星期六”-是 30。
可能的三组分组的数量——例如，“男性，星期六，A”——是 44。
可能的四个组成部分的组的数量是 24，例如，“男性，星期六，A，是”。

| 性别 | 一天 | 商店 | 卖 | | 2 个级别 | 3 个级别 | 2 个级别 | 2 个级别 |

请注意，这些数字并不是显而易见的:它们来自变量水平的可能组合的总和。

我们可以通过考虑覆盖范围来减少兴趣组的数量。Male 和 Saturday 出现在 12 个记录中的 3 个，所以覆盖率是 3/12，或 25%。类似地，通过将记录与完整的组合集进行比较，可以获得以下值:

| 新闻报道 | 2 个组件 | 3 个组件 | 4 个组件 | | --- | --- | --- | --- | | Zero | Zero | Twelve | Fifteen | | one | six | Nineteen | six | | Two | Twelve | Ten | three | | three | nine | three | Zero | | four | Two | Zero | Zero | | five | one | Zero | Zero | | 总数 | Thirty | forty-four | Twenty-four |

在这个阶段，我们可能会决定只考虑那些覆盖率为 4 或 5 的组，并在准确性的基础上对它们做出进一步的判断。所选的三组都是双组分的，所以每组给我们两个可能的规则。这些措施如下:

| 覆盖率 5。 | 男性，是的 | | 规则:“如果是男性，那么是” | 准确度 5/6 = 83% | | 规则:“如果是，那么男性” | 准确度 5/7 = 71% | | 覆盖率 4。 | 女性，A 店 | | 规则:“如果是女性，则存储 A” | 准确度 4/6 = 67% | | 规则:“如果储存一个则女” | 准确度 4/7 = 57% | | 覆盖率 4。 | 商店 A，是的 | | 规则:“如果存储 A，则是” | 准确度 4/7 = 57% | | 规则:“如果是，则存储一个” | 准确度 4/7 = 57% |

请注意，如果我们一直在考虑具有更多组件的组，那么每个组将会有许多可能的规则，因为组的成员可以在 if-then 语句的任何一侧组合。我们提到，四个组成部分中的一个就可以产生 50 个可能的规则。

值得指出的是，在最大覆盖范围内具有最高准确性的规则——即，如果客户是男性，则商品销售——是我们在讨论简单规则时使用 1R 规则发现的规则。

即使在数据很少的情况下，手工处理群体的覆盖范围和规则的准确性也是非常费力的——但对于计算机程序来说，这当然是一项简单的任务。

使聚集

聚类是以这样一种方式对数据进行分组，即每组中变量的水平比其他组中相应变量的水平更相似。例如，可以根据所供应货物的类型、地点或所供应货物的价值对供应商进行分组。病人可以根据他们不同的症状进行分组。如果任何一个变量用于分组，其他变量不太可能显示相同的分组。目的是确定哪个变量或变量组合给出了最佳的总体分组。

因此，分组的方式并不是一开始就决定的。分组技术固定分组，这种情况称为无监督学习。这个过程没有预先设定的模式，当分组完成时，确定最佳结果的逻辑可能并不明显。然而，必须决定需要多少组。很明显，如果没有数量上的限制，最佳的安排将是大量的组，每个组有一个成员。这是一种过度拟合的情况，不会起到任何有用的作用。

分组是根据一个记录与另一个记录的接近程度进行的。接近度被认为是记录之间的距离。如果我们最初考虑两个变量，x 和 y，一个二维图将允许绘制每个记录，并且这些点可能在某些区域显示聚类——比如小 x 和大 y。每对点之间的距离将是连接两点的直线的长度，这将是关联的度量。对于三个变量，我们可以画一个三维图，所需的度量也是连接点的长度。虽然我们不能画出三维以外的东西，但在数学上没有任何问题，因为我们有无限的维度来容纳所有的变量，并计算各点之间的距离。当组内距离最小而组间距离最大时，分组是最佳的。当然，变量有不同的单位(美元、周、米等。)，并且必须定义一个等价关系以允许计算距离。等值可以基于每个变量的范围。

迭代程序中的许多变化都朝着最佳分组的方向努力。最初可以随机选择的组中心根据所得的计算距离进行修改。一些系统从最初定义的组数开始工作，并允许随后改变数量。其他系统产生组的层次结构，或者从粗略的分组开始并将其分解，或者从单独的记录开始并逐渐减少组的数量。尽管我们在讨论中提到了最佳分组，但是应该注意，没有系统能够保证完美的唯一解决方案。

与聚类密切相关的是最近邻技术。多维空间中的邻近概念再次被使用；但是，我们的目标不是试图通过分组来使数据合理化，而是在记录之间建立相似性以提供预测。因此，与聚类不同，这是一种监督学习的形式。

神经网络

神经网络如此命名是因为它与大脑中的神经元网络相似。这种类比可以扩展到神经网络能够以大脑学习的方式进行学习，尽管这种类比不应该太过分。假设神经网络是一个可以简单地输入数据的黑匣子是不正确的，它将学习处理这些数据，然后输出答案。然而，神经网络是从人工智能学科中产生的，其目的是模仿大脑的工作。

相似性在神经网络的示意性布局中是显而易见的。它由通过链路连接的节点组成，以便数据从输入节点移动到输出节点。图 23-2 示意性地显示了一个简单的布置来说明原理。

图 23-2。

A simple neural network illustrating the principle

在输入节点和输出节点之间可能有一层节点，这些节点被称为隐藏节点。每个变量都有一个输入节点，输入数据通常被缩放为 0 到 1 之间的值。到下一个节点的链接将在传递该值之前对其执行乘法运算。乘法实际上是一个加权因子。下一个节点将从其他输入节点接受几个值。然后，添加的值将被传递到输出节点。要使用的节点的数量必须在一开始就决定，并且链路的数量可能数以万计。输出数据是数字，必须转换回所需的变量值或级别。

来自训练数据的记录一次输入一个，输出与所需值进行比较。该误差导致链路权重的修改，大误差产生大变化，小误差产生小变化。随着过程的继续，链路权重被修改，并且系统接近可接受的输出，但不过度拟合。因为过度配合会带来问题，特别是当很难看到加工是如何进行的时候。事实上，除了算法设法得到正确的答案之外，没有任何逻辑方法可以描述这个过程。由于理解输出的处理和所需转换的复杂性，已经有了包装神经网络程序以适合特定应用的举措。

图 23-2 的简单排列只有三个输入节点，接受我们希望评估的受试者的年龄、体重和身高，以确定下一年是否需要住院治疗。每个输入变量(在合理的范围内)都被缩放到 0 到 1 之间的值。输出为 0 表示否，输出为 1 表示是。显示了一组可能的链路加权值。可以看出，三组示例输入数据的输出位于 0 和 1 之间，并且可以解释为需要医院治疗的概率。

全体

由于有许多不同的方法和模型可供选择，很难一开始就知道哪一个可能是给定数据集的最佳选择。然而，已经发现组合两个或更多不同的模型可以给出比任何单个模型更好的预测。实际上，投票程序正在进行。

这些组合的模型被称为系综。关于合奏的一个显著发现是，他们似乎没有遭受过度学习(Siegel，2013: 148-149)。当分析变得复杂到如此全面地描述数据以至于结果对数据的细节特征敏感时，过度学习或过度拟合(如我之前所描述的)就会出现。西格尔将合奏的这一有利特性比作群体行为。一群人猜测并平均结果，通常会比大多数人更接近正确答案。沃森，这台 IBM 电脑在美国电视智力竞赛节目《危险边缘》中击败了两名专家选手！在 2011 年，被编程为由数百个模型组成的整体。

MANHOLE CONTROL

纽约市有超过 94，000 英里的地下电缆。检修孔为电缆提供了入口，周期性故障会导致检修孔起火、爆炸和检修孔冒烟。有大量的数据与 19 世纪 80 年代以前的事件和检查有关。这些记录已经被服务于纽约市的电力公司联合爱迪生公司收集和保存。

为了从根本上更新公司的检查和维修计划，决定使用过去的记录来确定最有可能发生严重事故的检修孔和风险最小的检修孔。这将提高系统的可靠性和公共安全。

由哥伦比亚大学的科学家和联合爱迪生公司的工程师组成的团队承担了处理可用数据的任务。原始数据多种多样，包括过去事件的记录、工程师处理事件的记录、检查记录、检查井位置和电缆数据。由于收集信息的时间太长，记录方式不一致，甚至在确定地点和部件方面也不一致。

对原始数据进行处理，以提供每个检查井十年期间的准确事件历史和潜在的 120 年电缆历史。结合检查结果，通过机器学习算法处理数据，以产生旨在预测单个检修孔故障的预测模型。

使用训练数据对模型进行了测试。数据来自三个区:曼哈顿、布鲁克林和布朗克斯。对 2009 年的预测来自早期的数据，并与实际的检查井爆炸和火灾进行了比较。预测发生严重事件的前 10%的检修孔包含 44%的发生严重事件的检修孔，前 20%的检修孔包含 55%的发生严重事件的检修孔。

这项工作被认为具有重要价值，为电网检查和维修提供了更好的程序，可以改善公共安全和能源可靠性。该项目展示了使用所有可用数据的价值，无论这些数据有多混杂和混乱——大数据，而不仅仅是选择。该项目还展示了收集数据用于未来预测的价值，而不仅仅是作为历史记录。

Footnotes 1

PRISM 是“统计建模编程”( http://sato-www.cs.titech.ac.jp/prism/ )的缩写——与美国国家安全局的互联网服务器监控计划无关。

二十四、参与大数据

What Would You Like To Know?

在前一章中，我们看到了从大数据中提取信息的过程非常简单。相比之下，建立计算机系统，以可靠和快速的方式将程序应用于大量数据，需要大量的专业知识。在总结了大数据的潜在应用后，我们将讨论企业如何成为这一激动人心的新发展的一部分。

应用程序

几乎没有任何人类活动领域不受大数据的影响，而且这一趋势可能会以越来越快的速度持续下去。任何对应用程序的总结都倾向于以一个很长的例子列表结束。

谷歌和雅虎等搜索引擎提供商可能是最先使用大数据方法的。通过基于关键字和相似性的文本检索来定位文档。

零售提供了适当的应用。大型超市，如沃尔玛和乐购，拥有令人难以置信的大量数据，因为每件商品的每笔销售都通过条形码记录。可能是某些项目倾向于在同一笔交易中一起出售，或者某些项目在某些时候可能卖得更好。价格和库存可以改变，以利用优势，促销活动可以适时进行。如果使用商店卡或忠诚卡进行购买，则所销售的商品可以与顾客相关联，从而与顾客的性别、年龄、地址等相关的购买习惯相关联。乐购正在其加油站安装面部扫描设备，以记录顾客的性别和可能的年龄。

如果零售商向潜在客户邮寄优惠券和产品详情或特价商品，大多数方法当然不会产生任何结果。但是将会有可用的存储数据来显示那些在过去已经成功的特征。因此，有可能锁定最有可能做出积极回应的那类客户。信用卡、保险或投资机会等金融产品的销售也可以采用类似的方式。该策略可应用于所有与销售相关的业务。例如，亚马逊通过向顾客发送基于先前购买的推荐书目来销售其大部分图书。通过识别和锁定最有可能离开的客户，可以提高客户保持率。

互联网可以为零售商提供大量数据。网站上的每一次点击不仅提供了销售信息，还提供了对产品的初始兴趣、重复兴趣、立即拒绝、价格公布时拒绝或送货费出现时拒绝等信息。

提供邮件、包裹和货物运输的公司通常使用条形码，从而潜在地积累了大量数据。有关商品的性质、来源和目的地的信息可以预测未来的资源需求，并确定增长领域。可以改进交付的调度和路线规划。

金融机构和银行可以使用历史数据来确定向特定客户提供贷款的风险水平，甚至欺诈的可能性。信用卡客户的消费习惯可以揭示出那些最有可能对其他金融产品感兴趣的人。税务机关和负责政府合同的人也可以使用欺诈检测。可以检测出可能的欺诈性保险和保修索赔。

在打击犯罪的斗争中，可以突出更容易受到特定种类犯罪活动打击的领域。可以确定恐怖袭击的可能性，并且可以量化等待释放的囚犯重复犯罪的可能性。

产品开发是一个昂贵的过程，如果产品错过了目标市场，结果可能是灾难性的。传统上，对潜在顾客的抽样已经被用来建立推荐产品的期望特征；但是取样是昂贵的，并且它的有效性受到样本大小的限制。预测分析提供了将新产品的特征与其在特定类型客户中的受欢迎程度联系起来的可能性，正如先前的购买模式所揭示的那样。

医疗记录显示了后来出现特定症状的患者的特征和既往病史。关系可以被识别，从而对未来可能的疾病给出警告。类似地，可以比较不同治疗的功效。成功的预测包括流感的传播、早产的发生和手术中死亡的风险。乳腺癌的诊断已经得到改善。

工业过程的控制获得了许多好处，如减少缺陷项目的数量和避免操作问题。机器和大型工业设备出现故障之前，通常会出现振动、温度升高或各种噪音等症状。区分严重症状和良性症状的信息或者指示可能的崩溃时间的信息具有相当大的价值。预防性维护计划可以受益于这样的信息。以类似的方式，根据所报告的故障症状来诊断汽车和其他车辆的问题是可能的。电缆、洗衣机和办公设备发生故障的可能性已经被预测到了。

在能源工业和公用事业中，根据时间和位置监控用户使用可以提高发电和供电的效率。

通过锁定潜在的捐赠者，慈善机构受益于捐赠的增加和成本的降低。最需要帮助的人也被找到了。

政府掌握着大量的数据。其中一些是集中保存的，例如人口普查和税收记录，并进行有效的处理，但大部分分散在许多地方。例如，组合数据存储提供了在基础设施规划、打击犯罪和医疗保健中进行有用预测的潜力。

Mayer-schn Berger 和 Cukier (2013 年)和 Siegel (2013 年)以引人入胜的细节描述了许多应用。后者有一个包含 147 个具体预测分析案例的汇总表，这些案例为相关组织带来了好处，通常是财务上的好处。

应该注意的是，上面提到的一些应用严格来说不是预测。更确切地说，他们是在寻找某个地方的某个人在当前已知的答案。例如，搜索引擎定位已经存在的信息，尽管对用户来说这些信息是供将来使用的。在前一章提到的案例中，沃森成功地玩了《危险边缘》!事实问题的答案当然是竞赛制作人事先知道的，沃森的任务是从其几兆字节的磁盘存储中确定这些答案。

AIRCRAFT CRAFT

罗尔斯·罗伊斯从 20 世纪 70 年代的财务困境中崛起，成为一家成功的全球性公司。它是世界上第三大飞机发动机制造商和第二大大型喷气发动机制造商。大约一半的宽体客机和四分之一正在生产的小型飞机由劳斯莱斯引擎驱动。同样重要的是它在船用发动机和能源行业的业务。

其成功故事的一个主要因素是数据的收集和应用。它的喷气发动机装有监控系统，可以收集发动机内不同位置的温度、压力、流量、转速和振动水平。成功的 Trent 系列发动机可以安装大约 25 个传感器。来自传感器的信号在起飞、爬升和巡航期间被收集，并在飞机的每次飞行期间通过无线电或卫星链路传输到公司在德比的总部。任何异常的发动机状况都会触发额外的传输。

在 Derby，使用基于神经网络的算法自动分析收集的数据。熟练的工程师对异常特征进行研究，以获得诊断结果，并据此做出决策。可能有必要通知目的地机场的维护团队需要进行检查，或者保证发动机性能令人满意。无论哪种方式，该程序都可以减少延误，提高乘客的安全性和满意度。在与运营公司讨论后，还可以确定发动机的逐渐退化，并商定检查时间表。发动机性能的突然变化可能需要更多的即时检查，同样，可以对这些检查进行编程，以适应操作员的选择，而不会危及安全。这些程序提高了发动机的工作寿命。

罗尔斯·罗伊斯对数据的利用使其在业务服务方面处于领先地位。当它销售一台发动机时，它实际上是在销售该发动机的终身服务。另一家公司很难打入这个市场的角落。

大玩家

第一章从能用铅笔和纸处理的事情开始。随后的章节涉及到需要袖珍计算器、电子表格和最终的计算机软件包的计算。这一章到达了一个需要专家帮助的阶段。不管你读过什么或被告知什么，处理大数据并不容易。这个主题充满了新的术语和大量的行话，而且这个过程需要编程和其他专业知识。

处理大数据最著名的技术可能是 Apache Hadoop，它是由雅虎在 2006 年至 2008 年期间开发的。它现在是一个开源的数据存储框架，可以处理 10 到 100 千兆字节以上的数据(Dumbill，2012)。它使用一个文件系统 Hadoop 分布式文件系统(HDFS)—分布在众多服务器中。它可以实时捕获、读取和更新大量非结构化数据，如社交媒体、点击、事件数据和传感器数据。事实上，Hadoop 可以接受任何类型的数据，无论是用于处理还是长期存储。系统中有许多复制和冗余，因此服务器故障不会造成问题。

Hadoop 不是一个单一定义的实体，而是一个包含众多辅助模块和程序的不断发展的生态系统。

移动数据是昂贵的，所以数据处理在数据驻留的地方进行，尽管任务被分配给许多服务器。这种处理是通过 MapReduce 实现的，MapReduce 最初是由 Google 开发的。MapReduce 中的“map”指的是数据的过滤和排序，“Reduce”指的是汇总过程。处理结果返回给 HDFS。除了 Hadoop，MapReduce 还用于其他数据库。

在 HDFS 加载文件的 Java 编程是很乏味的。使用猪或蜂箱使这项任务变得更容易。Pig，来自雅虎，是一种可以处理半结构化数据的编程语言。来自 FaceBook 的 Hive 是一个允许 Hadoop 作为数据仓库使用的模块，以类似于 SQL 的形式接受查询，SQL 是一种常用的数据库管理编程语言。

HBase、Sqoop 和 Flume 提供了数据访问方面的改进。HBase 是一个运行在 HDFS 之上的数据库，提供数十亿行数据用于快速访问。HBase 还可以用作 MapReduce 的数据源和目的地。Sqoop 通过 HDFS 或 Hive 将数据库中的数据导入 Hadoop。谷歌(Google)的 Flume 用于向 HDFS 传输数据流。

Zookeeper 组织各种组件，而 Oozie 管理工作流。Mahout 是一个机器学习组件。

Hadoop 应用中使用的其他附加组件，有些是 Hadoop 的一部分，有些不是。从这个简短的总结中可以看出，为特定环境选择元件是专家的工作。

适合分析的问题种类繁多。银行和保险行业的风险暴露可以建模。可以分析客户流失。可以识别对互联网销售、一般零售、广告和制造的产品偏好。传感器数据用于预测电信运营商和数据中心的故障。处理互联网商务和网站的搜索分析。可以识别威胁、欺诈和垃圾邮件。有一种工具可以收集各种行业的数据，在此基础上可以进行各种分析来寻找模式。

Apache Cassandra 是另一个开源数据库管理系统。它是在脸书开发的，它的一长串重要用户，如 Twitter 和网飞，证明了它的多功能性和可靠性。它是一个自动复制到多个中心的分布式系统。不存在单点故障。与 Hadoop 相比，它在处理实时数据方面得分较高，但在分析方面得分较低。

像 Google、IBM、Microsoft、HP、Amazon、SAP 和 Oracle 这样的大公司利用开源设施以及它们自己的组件，为企业提供商业服务。Cloudera、Teradata、1010data、Fujitsu、kognitiono、Microstrategy 和 NetApp 是其他一些提供类似服务的公司。

CREDIT WHERE IT’S DUE

2009 年，美国出台了保护次级借款人的立法。它要求贷款人为借款人提供更公平的利率和费用。传统上，次贷市场的贷款人依赖利率和费用来盈利。

卓越银行卡是一个为信用记录受损的个人提供信用卡的组织。该公司致力于帮助个人在财务方面获得第二次机会。新的立法产生了问题。一方面，如果向信用度未达到令人满意水平的客户发放了太多的卡，就会造成损失，并给监管机构带来压力。另一方面，过分强调那些正在复苏的信用卡会导致客户流失，转而购买优质信用卡。

Premier 决定采用 SAS Business Analytics 来识别其最佳客户:那些介于两个极端之间的客户，他们正在获得信誉。分析中还包括通过每日审查和每日预测对客户和市场数据的快速响应，以及满足法规要求的费用合理性分析。

该方法的优点是基于 Premier 自己的数据，而不是基于导入的数据或性能模型。

确定了理想客户的特征。例如，研究发现，最好的客户平均与 Premier 合作了五年。知道谁是最好的客户意味着他们可以被有效地锁定。顾客保留被认为是重要的。多留住一个月的客户会让 Premier 多赚近 12 美元。保留策略改进 10%产生了 480 万美元。

结果实现了 5000 万美元的收入增长、2400 万美元的额外客户保持率以及 100 万美元的欺诈损失。

较小的选项

随着大数据受到如此多的关注，许多没有参与其中的中小型企业正在考虑是否应该参与，或许还想知道他们想从中获得什么。这些企业大多没有内部专业知识，将依赖大数据分析的商业提供商。此外，一些此类企业将避免与上述大企业有牵连，而更愿意以一种更温和的方式起步。能提供大数据分析的顾问有几十个。这些都是规模较小的公司，雇佣的员工从少数几个到几百个不等。他们通常会开发模块来执行相当标准的数据分析，这些模块可以很容易地适应不同业务的需求，这显然降低了所涉及的成本。当然，互联网提供了这些咨询公司的详细信息，通常还有他们活动的案例研究，还有一些有用的目录，包括不同公司之间的比较。SourcingLine 是一家提供大数据分析领域咨询公司排名和评论的公司。

寻求帮助的企业将拥有大量过去活动记录形式的数据，这显然是一个起点。对现有数据的分析可能很简单，尽管明确数据中的问题很重要。例如，如果有人告诉我，夏天可能会卖出更多的凉鞋，冬天可能会卖出更多的靴子，这不会令人兴奋。

最初的结果将提供有用的介绍，但价值有限，除非有新的数据输入系统。实时数据流对于快速应用分析结果和有效控制业务运营至关重要。如果公司认识到某个特定的问题需要解决方案，数据分析公司可以开发一个合适的模型或使用它可能有的模型。可以提供模型，培训工作人员使用模型，必要时将模型应用于不同的数据集。任何额外的问题将需要进一步的适当模型。

到目前为止，企业可能还没有与解决方案提供商签订协议，并且可以货比三家，但是更高级的进一步分析可能需要更长期的安排。该企业将提供其活动的全部细节，并要求一个系统，该系统将产生能够分析和处理预测和问题的模块。包括对未来潜在问题的预测以及在问题出现时的处理能力。

关于数据分析公司的选择，将适用与从事任何其他形式的咨询时相同的标准。将考虑成本、锁定程度、时间范围和数据安全性等问题。委托一家曾经协助或专门从事类似业务的公司可能会有好处，因为该公司可能拥有适当的专业知识和现成的软件。

TURNING CHURNING TO EARNINGS

2degrees 是一家新西兰移动电信公司。在四年时间里，面对长期安装的竞争，它赢得了 100 万客户。

虽然没有内部专业知识，但由于认识到大数据分析的价值，该公司决定寻求 11Ants Analytics 的帮助。流失——即客户离开并转向竞争对手——是一个特殊的问题。的确，这是手机行业的通病。2degrees 选择使用由客户分析器、客户流失分析器和模型构建器组成的模块套件。使用 11Ants Analytics 的这些可用模块意味着工作可以快速进行。

结果令人印象深刻。通过在网络上的时间、自上次充值以来的天数、客户号码是否被转移、客户计划以及过去 90 天的呼叫行为来识别最有可能发生交易的客户。

一项实验进行了三个月。客户根据他们交易的可能性进行分类。11Ants 流失分析器选择的最有可能流失的 5%客户被发现比随机选择的客户流失的可能性高 12.75 倍。被选为最有可能流失的 10%的客户被发现比随机选择的客户流失的可能性高 7.28 倍。

2degrees 现在可以专注于那些最有可能面临风险的人，并减少其在保留营销方面的支出。目标人数减少意味着留用提议可能更加慷慨。额外的好处是，不太可能流失的客户不会对要求他们留下来的消息感到恼火。此外，优惠可以根据客户的使用情况进行调整——通话分钟，短信分钟。

二十五、对大数据的担忧

The Small Print

有益的创新总是有负面影响。为了更快的旅行，我们接受大量的交通事故和偶尔的空难死亡。为了核能的利益，我们接受核战争的风险。大数据并不是唯一存在问题的领域，但我们并不是在思考文明的终结！

安全性

数据是有价值的。不仅仅是从处理过的数据中得出的结论具有经济价值；数据本身因其潜力而具有价值。例如，OpusData 是一家出售 Numbers 数据访问权限的公司，这是一个包含约 15，000 部电影和 18，000 名演员、导演和技术人员的财务细节的大型数据库。当然，传统上，有些小企业相当费力地收集数据，然后有偿提供给行业和媒体机构。随着数据存储变得越来越大，其价值也呈指数增长。甚至有人建议，公司存储的数据应该被归入货币价值，然后再计入公司资产。

在错误的人手中，数据会给公司、政府和公众带来严重的问题。因此，安全性至关重要，尤其是当企业将其数据委托给不同公司的云存储和处理时。尽管公司采取了极端的预防措施，但众所周知，敏感材料的泄漏一直存在，并且仍在发生。它们可以是落在火车上的笔记本电脑，也可以是访问银行账户的黑客。2014 年 2 月，巴克莱银行报告称，该行正在调查数千份包含客户详细信息的文件丢失一事。据称，包括客户对风险的态度在内的文件被卖给了伦敦金融城的流氓交易员。

可以理解的是，一些企业出于对安全性的担忧，不愿接触大数据。

隐私

我们每个人都被各种组织存储的数据广泛地记录下来。我们的详细信息在购物、在线搜索、社交网站互动、金融交易等过程中被隐藏。此外，还有更明显的传统数据存储库，如选民登记册、就业和税收细节、护照和各种执照。

过去，当数据处于休眠状态时，这并不重要；但是现在，在未经同意的情况下，这些数据被用于各种目的，而公众才刚刚开始意识到这一点。有时，通过删除姓名和地址使数据匿名，但大量研究表明，通过记录中特定特征的组合以及与其他数据库的链接来识别个人往往是一项微不足道的分析任务。

亚马逊的隐私政策没有限制其从 Kindle 设备用户处收集数据，并保留向第三方(如出版商)出售读者阅读档案和习惯分析的自由。随着大数据使用的增加，许多消费者越来越担心系统和滥用隐私侵犯的可能性。关于我们正在做什么和我们将来可能做什么的信息正变得广为人知。这样做的一个不利方面是，我们可能会被基于概率而非现实的判断所左右。一位三十岁的艺术家听爵士乐，住在镇上的贫困地区，他可能会因为银行大数据分析的风险预测而被不公平地拒绝银行贷款。一个对运动不感兴趣并且经常吃快餐的办公室职员可能会被拒绝医疗保险。据报道，美国运通根据客户的购物地点固定信用卡限额，而不考虑个人的记录(Croll，2012)。

对未来的预测让人想起乔治·奥威尔的《1984》。一对夫妇在家聊天时发现了意见分歧。电视机已经打开，正在收听他们的谈话。信息经过处理后，在下一个商业广告时段会出现一则婚姻咨询广告。更严重的问题是根据概率对个人可能采取的法律行动。如果一个人有 85%的可能性再次犯下谋杀罪，他应该被释放吗？开快车的司机应该因为潜在的超速被罚款吗？这类问题听起来可能相当愚蠢，但是我们已经可以因为基于概率的正当行为而被起诉。开车时不系安全带和在公共建筑吸烟都是有害行为的例子——但只是潜在的有害行为。

我们开始看到对大数据侵犯隐私的反应。康奈尔大学的学生反对纽约州与 inBloom 的合作，in bloom 是一个寻求在单一数据库中收集学生详细信息的组织。在加入 inBloom 的九个州中，有八个已经因为隐私问题退出了。《华盛顿邮报》报道称，人们对以病人为中心的结果研究所(PCORI)的活动相当关注，该研究所正在收集详细的病人医疗记录。目的是收集数据进行分析，以改善诊断和治疗。

英国也有类似的反对声音。身份证的引入遭到了强烈反对。在公众抗议之后，在少数民族人口众多的郊区，闭路电视摄像机不得不被拆除。2012 年，政府提出立法，强制销毁任何被逮捕但未被定罪的人的样本和 DNA 图谱以及指纹记录。

英国政府计划将国民医疗服务体系持有的大量医疗记录集中起来，目前这些记录分散在各个医生办公室、健康中心和医院，该计划已被搁置。令人担忧的是，这些数据将被出售给医疗公司和学术界，以实现医疗保健的重大改进，但安全漏洞可能会导致患者被识别。具有讽刺意味的是，以护理克里米亚战争中的伤病员而闻名的英国护士弗洛伦斯·南丁格尔在 19 世纪 50 年代率先记录医疗数据，以改善治疗。

技能短缺

处理大数据需要特殊技能。新型科学家——数据科学家——需要结合统计学家、软件程序员和图形设计师。需要一些机器学习、人工智能和神经网络的知识。此外，他或她需要了解业务目标，并具有良好的沟通技巧。后者尤其重要，因为大数据分析的结果可能必须提交给高级管理人员，他们对需要采取什么行动有自己的偏见。

虽然我们可以期待在未来产生足够的数据科学家，但目前存在短缺。北卡罗来纳州立大学高级分析研究所的经验很好地说明了这一点(Burlingame 和 Nielson，2012:60–61)。2012 年，有 38 名候选人申请分析学硕士(MSA)。其中，他们与 54 名雇主进行了 591 次面试。其中 97%的人获得了一份或多份聘书，47%的人获得了三份或更多聘书。报价涵盖了一系列业务:银行、金融、咨询、能源、游戏、医疗保健、互联网、制药、研究和软件。

一个新概念

大数据的到来改变了我们对统计的看法。传统上，统计学体现了这样的原则，即相关性不应被视为暗示因果关系，推断是一种必要的罪恶。在大数据分析的应用中，这些基本教义并没有被否定，只是被规避了。因果关系的存在被认为是不相关的。如果变量之间存在关联，只要我们迅速行动，就可以利用这种关联，这种迅速的反应使外推问题最小化。基于这些原因，一些统计学家对大数据持保留态度。其他人注意到，从这些数据中得出如此多的结论，一个比例将是完全错误的。这一点在前面几章讨论相同数据的多重比较时已经提到。

科学界已经公认，观察行为在某种程度上影响着被观察的事物。实验设计和调查程序在可能的情况下会考虑到这一点。当实验范围有限时，这种反馈的后果意义不大，但大数据的应用可以影响大量的人。如果购物者似乎更喜欢 Jispo 玉米片，技术将把销售额推得更高。最终其他品牌消失，大家都吃 Jispo。我们是不是开始创造一群行为完全相同的木偶了？

大数据的处理和加工可能是很长时间以来统计实践中最彻底的创新。我可以想象有一天基于适度样本的统计会被称为“传统统计”，甚至是“经典统计”。

2214 AD

世界首席西奥 7D9G 专注地盯着他周围的 3D 屏幕褪色。他目睹了两位世界副首席职位候选人的面试。当然，采访不是由他进行的，而是由 PASWRD 进行的。不可或缺的 PASWRD，或者更确切地说，它是所有世界实时数据的处理器和存储器，可以比任何人更好地采访和做许多其他事情。

但是有一个问题。PASWRD 报告说，在可预见的将来，无论是任命两位候选人中的哪一位，在经济上或社会上都不会有任何差别。西奥必须做出决定，但他并没有满怀热情地预料到这项任务——他很少在没有帮助的情况下做出决定。

他想了一会儿，然后他布满皱纹的脸上开始露出笑容。他在脑海中将 PASWRD 设置为预测模式，并专注于控制面板的图像。他插入了候选人 A 的假设任命，并开始引导一条精确定义的路径走向未来。超过五年的预测是不被允许的，但是西奥能够超越这个限制。最终满意了，他停止了投影。然后，他假设候选人 B 被任命，重复这个过程。

当第二个投影完成后，他认为他的椅子到一个放松的位置。他有答案。候选人 B 将被任命为新的副手。西奥将会有额外的四年寿命——当然，加上或减去不确定性，PASWRD 在 95%的置信水平下报告为 2.3 年。

二十六、参考资料和深入阅读

参考

布雷斯兰，迈克尔和安德鲁·迪尔洛特。2007.不是老虎:看穿数字世界。伦敦:人物传记。

伯林盖姆、诺琳和拉斯·尼尔森。2012.数据科学的简单介绍。里克福德，里:新街通信有限责任公司。

阿利斯泰尔·克罗尔。2012.“在大数据中需要关注什么。”现在的大数据:2012 年版。奥莱利媒体公司(Kindle book)。

艾迪.邓比尔。2012.“阿帕奇 Hadoop。”在规划大数据方面。奥莱利媒体公司(Kindle book)。

弗兰克，艾比。2009."算法:基本方法."《数据挖掘:无所不知》, Chakrabarti，Soumen 等著。

FT 记者。2013.解码大数据:将信息转化为利润的企业竞赛。伦敦:金融时报有限公司(Kindle book)。

嗨，约翰。2003.碰运气:以概率取胜。牛津大学出版社。

手，大卫 J. 2008。统计学:非常简短的介绍。牛津大学出版社。

朱利安·哈维勒。2008.不可能？反直觉难题的惊人解决方案。普林斯顿:普林斯顿大学出版社。

丹尼尔.卡尼曼。2012.思维忽快忽慢。伦敦:企鹅。

迈尔-舍恩伯格，维克多和肯尼斯·库基尔。2013.大数据:一场将改变我们生活、工作和思维方式的革命。伦敦:约翰·默里出版社。

赛义夫，查尔斯。2010.数学欺骗的黑暗艺术。纽约:维京企鹅。

埃里克.西格尔。2013.预测分析:预测谁会点击、购买、撒谎或死亡的能力。新泽西州霍博肯:约翰·威利父子公司。

查尔斯·史密斯，1976 年。设计中的可靠性导论。东京:麦格劳-希尔小学部。

酒馆迪克。2005.科学、民主和新原教旨主义。牛津大学出版社。

瓦茨，邓肯 J. 2011。一切都显而易见:常识让我们失望。皇冠商务。纽约:皇冠出版集团，兰登书屋公司。

怀斯曼理查德。2007.古怪学:日常生活中令人好奇的科学。伦敦:麦克米伦。

进一步阅读

Hair，Joseph f . Jr .，Rolph E. Anderson，Ronald L. Tatham 和 William C. Black。1998.多元数据分析。新泽西州上马鞍河:普伦蒂斯霍尔公司。

赫夫，达雷尔。1991.如何用统计撒谎？伦敦:企鹅。

莱文、理查德 I .和戴维 s .鲁宾。1998.管理统计。新泽西州上马鞍河:普伦蒂斯霍尔公司。

林德利 D. V .和 W. F .斯科特。1995.新剑桥统计表，第二版。剑桥:剑桥大学出版社。

麦克拉夫，詹姆斯 t，p .乔治·班森和特里辛西奇。1998.商业统计学初级课程。新泽西州上马鞍河:普伦蒂斯霍尔公司。

莫罗尼，1953 年获法学硕士学位。来自数字的事实。英国米德尔塞克斯:企鹅图书公司。

波克斯，罗杰。2005.网络链接统计词典。格拉斯哥:柯林斯。

赖希曼，W. J. 1964。统计学的使用和滥用。英国哈蒙兹沃斯:企鹅。

拉姆西黛博拉。2003.假人统计学。新泽西州霍博肯:威利出版公司。

萨克斯福德，罗杰，维克多尤普，编辑。1996.数据收集和分析。千橡市，加州:塞奇出版有限公司。

泰勒索尼娅。2001.商业统计。纽约:帕尔格雷夫·麦克米伦。

厄普顿、格雷厄姆和伊恩·库克。2006.牛津统计词典。牛津大学出版社。

第一部分：不确定性

Uncertainties

在这个世界上，没有什么是确定的，除了死亡和税收。

—本杰明·富兰克林

我们需要理解统计包含不确定性的原因。这将让我们感受到统计数据能做什么和不能做什么，我们能从中期待什么和我们不应该期待什么。这将使我们做好准备，以批判的眼光看待呈现给我们的统计数据和从中得出的结论。对基本概率的一些理解，这是评估不确定性所必需的，是在不假设读者有任何先验知识的情况下提出的。

第二部分：数据

Data

在数据不足的情况下形成不成熟理论的诱惑是我们职业的祸根。

亚瑟柯南道尔

我们现在来看看数据是如何获得的。这是利用数据的关键的第一阶段，因为任何统计调查结论的可靠性取决于以适当和公平的方式获得的数据。然后讨论数据的特征和格式，以及我们如何对数据进行分类。

第三部分：样本

Samples

随意思维的倾向是挑选或偶然发现一个支持或蔑视其偏见的样本，然后使它成为整个类的代表。

沃尔特利普曼

原始数据可以提供所需的所有信息，因此不进行后续处理。然而，在大多数情况下，情况并非如此。数据可能太广泛，不容易理解，可能需要汇总。以适当的方式进行汇总是很重要的，以便它以公平的方式代表原始数据。然后可能需要进行处理以估计从中提取数据的人群的特征。

第四部分：比较

Comparisons

理性尊重差异，想象力尊重事物的相似性。

—percy bysshe shelley

我们现在可以考虑在样本和总体的特征之间进行比较的情况，以便确定它们是否不同，或者可以简单地表示相同基础数据的可能变化。

第五部分：关系

Relationships

有创造力的人的功能是感知看似完全不同的思想、事物或表达形式之间的关系，并能够将它们组合成一些新的形式——连接看似不相关的事物的力量。

——威廉·普洛默

我们现在从考虑单一变量发展到考虑两个完全不同的变量是否以某种方式相关联。用正确的术语来说，我们正在从单变量数据转移到双变量数据，并寻找两个变量之间的关系。我们还将考虑两个以上变量之间的关系。

第六部分：预测

Forecasts

预测是非常困难的，尤其是对未来的预测。

-尼尔斯波尔

到目前为止，我们一直在研究用统计学来描述现在或过去的情况。当然，通常我们获得这样的理解是为了对未来做出决策——换句话说，我们对预测感兴趣。在这一部分中，我们将看到统计在预测中的作用。

第七部分：大数据

Big Data

我是没有教养、没有回报的数百万人中的一员，没有他们，统计学将成为一门破产的科学。我们以固定的比例出生、结婚、死亡。

—洛根·皮尔索斯·史密斯

在前面的章节中，我们已经关注了小样本和大样本，分界线通常在 30 个数据项左右。现在我们需要讨论非常大的样本——不只是稍微大一点，而是大得多。向大数据的过渡不仅引入了新的方法和程序，还创造了一种新的统计思维方式。它已经从依赖有限的抽样迅速发展到我们所有人都有意或无意地参与提供大量数据的情况。