ML的开放环路--第二部分
为什么模型精度是一个欺骗性的指标
本系列的第一部分是关于ML开发者的心理学。与模型开发相关的'准确性'指标为模型建立者提供了一个心理上的封闭。然而,准确度指标是模型训练过程的结果,它对模型在现实世界中的有用性没有什么影响。我曾提出,人为的封闭是造成原型数量和实际工作的ML系统之间差异的主要原因。
第一部分发表后,我收到了很多来自我的朋友的反馈,他们在构建工业级解决方案方面经验丰富,知识渊博。其中一些建议是非常中肯的。我可以把它们分为五个大类。
- 通过仔细选择训练数据集,可以提高模型准确性的相关性。数据应该包含足够的数量和种类,以反映真实世界。数据中的偏差也应该被识别和纠正。
- 任何系统都需要多次迭代才能在现实世界中变得有用。ML系统一旦投入生产,也可以通过增量变化来改进。
- 为了建立更强大的系统,设计应该被分成许多部分。只有那些严格意义上需要不确定推理的环节才应该使用模型来构建。
- 我们应该重新定义关闭的标准,就像我们对任何正常的软件项目一样。我们应该对正确的结果进行激励。
- ML系统的有用性也取决于使用的类型。虽然'协助'类型的要求很容易满足,但'替换'要求却很难满足。
我真的很高兴得到这些建议。这些回应告诉我,那些在实际问题中挣扎的人能够与ML的开放环路联系起来,他们已经在思考解决方案。受此鼓舞,我决定将我剩余的思考分为两部分--第二部分(本篇)和第三部分(下一篇)。
- 在这一部分,我将采用前两个建议。我将更多地关注模型的准确性以及为什么它不能反映正确的情况。我还将谈论在实施建议1和2时遇到的挑战。
- 在下一部分,我将使用建议3、4和5。我将提出一个使ML系统更有用的衡量标准,它可以作为一个封闭标准。
那么让我从准确度指标开始。与前一部分不同的是,前一部分完全是实践性的,而且是基于我的经验,这一部分包含了一些理论性的材料。这些材料是我的经验和思考的结果,部分是受我正在写的关于智能机器的数学的书的刺激。
真实世界、观察和模型
模型是一种进行猜测的方法。一个更好的模型可以做出更好的猜测。猜测过程是由三个步骤组成的。
观察(过去的数据收集)
检测模式(模型识别和训练)
使用模式(推理)。
模式可以有很多类型。在这里,我们将讨论一种特殊的模式--关系模式。我选择这种模式是有原因的。大多数流行的模型(回归、神经网络、贝叶斯)都使用这种模式。基于关系模式的ML算法通常被称为 "参数化方法"。关系模式意味着我们感兴趣的数量之间存在某种关系(或函数)。例如,回购利率和股票市场指数这两个数量被一个关系模式所连接。
当我们试图解决一个猜测问题时,我们会遇到三种不同的功能。
- 真实世界函数(RWF)。这是在现实世界中存在的实际关系。一个例子是接种疫苗的数量和传染病的传播之间的关系。实际上没有人知道这个函数,因为如果我们知道,我们就不会费力地训练一个模型了。
- 观察函数(OF)。这是我们ML工作中观察步骤的输出。我们以输入和输出变量记录的形式创建数据。数据本身就是OF。这个函数是以 "映射 "的形式出现的,这意味着你只看到数字对(或图元),而不是任何实际的函数。
- 模型函数(MF)。这是我们猜测RWF的尝试。这是一个实际的数学函数。尽管在某些情况下(如神经网络),不可能知道确切的函数,但肯定存在一个。在训练模型时,我们使用观察到的函数和ML算法来猜测最佳模型函数。
图片来源:Rajashree Rajadhyax
现在你可以很容易地理解为什么模型的准确性是如此的无效。
模型准确度表明MF与OF有多接近。使模型有用的是MF与RWF的接近程度。
对上述问题稍加思考,你就会意识到有用性的前提条件。
OF应该接近于RWF。
考虑一下这两个函数的性质。真实世界的功能是隐藏的和未知的。观察到的功能是你对现实世界现象的记录。事实上,RWF通过观察表现出来。为了使这个抽象的观点更容易理解,我们将举一个例子,一个ML文献的读者太熟悉的例子--识别一只猫。
这里的现实世界现象是,一张猫的照片包含了某些独特的形状,也包含了这些形状的一些区分性排列。你所收集的猫的图片是观察到的数据。一个神经网络可以学习这些形状/排列方式与猫的图片之间的关系。这就成为学习到的模型函数。在这个例子中,请注意RWF和OF的性质。现实世界的现象产生了猫的图片的特征。这种图片的数量是多少呢?实际上是无限的。世界上的每只猫在每一个姿势、每一个环境和灯光下都会产生一张新的图片。OF是不可能包含所有这些图片的。因此。
OF将永远是RWF所有表现形式的一个子集。
有了背景,我们列出了拍摄接近RWF的OF的挑战。
- 缺少知识。由于RWF是未知的,我们实际上不知道我们必须收集多少数据和哪些品种。
- 工作的指数性质。收集初始数据量的努力是合理的。当我们追求更多的数量和品种时,所做的努力会呈指数级增长。
图1:为什么收集更多的数据会更难
还有一个挑战,我将在稍后描述。
这个讨论应该足以突出模型准确性的欺骗性。如果精度为90%,那么MF和OF之间的距离相当于10%。但是RWF和OF之间的距离可能很大,因此模型在现实世界中的有用性目前还不知道。
我们怎样才能衡量一个模型在现实世界中的有用性?我将在下一部分谈及这个问题,但有一点应该是清楚的。
'一个模型在现实世界中的有用性只能通过把它放在现实世界中来衡量。
这意味着,除非模型在实际情况下运行足够长的时间,否则它的有用性将不明显。但是,在把模型放到现实世界中,有一个很大的障碍--错误的代价!
一个模型可以犯很多类型的错误。以一个识别癌症的模型为例。它可以犯两种类型的错误--假阳性(FP)和假阴性(FN)。这两种错误的代价可能是不同的。在癌症的情况下,假阴性的代价可能是巨大的,因为它错过了一个现有的医疗条件。现在考虑一下关于把模型放在现实世界中的以下几点。
由于RWF-OF的差距,模型会犯一些错误。
一些错误的代价可能是巨大的。
这个困难是在将模型投入生产的过程中出现的。这个系统就变成了一个循环(称为错误成本循环)。
RWF-OF差距 -> 错误 -> 不愿意投入生产 -> 无法填补RWF-OF差距
这个循环阻止了ML系统的渐进式改进。
结论和下一部分
我们最初的问题是实验性和生产性ML系统之间的差异。在这一部分,我们讨论了模型准确性指标具有欺骗性的原因。虽然它表明了模型与现有数据的接近程度,但它没有说明模型与真实世界现象的接近程度。事实上,错误的成本循环阻碍了将模型投入生产,并阻碍了进一步的数据收集。
我们现在知道,我们必须找到两个问题的答案。
我们怎样才能打破上述的错误成本循环?
我们可以为模型在现实世界中的有用性提出什么衡量标准?
我将尝试在下一部分提出上述问题的答案。我希望能收到一些关于上述讨论的良好反馈。如果你能把你的想法写在评论里,以便我可以方便地参考,那将是非常好的。
上一篇:[ML的开放环路 - 第一部分](http://The Open Loop of ML - Part 1)
The Open Loop of ML - Part 2原文发表于Towards Data Scienceon Medium,人们通过强调和回应这个故事来继续对话。