机器学习的7个步骤
机器学习是科技爱好者高度关注的一个领域。作为人工智能(AI)的一个分支来看,它基本上是一种算法或模型,通过 "学习 "来改善自己,并因此在执行任务时变得越来越熟练。机器学习的应用非常广泛,因为它正迅速成为医学、电子商务、银行等不同领域的一个组成部分。今天,我们将把机器学习分解为一个过程,并了解从其开始到实际应用的步骤。
机器学习的过程将被分解为以下7个步骤。为了说明每个步骤的意义和功能,我们将使用一个简单模型的例子。这个模型将负责区分一个苹果和一个橙子。机器学习能够为复杂的任务提供很多。然而,为了用简单的术语来解释这个过程,我们采取一个基本的例子来解释相关的概念。
第1步:收集数据
为了开发我们的机器学习模型,我们的第一步将是收集相关数据,这些数据可以用来区分这两种水果。不同的参数可以用来将一个水果分类为橙子或苹果。为了简单起见,我们将只采取两个特征,我们的模型将利用这些特征来执行其操作。第一个特征是水果本身的颜色,第二个特征是水果的形状。利用这些特征,我们希望我们的模型能够准确区分这两种水果。
颜色 | 形状 | 苹果还是橙子? |
---|---|---|
红色 | 圆锥形 | 苹果色 |
橙色 | 圆形 | 橙色 |
需要一个机制来收集我们所选择的两个特征的数据。例如,为了收集颜色数据,我们可以使用光谱仪;为了收集形状数据,我们可以使用水果的图片,这样就可以把它们当作二维图形。为了收集数据,我们将尽可能多地获取不同类型的苹果和橙子,以便为我们的特征创建多样化的数据集。为此,我们可以尝试在市场上寻找可能来自世界不同地区的橙子和苹果。
收集数据的步骤是机器学习过程的基础。诸如选择不正确的特征或专注于数据集的有限类型条目的错误可能会使模型完全无效。这就是为什么在收集数据时必须进行必要的考虑,因为在这个阶段所犯的错误只会在我们进展到后面的阶段时被放大。
第2步:准备数据
一旦我们收集了这两个特征的数据,我们的下一步将是为进一步的步骤准备数据。这个阶段的一个重点是识别并尽量减少我们的数据集在这两个特征上的任何潜在偏差。首先,我们将随机调整这两种水果的数据顺序。这是因为我们不希望顺序对模型的选择有任何影响。此外,我们将检查我们的数据集是否存在对某一特定水果的偏斜现象。这也将有助于识别和纠正潜在的偏差,因为这意味着模型能够正确地识别一种水果,但对另一种水果可能会有困难。
数据准备的另一个主要部分是将数据集分解成两部分。大的部分(约80%)将用于训练模型,而小的部分(约20%)则用于评估。这一点很重要,因为使用相同的数据集进行训练和评估,不能对模型在现实世界中的表现进行公平的评估。除了数据分割之外,还采取了其他步骤来完善数据集。这可能包括删除重复的条目,丢弃不正确的读数等。
为你的模型准备好的数据可以提高其效率。它可以帮助减少模型的盲点,从而提高预测的准确性。因此,审议和审查你的数据集是有意义的,这样可以对它进行微调,以产生更好和有意义的结果。
第3步:选择一个模型
一旦我们完成了以数据为中心的步骤,选择模型类型是我们的下一步行动。有各种由数据科学家开发的现有模型,可用于不同的目的。这些模型的设计是以不同的目标为基础的。例如,有些模型更适合处理文本,而另一个模型可能更适合处理图像。就我们的模型而言,一个简单的线性回归模型适合于区分水果。在这种情况下,水果的类型将是我们的因变量,而水果的颜色和形状将是两个预测因素或自变量。
在我们的例子中,模型的选择是相当直接的。在更复杂的情况下,我们需要做出符合我们预期结果的选择。机器学习模型的选择可以在3大类中进行探索。第一类是有监督的学习模型。在这类模型中,结果是已知的,所以我们不断完善模型本身,直到我们的输出达到所需的准确度。 为我们的水果模型选择的线性回归模型就是监督学习的一个例子。如果结果是未知的,而我们需要进行分类,那么就可以使用第二类,即无监督学习。无监督学习的例子包括K-means和Apriori算法。第三类是强化学习。它的重点是学习在试错的基础上做出更好的决定。它们经常被用于商业环境中。马尔科夫的决策过程就是它的例子。
第4步:训练
机器学习过程的核心是模型的训练。大量的 "学习 "是在这个阶段完成的。在这里,我们使用分配给训练的那部分数据集来教我们的模型区分这两种水果。如果我们用数学术语来看待我们的模型,输入即我们的两个特征会有系数。这些系数被称为特征的权重。还会有一个常数或Y截距。这被称为模型的偏差。确定它们的值的过程是试验和错误的。最初,我们为它们挑选随机值并提供输入。实现的输出与实际输出进行比较,通过尝试不同的权重和偏差值,使差异最小化。使用我们的训练数据集中的不同条目重复迭代,直到模型达到所需的准确水平。
训练需要耐心和实验。掌握模型将被实施的领域的知识也是有用的。例如,如果一个机器学习模型将被用于识别保险公司的高风险客户,那么对保险业运作方式的了解将加快训练的进程,因为在迭代过程中可以做出更多有根据的猜测。如果模型开始成功发挥其作用,培训会被证明是非常有益的。这就好比一个孩子学习骑自行车的时候。起初,他们可能会有多次跌倒,但经过一段时间后,他们对这个过程有了更好的掌握,并能在骑车时对不同情况作出更好的反应。
第5步:评估
随着模型的训练,需要对它进行测试,看它在现实世界的情况下是否能很好地运作。这就是为什么为评估而创建的部分数据集被用来检查模型的熟练程度。这就把模型放在一个场景中,让它遇到不是其训练内容的情况。在我们的案例中,这可能意味着试图识别一个对模型来说完全陌生的苹果或橙子的类型。然而,通过训练,该模型应该有足够的能力来推断信息,并判断出该水果是苹果还是橙子。
当涉及到商业应用时,评估变得非常重要。评估使数据科学家能够检查他们所设定的目标是否实现。如果结果不尽人意,那么就需要重新审视之前的步骤,以便找出模型表现不佳背后的根本原因,并随后加以纠正。如果评估做得不好,那么该模型可能无法出色地实现其预期的商业目的。这可能意味着设计和销售该模型的公司可能会失去他们与客户的良好关系。这也可能意味着公司的声誉受到损害,因为未来的客户在信任公司对机器学习模型的敏锐度时可能会变得犹豫不决。因此,对模型的评估对于避免上述不良后果至关重要。
第6步:超参数调整
如果评估成功,我们就进入超参数调整的步骤。这一步试图改进在评估步骤中取得的积极结果。对于我们的例子,我们将看看是否能让我们的模型在识别苹果和橙子方面做得更好。我们可以用不同的方法来改进模型。其中之一是重新审视训练步骤,使用训练数据集的多次扫描来训练模型。这可能会导致更大的准确性,因为较长的训练时间提供了更多的接触,并提高了模型的质量。另一个方法是完善给模型的初始值。 随机的初始值往往会产生糟糕的结果,因为它们是通过试验和错误逐渐完善的。然而,如果我们能想出更好的初始值,或者也许用一个分布而不是一个值来启动模型,那么我们的结果会变得更好。为了完善模型,我们还可以玩玩其他的参数,但这个过程更多的是直观的,而不是逻辑的,所以没有明确的方法。
自然,问题来了,当我们的模型达到目标时,为什么我们首先需要超参数的调整?这个问题可以通过观察基于机器学习的服务提供商的竞争性质来回答。当客户寻求机器学习模型来解决他们各自的问题时,他们可以从多个选项中选择。然而,他们更有可能被产生最准确结果的那一个所吸引。这就是为什么为了确保机器学习模型的商业成功,超参数调整是必要的步骤。
第7步:预测
机器学习过程的最后一步是预测。这是我们认为模型已经准备好进行实际应用的阶段。我们的水果模型现在应该能够回答给定的水果是苹果还是橙子的问题。该模型获得了对人类干扰的独立性,并在其数据集和训练的基础上得出了自己的结论。该模型面临的挑战仍然是它是否能在不同的相关场景中超越或至少匹配人类的判断。
预测步骤是终端用户在各自行业内使用机器学习模型时看到的情况。 这一步突出了为什么许多人认为机器学习是各个行业的未来。一个复杂但执行良好的机器学习模型可以改善其各自所有者的决策过程。人类在做出决定时只能处理一定数量的数据和相关因素。另一方面,机器学习模型可以处理和链接大量的数据。这些联系使模型能够获得独特的洞察力,如果采取通常的人工方法,这些洞察力可能不会被发掘出来。因此,宝贵的人力资源可以从处理信息然后得出决策的负担中解放出来。他们可以简单地使用机器学习模型作为工具,并以更少的努力达成更好的决策。
总结
在机器学习的帮助下,我们能够确定如何区分苹果和橙子,虽然这听起来不是一个令人印象深刻的模型,但我们采取的步骤对大多数机器学习模型来说是一样的。随着机器学习和人工智能的普遍进步,这一标准在未来可能会发生变化,但在下次需要进行ML项目时,请记住它们。
- 收集数据
- 准备这些数据
- 选择一个模型
- 培训
- 评估
- 超参数调整
- 预测