(Page:1-4) 1.introduction

127 阅读7分钟

introduction

在数据中搜索模式的问题是一个基本问题,并且有很长的成功历史。例如,16世纪对第谷·布拉赫(Tycho Brahe)的广泛天文观测,让开普勒(Johannes Kepler)发现了行星运动的经验定律,从而为经典力学的发展提供了跳板。同样,原子光谱规律的发现再20世纪初量子物理学的发展和验证中起到了关键作用。模式识别领域涉及使用计算机算法在数据中自动发现规则,并利用这些规则采取行动,如将数据分类到不同的类别。

  考虑到识别和书写数字的实例,如图1.11.1所示。每个数字对应于282828 * 28像素的图像,因此可以由包含784784个实数的向量xx表示。我们的目标是建立一台机器,将向量xx作为输入,并产生数字0,...,90,...,9作为输出。这是一个非常重要的问题,因为手写体的变化很大。

1.1.png

来自美国邮政编码的手写数字示例

  可以使用手工编制的规则或启发方式根据笔划的形状来区分数字,但在实践中,这种方法会导致规则和规则的例外情况激增,等等,并且结果总是很差。

  采用一种机器学习方法可以获得更好的结果,在这种方法中,大量NN{X1,...,XN}\{X_1,...,X_N\}称为训练集,用于调整自适应模型的参数。训练集中的数字类别是预先知道的,通常是通过单独检查它们并手动标记它们。我们可以使用目标向量tt来表示数字的类别,目标向量tt表示对应数字的标识。稍后将讨论用向量表示类别的合适技术。注意,每个数字图像xx有一个这样的目标向量tt

  运行机器学习算法的结果可以表示为函数y(x)y(x),该函数以新的数字图像xx作为输入,并生成输出向量yy,以与目标向量相同的方式进行编码。函数y(x)y(x)的精确形式在训练阶段,(也成为学习阶段)根据训练数据确定。一旦模型经过训练,他就可以确定新数字图像的身份,这些图像被称为构成测试集。对不同于培训的新示例进行正确分类的能力称为泛化。在实际应用中,输入向量的可变性使得训练数据只能包含所有可能输入向量的一小部分,因此泛化是模式识别的中心目标。

  在大多数实际应用中,通常会对原始输入变量进行预处理,以将其转换为新的变量空间,希望模式识别问题更容易解决。例如,在数字识别问题中,数字的图像通常被转换和缩放,以便每个数字都包含在一个固定大小的框中。这大大降低了每个数字类别内的可变性,因为所有数字的位置和比例现在都相同,这使得后续的模式识别算法更容易区分不同类别。这个预处理阶段有时也称为特征提取。请注意,必须使用与培训数据相同的步骤对新测试数据进行预处理。

  为了加快计算速度,还可以执行预处理。例外,如果目标是在高分辨率视频流中进行实时人脸检测,那么计算机每秒必须处理大量像素,而将这些像素直接呈现给复杂的模式识别算法在计算机上可能是不可行的。相反,我们的目标是找到快速计算的有用特征,然而,这也保留了有用的歧视性信息,使面孔能够与非面孔区分开来。然后将这些特征用作模式识别算法的输入。例如,可以非常有效地评估矩形子区域上图像强度的平均值(Viola和Jones,2004),并且一组这样的特征可以证明在快速人脸检测中非常有效。由于这些特征的数量小于像素的数量,这种预处理代表了一种降维形式。在预处理过程中必须小心,因为信息经常被丢弃,如果这些信息对问题的解决非常重要,那么系统的整体准确性可能会受到影响。

  其中训练数据包括输入向量及其对应目标向量的示例的应用称为监督学习问题。例如数字识别示例,其目的是将每个输入向量分配给有限个离散类别中的一个,这种情况称为分类问题。如果期望的输出由一个或多个连续变量组成,则该任务称为回归。回归问题的一个例子是预测化学制造过程中的产量,其中输入包括反应物浓度,温度和压力。

  在其他模式识别问题中,训练数据由一组输入向量xx组成,没有任何相应的目标值。此类无监督学习问题的目标可能是发现数据中类似示例的组,称为聚类,或确定输入空间中的数据分布,称为密度估计,或者为了可视化的目的,将数据从高维空间投影到二维或三维空间。

  最后,强化学习技术(Sutton和Barto,1998)关注的是在给定情况下寻找合适的行动以实现最大回报的问题。与监督学习相比,这里的学习算法没有给出最优输出的示例,而是必须通过反复试验的过程来发现它们。通常,学习算法与其环境交互的状态和动作序列。在许多情况下,当前操作不仅会影响即时奖励,还会影响后续所有时间步骤的奖励。例如,通过使用适当的强化学习技术,神经网络可以学习高标准的双陆棋(Tesauro,1994)。在这里,网络必须学会将棋盘位置作为输入,以及掷骰子的结果,并产生一个强有力的动作作为输出。这是通过让网络与自己的副本进行进行大约一百万场游戏来实现的。一个主要的挑战是,一个双陆棋游戏可能涉及几十个动作,但只有在游戏结束时,才能获得胜利形式的奖励。奖励必须适当地归因于所有导致它的动作,即使有些动作是好的,有些则不是。这是一个信用分配问题的例子。强化学习的一个普遍特征是在探索(系统尝试新的行为以查看其效果)和利用(系统已知可产生高回报的行为)之间进行权衡。过分关注勘探或者开采将导致糟糕的结果。强化学习仍然是机器学习研究的一个活跃领域。然而,详细的处理超出了本书的范围。

  尽管这些任务中的每一项都需要自己的工具和技术,但支撑它们的许多关键思想对于所有这些问题来说都是共同的。本章的主要目的之一是以一种相对非正式的方式介绍其中几个最重要的概念,并用简单的例子加以说明。在本书的后面部分,我们将看到这些相同的想法在适用于现实世界模式识别应用的更复杂模型的背景下重新出现。本章还对本书中将用到的三个重要工具进行了全面介绍,即概率论、决策论、信息论。虽然这些听起来像是令人望而生畏的话题,但事实上它们是直截了当的,如果机器学习技术要在实际应用中发挥最佳效果,那么对他们的清晰理解是必不可少的。