携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情
有监督
学习过程中,除了输入值,训练集还包含作为预测结果(目标输出值)的额外的属性信息,并且这些额外的属性信息与输入值的对应关系可以指导模型对新数据(测试集)做出跟已有数据类似的预测结果。
翻译成人类语言:
就是说你的训练数据有两部分组成,一部分是输入数据(自变量),一部分数目标值(因变量),也就是通过输入数据想达到的值。训练过程中,通过算法的帮助,计算机自己学到一种自变量和因变量之间的函数关系,然后这种函数关系再指导测试集。测试集同样有两部分组成:自变量和待比较数据(待测试值)。这种函数关系作用到自变量,产生一个输出值,这个输出值与待测试值进行比较,如果误差控制在我们的要求范围之内,测试成功。说明机器学会了,可以用它做新输入数据的预测,也就是预测因变量值。
有监督学习实例:
分类:训练集数据属于两种或者以上类别,并且对每个数据都已标注所属类别,然后系统(机器)通过这些标注数据以及相应的算法模型学会识别每个类别的特征。其实就是训练出一个成熟的分类函数。然后再遇到新的数据,系统将根据数据特征,评估它的类别。
回归:训练集中包括自变量与因变量,系统学到一种因变量与自变量之间函数关系。然后依据这种函数关系,系统对新的数据进行预测。
无监督
训练集数据仅有一系列输入值x组成,其目标值未知。
无监督学习实例:
聚类:寻找数据集中有相似个体组成的群组。
降维:将高维数据的维数减少到两维或三维,这样我们不仅可以对数据进行可视化处理,而且每一维所含有的信息还会更多。