携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情
机器学习在数据分析上的应用实现主要通过以下步骤:
-
在算法模型的帮助下识别分析对象的数据集中模式,并学习这种模式。其实质是一个调参并最终确定参数的过程。也被称作训练过程
-
通过已明确参数的算法模型,借助于测试数据对模型进行测试。也被称作模型检验过程。如果达到我们的要求,就可以用作预测。否则重新建立新的算法模型。
选用或者说建立哪种算法模型,要依据分析对象以及其数据特点来定。选用哪种模型来建立能够学习的机器的问题被称作学习问题。
机器学习中的特征是什么?
在学习阶段,遵从某种模式的数据可以是数组形式,其中每个元素可以是一个值也可以是多个值组成一个元素。这些值就被称作特征或者属性。上面是官方定义。
下面换成人类语言:
在实际工作中,我们的研究对象往往不是数据,而是一个个具体的研究对象,这就需要我们根据实际目的把对象数据化。数据化的方法往往是把对象自有的一些特征数据化。比如假设我们对一张100*100像素的图片做人脸识别,每个像素是一个特征,那么会有10000个特征。然后把这些特征数据化,做成数组,成为数据集。
训练集和测试集
机器学习首要目的是在算法模型的帮助下,学会识别数据集的特性,然后依据这种识别能力来处理新数据。这种识别能力不是凭空而来,而是通过训练和测试后得到的。训练可以看做是一个学习的过程,学习数据特性。测试是测试学到的这种特性。训练和测试都需要数据,用作训练的数据叫做训练集,用作测试的数据叫做测试集