前言
我们知道机器学习根据关注点的不同,可以有多种分类的方法,其中根据学习方式可以将机器学习分为监督学习、非监督学习和强化学习。今天我们将对其中的监督学习进行简要介绍。
什么是监督学习
监督学习是机器学习中的一种训练方式,是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习,是从标记的训练数据来推断一个功能的机器学习任务。
通俗地讲,就是根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优模型。
当然,监督学习需要有明确的目标,能够清晰地想到自己想要什么结果,也就是说,在监督学习中训练数据既有特征又有标签,通过训练让机器找到特征和标签之间的联系,这样在当遇到只有特征而没有标签的数据时,就可以为其判断出标签。
监督学习的流程
监督学习中的“监督”并不是指人为观测机器做的对不对,而是执行以下流程:
-
选择一个适合目标任务的数学模型
-
给机器一部分已知的问题和答案(即训练集)进行训练模拟
-
机器根据训练集内容进行规律总结,形成一套自己的方法论
-
方法论形成后,人类把新的待解决问题(测试集)给机器,让其进行解答
以个人信用评分为例,要评估个人的信用情况,首先需要找到个人信用的影响因素,比如A付款记录、B账户总额、C信用记录跨度等,那么个人信用评分模型就可以定为y=f(A、B、C……),f可以简单理解为一个特点的公式,这个公式可以将影响因素与个人信用评分模型Y联系起来。
为了得出公式f,我们需要先收集大量必须的已知数据和其信用状态,数据收集完成后将其按照一定的比例分为训练集、验证集和测试集,分别用来训练模型、确保模型没有过拟合和评估模型效果。这样我们有了数据,通过利用机器学习就能得出公式f,再通过验证测试对公式进行验证,验证通过后模型即可进行投入使用。
监督学习的分类
监督学习可分为“回归”和“分类”问题。
回归问题是针对解决连续型变量问题的,即对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里y就是数据的标签,而对于一个新的自变量x,通过这个函数模型得到标签y。
与回归问题不同,分类问题通常是针对离散型变量的问题,其输出的结果是有限的,即要通过分析输入的特征向量,对于一个新的向量得到其标签。
如何选择合适的监督学习算法
主流的监督学习算法有决策树、逻辑回归、线性回归、K临近、神经网络、朴素贝叶斯等,这么多种监督学习算法,如何选择合适的算法?答案是需要从多方面进行考量,可以取决于但不限于以下几个方面:
-
数据值的形式是连续还是离散
-
数据的维度大还是小
-
数据量多还是少
-
对模型准确性和效率的要求
写在最后
监督学习可以说是机器学习的入门级概念,随着机器学习的广泛应用推广,它将扮演越来越重要的角色。
最后,欢迎大家关注公众号“1号程序员”,回复“C100”可获得一份神秘技术资料!