名词解析
学习
所谓学习,就是闻一知十。例如学数学,小学老师会先给大量训练,让人学会解题方法。之后面对考试的时候出现的绝对不同的题目,也能回答。
机器学习也是一样,我们能不能用已经做过的题,来推断没做过的题呢? 有监督学习可以理解成已经打了标签(有答案)的数学题目,无监督学习就是没有答案的题目
有监督学习和无监督学习(Supervised Learning&Unsupervised Learning)
监督(supervised)=标签(label),是否有监督,就是输入数据(input)是否有标签,有标签则为有监督学习,没标签则为无监督学习。至于半监督学习,就是一半(一点点)数据有标签,一半(极其巨大)数据没标签。
监督学习
监督学习是最常见的一种机器学习,它的训练数据是有标签的,训练目标是能够给新数据(测试数据)以正确的标签。
例如,想让AI知道什么是猫什么是狗,一开始我们先将一些猫的图片和狗的图片(带标签)一起进行训练,学习模型不断捕捉这些图片与标签间的联系进行自我调整和完善,然后我们给一些不带标签的新图片,让该AI来猜猜这些图片是猫还是狗。
经典的算法:支持向量机、线性判别、决策树、朴素贝叶斯
无监督学习
无监督学习常常被用于数据挖掘,用于在大量无标签数据中发现些什么。
它的训练数据是无标签的,训练目标是能对观察值进行分类
或者区分
等。相对于监督学习,无监督学习使用的是没有标签的数据。机器会主动学习数据的特征,并将它们分为若干类别,相当于形成「未知的标签」
。
经典的算法:k-聚类、主成分分析等
K-means 聚类
聚类算法评价指标——Davies-Bouldin指数(Dbi)
当DBI最小时,聚类之间拥有最小相似度
必连与勿连集合
必连
约束指样本必属于同一簇类;勿连
约束指样本必不属于同一簇类
word2vecter
w2v其实是一种将单词转化向量的工具。这一种向量的其实是对单词更有效的表达。
半监督学习
半监督学习同时用了有监督学习的方法和无监督的方法,更准确的说是同时用了标记好的数据(labelled data)和未标记的数据(unlabelled data) 。
总结上面所说的监督学习用于分类和回归,无监督学习用于聚类,那么半监督学习的目的是什么呢?目的是用现有的数据训练出更好的数据模型。
现在占主导地位的还是有监督学习,如何更好的利用无监督学习还是一个正在研究的话题,之所以需要开发他的原因是我们不需要人工的给数据打标签,这样会非常省事。从这里可以得知,虽然我们现在可以有海量的数据,但是其中只有很少一部分是有标签的。所以半监督学习就是要同时利用有标记的数据和没标记的数据
信息熵
熵可以被认为是系统中紊乱或杂质的衡量标准,在机器学习中,它被广泛的用作模型不确定性的度量,较高的熵值表示模型对类成员身份的高度不确定