前端人的人工智能之旅(六)无监督学习与聚类分析

107 阅读2分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第6天,点击查看活动详情

一、无监督学习

前面我们提到的线性回归和逻辑回归其实本质上都是属于监督学习,与之相反的就是无监督学习。无监督学习就是在样本数据中并没有事先给出一个标签,而是让计算机自动对输入的数据根据共同点进行分类或分群,所以该方法的分类没有绝对的对错,可以减少人工打标签的成本,也是机器学习的一种方法。

无监督学习的优点是算法不会受到人类也就是监督信息偏见的约束,可以有新的思路,新的分类方式。同时需要打了标签的数据,可以在极大程度上扩展数据样本。

无监督学习的应用主要有聚类分析、关联规则、维度缩减,其中应用最广的就是聚类分析。

二、聚类分析

聚类分析也称为群分析,是指根据对象某些属性的相似度,将其自动的划分为不同的类别。比如说在商业上的用户画像,就是对客户进行划分。

常用的聚类算法主要有KMeans算法、均值漂移算法和DBSCAN算法。

三、KMeans算法

KMeans算法也就是K均值算法的实现过程很好理解,主要是根据数据与中心点距离划分类别、然后基于该类别数据更新中心点,一直重复这个过程直到收敛。

它的优点就是实现起来非常简单,收敛比较快,参数比较少,非常方便使用。

缺点同样也很明显,必须设置簇的数量,而且初始聚类中心是随机选择的,可能会导致最终结果缺乏一致性,失去参考价值。

那么以上就是关于无监督学习与聚类分析,和经典聚类分析算法的简单介绍了。