机器学习系列—谱聚类(上)

293 阅读2分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第28天,点击查看活动详情

谈到聚类大家熟悉可能是 Kmeans,那么今天我们来看一看聚类主要分为两个大类别

  • compactness: 例如 kmeans
  • connectivity: 例如就是我们今天主角谱聚类

comparison-between-K-Means-and-spectral-clustering.png

对于这种螺旋分布对于 kmean 这样适合凸集,是束手无策,所以这时就需要谱聚类来登场

谱聚类的优点

  • 首先谱聚类无需对数据形状做任何假设,也就是谱聚类对数据分布适应性更强
  • 对于像基于 EM 算法的 Kmean 通过不但交互迭代找局部最小点,这样聚类方法的效果在很大程度上受到位置初始化的影响

首先我们来看一看什么是谱聚类,谱聚类是广泛使用的聚类算法。

谱聚类的定义

在多元变量统计中,谱聚类技术利用数据相似矩阵的谱,在对数据进行降维后,以较少的维度进行聚类。相似矩阵作为输入提供,提供了对数据集中每一对点相对相似性的定量评估。在图像分割中,谱聚类被称为基于分割的物体分类

关于图的基础知识回归

因为谱聚类是基于图的所以需要对图一些相关概念简单回顾一下,首先就是有向图和无向图的概念。然后我们还会聊一聊邻接矩阵和度概念。

屏幕快照 2022-08-24 下午9.50.35.png

我们这里用 GG 表示图,那么 G={V,E}G = \{V,E\} 其中 VVEE 分别表示结点集合和边的集合。结点和结点边上是有权重的,对于 iijj 结点之间边的权重表示 wijw_{ij}