携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第28天,点击查看活动详情
谈到聚类大家熟悉可能是 Kmeans,那么今天我们来看一看聚类主要分为两个大类别
- compactness: 例如 kmeans
- connectivity: 例如就是我们今天主角谱聚类
对于这种螺旋分布对于 kmean 这样适合凸集,是束手无策,所以这时就需要谱聚类来登场
谱聚类的优点
- 首先谱聚类无需对数据形状做任何假设,也就是谱聚类对数据分布适应性更强
- 对于像基于 EM 算法的 Kmean 通过不但交互迭代找局部最小点,这样聚类方法的效果在很大程度上受到位置初始化的影响
首先我们来看一看什么是谱聚类,谱聚类是广泛使用的聚类算法。
谱聚类的定义
在多元变量统计中,谱聚类技术利用数据相似矩阵的谱,在对数据进行降维后,以较少的维度进行聚类。相似矩阵作为输入提供,提供了对数据集中每一对点相对相似性的定量评估。在图像分割中,谱聚类被称为基于分割的物体分类
关于图的基础知识回归
因为谱聚类是基于图的所以需要对图一些相关概念简单回顾一下,首先就是有向图和无向图的概念。然后我们还会聊一聊邻接矩阵和度概念。
我们这里用 表示图,那么 其中 和 分别表示结点集合和边的集合。结点和结点边上是有权重的,对于 到 结点之间边的权重表示