典型聚类模型

225 阅读3分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情

聚类的概念不能精确定义,这也是为什么聚类算法这么多的原因之一。但是它们也有共同点:都有一组数据对象。然而,不同的研究者使用不同的聚类模型,并且对于这些聚类模型中的每一个,都可以给出不同的算法。根据不同的算法发现,簇的概念在属性上有很大的不同。理解这些“聚类模型”是理解不同算法之间差异的关键。

典型聚类模型包括:

连接模型: 例如,分层集群基于距离连接构建模型。

质心模型:例如,k均值算法通过单个均值向量表示每个聚类(簇)。

分布模型:使用统计分布对聚类进行建模,例如期望最大化算法使用的多元正态分布。

密度模型: 例如,DBSCAN和OPTICS将簇定义为数据空间中的相连的密集区域。

子空间模型:在双聚类(也称为联合聚类或双模聚类)中,聚类使用聚类成员和相关属性建模。

组模型:某些算法不会为其结果提供精确的模型,只提供分组信息。

基于图的模型:一个集团,即图中节点的子集,使得子集中的每两个节点通过边连接可以被视为簇的原始形式。 完全连接要求的弱化(一部分边可能丢失)被称为准集团,如在HCS集群算法中那样。

神经模型:最著名的是自组织映射非监督神经网络,当神经网络实现一种主成分分析或独立成分分析时,这些模型通常可以被描述为类似于上述一个或多个模型(包括子空间模型在内)。

“聚类”本质上是一组这样的簇,它通常包含数据集中的所有对象。 另外,它可以指定簇彼此间的关系,例如,彼此嵌入簇的层次结构。

聚类可以大致区分为:

硬聚类:每个对象都属于一个簇或者不属于。

软聚类(也就是:模糊聚类):每个对象在一定程度上属于每个簇(例如,属于一个簇的可能性)

还有更好区别的可能性,例如:

严格的分区聚类:每个对象只属于一个簇。

带有异常值的严格的分区聚类:对象也可以不属于任何簇,并且被视为异常值。

重叠聚类(也包括:替代聚类,多视图聚类):对象可能属于多个簇,通常涉及硬聚类。

分层群集:属于子簇的对象也属于父簇。

子空间聚类:在重叠聚类时,在一个唯一被定义的子空间内,簇不会重叠。