典型聚类模型携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第1天，点击查看活动详情聚类的概念不能

携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第1天，点击查看活动详情

聚类的概念不能精确定义，这也是为什么聚类算法这么多的原因之一。但是它们也有共同点：都有一组数据对象。然而，不同的研究者使用不同的聚类模型，并且对于这些聚类模型中的每一个，都可以给出不同的算法。根据不同的算法发现，簇的概念在属性上有很大的不同。理解这些“聚类模型”是理解不同算法之间差异的关键。

典型聚类模型包括：

连接模型: 例如，分层集群基于距离连接构建模型。

质心模型：例如，k均值算法通过单个均值向量表示每个聚类（簇）。

分布模型：使用统计分布对聚类进行建模，例如期望最大化算法使用的多元正态分布。

密度模型: 例如，DBSCAN和OPTICS将簇定义为数据空间中的相连的密集区域。

子空间模型：在双聚类（也称为联合聚类或双模聚类）中，聚类使用聚类成员和相关属性建模。

组模型：某些算法不会为其结果提供精确的模型，只提供分组信息。

基于图的模型：一个集团，即图中节点的子集，使得子集中的每两个节点通过边连接可以被视为簇的原始形式。完全连接要求的弱化（一部分边可能丢失）被称为准集团，如在HCS集群算法中那样。

神经模型:最著名的是自组织映射非监督神经网络，当神经网络实现一种主成分分析或独立成分分析时，这些模型通常可以被描述为类似于上述一个或多个模型（包括子空间模型在内）。

“聚类”本质上是一组这样的簇，它通常包含数据集中的所有对象。另外，它可以指定簇彼此间的关系，例如，彼此嵌入簇的层次结构。

聚类可以大致区分为：

硬聚类：每个对象都属于一个簇或者不属于。

软聚类（也就是：模糊聚类）：每个对象在一定程度上属于每个簇（例如，属于一个簇的可能性）

严格的分区聚类：每个对象只属于一个簇。

带有异常值的严格的分区聚类：对象也可以不属于任何簇，并且被视为异常值。

重叠聚类（也包括：替代聚类，多视图聚类）：对象可能属于多个簇，通常涉及硬聚类。

分层群集：属于子簇的对象也属于父簇。

子空间聚类：在重叠聚类时，在一个唯一被定义的子空间内，簇不会重叠。