聚类分析简述携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第1天，点击查看活动详情聚类分析（聚类

携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第1天，点击查看活动详情

聚类分析（聚类算法，有时也称：聚集）可理解为在（大）数据库中发现相似性结构的方法。以这种方式找到的“相似”对象群称为簇。具体来讲，聚类分析或聚类的任务是对一群对象进行分组（簇），使得同一组（称为簇）中的对象（在某种意义上）之间与其他组（簇）中的对象相比更相似。它是探索性数据挖掘的主要任务，也是统计数据分析的常用技术，广泛应用于机器学习，模式识别，图像分析，信息检索，生物信息学，数据压缩和计算机图形学等领域。聚类分析是数据挖掘的一个重要学科，是分析数据库过程中知识发现的过程。

在聚类分析中，目的是识别数据中的新簇（而不是将数据映射到现有类的分类）。有时，人们把它称之为‘未知内情的方法’，之所以有这样奇怪的称呼，原因是它不需要完美的前提信息。之后可以使用这些新簇，例如，用于自动分类，图像处理模式的识别或市场细分。

聚合分析本身并不是一种具体的算法，而是要解决的一般任务。它可以通过各种算法来实现，这些算法在近似性与簇概念、聚类模型、算法流程（以及由此的复杂性）以及对数据中干扰的容忍度方面存在显著差异。然而，这种算法产生的“信息”是否是有用的，通常只有专业人士才可以判断。目前流行的簇概念包括：成员之间距离较小的群体；数据空间的密集区域；间隔或特定的统计分布等。因此，聚类可以表述为多目标优化问题。恰当的聚类算法和适合的参数设置（包括诸如要使用的距离函数，密度阈值或预期聚类的数量等参数）取决于各个数据集和结果的预期用途。聚类分析本身并不是一项自动的任务，而是一个知识发现，或涉及尝试和失败的交互式多目标优化的迭代过程。通常需要修改数据预处理和模型参数，直到结果达到预期的属性。

聚类算法或许能够再现现存信息（例如，将个人数据聚类为熟知的“男性”和“女性”组）或者也可能生成不是十分有用的组。所发现的组经常不能用口头描述，通常通过随后的分析共同特征才被确认。因此，在应用聚类分析时，通常需要尝试不同的方法和不同的参数；以及预处理数据，例如，选择或删除特征。