聚类分析简述

155 阅读3分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情

聚类分析(聚类算法,有时也称:聚集)可理解为在(大)数据库中发现相似性结构的方法。以这种方式找到的“相似”对象群称为簇。具体来讲,聚类分析或聚类的任务是对一群对象进行分组(簇),使得同一组(称为簇)中的对象(在某种意义上)之间与其他组(簇)中的对象相比更相似。它是探索性数据挖掘的主要任务,也是统计数据分析的常用技术,广泛应用于机器学习,模式识别,图像分析,信息检索,生物信息学,数据压缩和计算机图形学等领域。聚类分析是数据挖掘的一个重要学科,是分析数据库过程中知识发现的过程。

 

在聚类分析中,目的是识别数据中的新簇(而不是将数据映射到现有类的分类)。有时,人们把它称之为‘未知内情的方法’,之所以有这样奇怪的称呼,原因是它不需要完美的前提信息。之后可以使用这些新簇,例如,用于自动分类,图像处理模式的识别或市场细分。

 

聚合分析本身并不是一种具体的算法,而是要解决的一般任务。它可以通过各种算法来实现,这些算法在近似性与簇概念、聚类模型、算法流程(以及由此的复杂性)以及对数据中干扰的容忍度方面存在显著差异。然而,这种算法产生的“信息”是否是有用的,通常只有专业人士才可以判断。目前流行的簇概念包括:成员之间距离较小的群体;数据空间的密集区域;间隔或特定的统计分布等。因此,聚类可以表述为多目标优化问题。恰当的聚类算法和适合的参数设置(包括诸如要使用的距离函数,密度阈值或预期聚类的数量等参数)取决于各个数据集和结果的预期用途。聚类分析本身并不是一项自动的任务,而是一个知识发现,或涉及尝试和失败的交互式多目标优化的迭代过程。通常需要修改数据预处理和模型参数,直到结果达到预期的属性。

聚类算法或许能够再现现存信息(例如,将个人数据聚类为熟知的“男性”和“女性”组)或者也可能生成不是十分有用的组。所发现的组经常不能用口头描述,通常通过随后的分析共同特征才被确认。因此,在应用聚类分析时,通常需要尝试不同的方法和不同的参数;以及预处理数据,例如,选择或删除特征。