日新计划第五天
层次方法
层次方法需满足以下3个条件:
- 对给定数据对象集进行层次的分解;
- 使用距离矩阵作为聚类标准;
- 不需要输入聚类数目k,但需要终止条件。
两种层次方法:
自底向上方法(凝聚) - 初始将每个对象作为单独的一个簇,然后相继的合并相近的对象或簇,直到所有的簇合并为一个,或者达到一个终止条件。
- 代表算法:AGNES算法 自顶向下方法(分裂)
- 初始将所有的对象置于一个簇中,在迭代的每一步,一个簇被分裂为多个更小的簇,直到最终每个对象在一个单独的簇中,或达到一个终止条件。
- 代表算法:DIANA算法
AGNES算法
- 首先,将数据集中的每个样本作为一个簇;
- 然后,根据某些准则将这些簇逐步合并;
- 合并的过程反复进行,直至不能再合并或者达到结束条件为止 合并准则
- 每次找到距离最近的两个簇进行合并。
- 两个簇之间的距离由这两个簇中距离最近的样本点之间的距离来表示。 计算距离有以下几种方法:
AGNES算法 —— 最小距离
AGNES算法 —— 最大距离
AGNES算法 —— 平均距离
算法终止条件
(1)指定簇的数目k (2)簇之间的距离超过一定阈值
DIANA算法
- 将所有的对象初始化到一个簇中。
- 在所有对象中找到最大距离的两个对象,对簇进行分类;
- 直到到达用户指定的簇数目或两个簇之间的距离超过某个阈值
即首先计算各个点到其他所有点的平均距离,选出最远的点作为新的簇,然后遍历旧的簇中所有点,计算他们分别和新旧两个簇中的最近点的距离,离谁更近就将它放入那个簇中.
层次方法的问题及改进
层次聚类存在的主要问题:
- 合并或分裂的决定需要检查和估算大量的对象或簇
- 一个步骤一旦完成便不能被撤销
- 避免考虑选择不同的组合,减少计算代价
- 不能更正错误的决定
- 不具有很好的可伸缩性 改进方法:
- 将层次聚类和其他的聚类技术进行集成,形成多阶段聚类。
基于密度的方法
基于密度聚类方法:
- 根据密度条件对邻近对象分组形成簇,簇的增长或者根据邻域密度,或者根据特定的密度函数(只要临近区域的密度超过某个阈值,就继续聚类) 主要特点:
- 发现任意形状的聚类
- 处理噪音
- 一遍扫描
- 需要密度参数作为终止条件
ε-邻域:
给定对象半径ε内的邻域称为该对象的ε-邻域。
核心对象: 如果对象的ε-邻域至少包含最小数目MinPts个对象,则称该对象为核心对象
直接密度可达: 给定对象集合D,如果 p 是在 q 的ε-邻域内,而 q 是核心对象,则称对象 p 是从对象 q 关于ε和MinPts直接密度可达的。
密度可达: 如果存在一个对象链p1, …, pn,p1 = q, pn= p,使得pi+1是从pi直接密度可达的,则称对象p是从对象q关于ε和MinPts(间接)密度可达的。
密度相连的:
如果存在对象 o ,使得p 和q 都是从o关于ε和MinPts密度可达的,则称对象p与q关于ε和MinPts是密度相连的.