聚类的目的是将样本中的数据(各观测值)划分到不同的类中,以使得同类中的样本较为相似,而不同类的样本差距较大。那么,在给定支持模型下,评分函数就成了关键。
K-means聚类是常用的一种聚类方法,它假设样本中的数据来自于K个簇(K的值此时也作为超参数),并试图去寻找这K个簇的中心。评分函数(误差函数)设置为各观察值与所在簇中心的距离的总和值,即
其中 是将各观测点划分到各类的方案,而 是观测点 所属的类, 是各类中心, 则为观测点 所属的类的中心。
而获得K个簇中心的过程如下(迭代过程):
0、初始化各类的中心值
1、对于每一个观测值 ,基于到各类中心的距离进行划分,并计算
2、计算每一个类中的观测值的中心(此为新的中心),并以此进行分类、计算误差函数
3、如果( 为给定的阈值超参数),则说明2步得到的中心会更好,那么选择2步的中心与划分方案,并再次进行2步。
(上面的过程其实类似于Zz的走向,并且整个迭代的过程也可以视为一个EM算法的迭代过程)