开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第十五天,点击查看活动详情
总结:此文为12月更文计划第十五天第二十九篇。
聚类
非监督学习(unsupervised learning)
主要方法:k-means
聚类原理:
聚类
K:把数据划分成多少个类别? 知道类别的个数 不知道类别个数 超参数(就是要调整的)
k-means步骤
1、随机设置K个特征空间内的点作为初始的聚类中心
2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类 中心点作为标记类别
3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平 均值)
4、如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行 第二步过程
聚类任务
· 在“无监督学习”任务中研究最多、应用最广.
· 聚类目标:将数据集中的样本划分为若干个通常不相交的子集(“簇”,cluster).
· 聚类既可以作为一个单独过程(用于找寻数据内在的分布结构),也可作为分类等其他学习任务的前驱过程.
“簇”可能对应于一些潜在的概念(类别),如:“浅色瓜”,“有籽瓜”;这些概念对聚类算法而言是事先未知的,聚类过程能自动形成簇结构,簇所对应的概念语义由使用者来把握和命名.
聚类原理:
聚类分析的度量
聚类分析的度量指标用于对聚类结果进行评判,分为内部指标和外部指标两大类
- 外部指标指用事先指定的聚类模型作为参考来评判聚类结果的好坏
- 内部指标是指不借助任何外部参考,只用参与聚类的样本评判聚类结果好坏
Kmeans性能评估指标
注:对于每个点i 为已聚类数据中的样本 ,b_i 为i 到最近族群的所有样本的平均 距离,a_i 为i 到本身簇的距离平均值,max是所有点中有一个点的最大
最终计算出所有的样本点的轮廓系数平均值