DBSCAN算法随记 wakacaca 2018-09-27 670 阅读1分钟 基本概念:(Density-Based Spatial Clustering of Applications with Noise) 以质点为圆心,以半径r画圆,圆圈中的点个数有木有达到设定的阈值,半径r需要自己指定。 与k-means不同,不用设定K值但其他的参数(r,minPts)设定依然是一个问题。 直接密度可达是指:以q为圆心,在半径为r的圆内点p,叫直接密度可达。 密度可达是指:以q0为圆心,在半径为r的圆内点q1。再以q1为圆心,在半径为r的圆内点q2。q2与q0就是密度可达但不是直接密度可达。即以一个一个的圆,基于直接密度可达去找密度可达。 边界点是指:通过密度可达,找点最边缘的一个点时,以这个点为圆心,半径r内木有点的情况,称这个圆心点为边界点。 DBSCAN非常适合做一些异常检测和离群点检测的任务。 流程: 参数选择: 基于距离按照从小到大排好序的集合,找集合中相邻两点数值相差大的点(突变点),突变点前面的那个点的值为前半部分点的k-距离。很难一次性选准,需要经常观察得到