DBSCAN算法随记

670 阅读1分钟

基本概念:(Density-Based Spatial Clustering of Applications with Noise)

以质点为圆心,以半径r画圆,圆圈中的点个数有木有达到设定的阈值,半径r需要自己指定。
与k-means不同,不用设定K值但其他的参数(r,minPts)设定依然是一个问题。
直接密度可达是指:以q为圆心,在半径为r的圆内点p,叫直接密度可达。
密度可达是指:以q0为圆心,在半径为r的圆内点q1。再以q1为圆心,在半径为r的圆内点q2。q2与q0就是密度可达但不是直接密度可达。即以一个一个的圆,基于直接密度可达去找密度可达。

边界点是指:通过密度可达,找点最边缘的一个点时,以这个点为圆心,半径r内木有点的情况,称这个圆心点为边界点。
DBSCAN非常适合做一些异常检测和离群点检测的任务。

流程:

参数选择:

基于距离按照从小到大排好序的集合,找集合中相邻两点数值相差大的点(突变点),突变点前面的那个点的值为前半部分点的k-距离。很难一次性选准,需要经常观察得到