开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第8天

一、本篇笔记重点内容：

二、详细知识点介绍

异常值，也称为离群值，指一个数据集中那些明显偏离数据集中的其他样本一个观测与其他观测偏离太多以致于值得怀疑它是由不同的机制所产生的

新奇检测 (Novelty detection) 已知训练数据集是“纯净”的未被真正的“噪音”数据或真实的“离群值”污染针对这些数据训练完成之后再对新的数据进行训练以寻找异常数据
离群值检测 (Outlier detection) 离群值检测的训练数据集则包含“离群点”数据，对这些数据训练完成之后再在新的数据集中寻找异常数据

在1997年由统计学家约翰·图基(John Tukey)发明

拉依达准则存在的前提：数据集服从或者近似服从正态分布如果有超过均值三个标准差以上的样本存在，那么认为该样本为异常值

K-means聚类原理：将n个样本划分到K个簇中，其中每个样本归属于距离自己最近的簇 K-means算法步骤：

      1.随机选择K个样本作为初始中心

      2.重复迭代如下步骤直至收敛：

             (a)把每个样本指派到最近的中心，形成K个簇；

             (b)重新计算每个簇的中心；

             (c)直到中心不在发生变化。

KNN算法的步骤：

  计算每一个样本与其最近的K个近邻样本的距离，放入到集合C中

  对C中的所有元素进行降序排列

  根据给定的距离阈值，选取C中大于给定阈值的距离对应的样本异常值

LOF 算法：

 局部离群因子算法给数据集中每一个样本计算局部离群分数

 该分数通过样本邻居的密度和当前样本的密度相对值来计算

 在计算每个样本的局部离群分数后，可以直接根据分数大小来识别离群样本