机器学习入门之异常检测

266 阅读4分钟

这是我参与8月更文挑战的第13天,活动详情查看:8月更文挑战

本文为吴恩达机器学习课程的笔记系列第七篇,主要学习异常检测算法。

异常检测(Anomaly Detection)

异常检测属于非监督问题。异常检测是机器学习算法的一个常见应用,是对不匹配预期模式或数据集中其他项目的项目、事件或观测值的识别。简单来说,当正样本比较多时,通过对正样本的学习,机器学会正样本的特征,从而对异常样本有了识别能力。

异常检测的核心就在于找到一个概率模型,帮助我们知道一个样本落入正常样本中的概率,从而帮助我们区分正常和异常样本。

高斯分布

高斯分布模型是异常检测中常用的概率模型。其概率密度函数如下:

p(x,μ,σ2)=12πσexp((xμ)22σ2)p(x,\mu,\sigma^2)=\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(x-\mu)^2}{2\sigma^2})

其中:

  • μ=1mi=1mx(i)\mu=\dfrac{1}{m}\sum\limits_{i=1}^{m}x^{(i)}
  • σ2=1mi=1m(xj(i)μj)2\sigma^2=\dfrac{1}{m}\sum\limits_{i=1}^{m}(x^{(i)}_j-\mu_j)^2

应用到异常检测算法,对于mm 个样本的数据集,针对每一个特征,进行参数估计:

  • μj=1mi=1mxj(i)\mu_j=\dfrac{1}{m}\sum\limits_{i=1}^{m}x^{(i)}_j
  • σj2=1mi=1m(x(i)μ)2\sigma^2_j=\dfrac{1}{m}\sum\limits_{i=1}^{m}(x^{(i)}-\mu)^2

假设每个样本有nn个特征,即 xix_i 变成一个 nn 维的向量 [xi(1)xi(2)xi(n)]\begin{bmatrix}x_i^{(1)}\\x_i^{(2)}\\ \vdots \\x_i^{(n)}\end{bmatrix}

对于一个训练实例,有:

p(x)=j=1n(xj,μ,σ2)=j=1n12πσexp((xμ)22σ2)p(x)=\prod\limits_{j=1}^{n}(x_j,\mu,\sigma^2)=\prod\limits_{j=1}^{n}\dfrac{1}{\sqrt{2\pi}\sigma}exp(-\dfrac{(x-\mu)^2}{2\sigma^2})

如何判断样本是否异常?

我们选择一个ϵ\epsilon,将 p(x)=ϵp(x)=\epsilon 作为我们的判定边界,当 p(x)>ϵp(x)>\epsilon 时预测数据为正常数据,否则为异常。

异常检测与有监督学习对比

异常检测有监督学习
数据非常偏斜,非常少量的正向类(异常数据y=1y=1 ), 大量的负向类(y=0y=0数据分布均匀,同时有大量的正向类和负向类
异常的类型不一,很难根据对现有的异常数据(即正样本)来训练算法。有足够多的正样本,可以根据对正样本的拟合来知道正样本的形态,从而预测新来的样本是否是正样本。
未来遇到的异常可能与已掌握的异常、非常的不同。未来遇到的正向类实例可能与训练集中的非常近似。
例如: 欺诈行为检测 生产(例如飞机引擎)检测数据中心的计算机运行状况例如:邮件过滤器 天气预报 肿瘤分类

特征选择

我们使用异常检测算法时,是假设数据集特征符合高斯分布的。但有时候数据集可能像下图左边一样,这时直接用异常检测算法也是可以得出结果,但一般我们可以对数据进行一些转换如取对数操作,将其转换为高斯分布。

在这里插入图片描述

误差分析

有时候,我们可能发现某个异常样本的p(x)p(x) 值高于ϵ\epsilon,我们对此进行分析,观察是哪些异常数据被预测为正常。下面以监测机房中的服务器异常为例:

假设我们选取如下特征:

x1=网络流量;x2=CPU负载x_1=网络流量;x_2=CPU负载

当出现一个异常:CPU负载很高,而网络流量很低,服务器卡死,无法通信。如下图:

在这里插入图片描述

此时的p(x)p(x) 值也会很高,为了识别这一异常状况,我们可以构建新的特征:x3=CPU负载网络流量x_3=\dfrac{CPU负载}{网络流量} ,当上述异常发生时,这个特征便会变得很大,有利于我们识别出来。

多元高斯分布

一般的高斯模型因为是同时累乘每个特征的偏差,所以会创造出一个较大的判定边界。

模型定义:

p(x,μ,Σ)=1(2π)n2Σ12exp(12(xμ)TΣ1(xμ))p(x,\mu,\Sigma)=\dfrac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\dfrac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))

  • μ=1mi=1mx(i)\mu=\dfrac{1}{m}\sum\limits_{i=1}^{m}x^{(i)}
  • Σ=1mi=1m(x(i)μ)(x(i)μ)T=1m(Xμ)T(Xμ)\Sigma=\dfrac{1}{m}\sum\limits_{i=1}^{m}(x^{(i)}-\mu)(x^{(i)}-\mu)^T=\dfrac{1}{m}(X-\mu)^T(X-\mu)

其中,μ\mu 是一个向量,表示样本均值,Σ\Sigma 表示样本协方差矩阵。

在这里插入图片描述

先考虑各个维度不相关,各个维度之间不相关的多元正态分布概率密度其实就是各个维度的正态分布概率密度函数的乘积,其实是因为各变量之间互不相关,因此联合概率密度等于各自概率密度的乘积

p(x)=12πσ1exp((x1μ1)22σ12)12πσ2exp((x2μ2)22σ22)...12πσnexp((xnμn)22σn2)=1(2π)n2σ1σ2...σnexp{12[((x1μ1)2σ12)+((x2μ2)22σ22)+...+((xnμn)22σn2)]}\begin{aligned} p(x)=&\dfrac{1}{\sqrt{2\pi}\sigma_1}exp(-\frac{(x_1-\mu_1)^2}{2\sigma_1^2})\dfrac{1}{\sqrt{2\pi}\sigma_2}exp(-\frac{(x_2-\mu_2)^2}{2\sigma_2^2})...\dfrac{1}{\sqrt{2\pi}\sigma_n}exp(-\frac{(x_n-\mu_n)^2}{2\sigma_n^2}) \\ =&\dfrac{1}{{(2\pi)}^{\frac{n}{2}}\sigma_1\sigma_2...\sigma_n}exp\{-\frac{1}{2}[(\frac{(x_1-\mu_1)^2}{\sigma_1^2})+(\frac{(x_2-\mu_2)^2}{2\sigma_2^2})+...+(\frac{(x_n-\mu_n)^2}{2\sigma_n^2})]\} \end{aligned}

右边项:

((x1μ1)2σ12)+((x2μ2)2σ22)+...+((xnμn)2σn2)=[x1μ1,x2μ2,...,xnμn][1σ120001σ220001σn2][x1μ1x2μ2xnμn]=(Xμ)TΣ1(Xμ)\begin{aligned} &(\frac{(x_1-\mu_1)^2}{\sigma_1^2})+(\frac{(x_2-\mu_2)^2}{\sigma_2^2})+...+(\frac{(x_n-\mu_n)^2}{\sigma_n^2})\\&=[x_1-\mu_1,x_2-\mu_2,...,x_n-\mu_n]\begin{bmatrix}\frac{1}{\sigma_1^2}&0&\cdots&0\\0&\frac{1}{\sigma_2^2}&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&\frac{1}{\sigma_n^2}\end{bmatrix} \begin{bmatrix}x_1-\mu_1\\x_2-\mu_2 \\ \vdots \\ x_n-\mu_n\end{bmatrix}\\&=(X-\mu)^T\Sigma^{-1}(X-\mu) \end{aligned}

如果各个维度是相关的,那怎么办呢?

实际上我们可以利用化归的思想,把相关变成不相关,

方向变换:u1=[u1(1)u1(2)],u2=[u2(1)u2(2)]u_1=\begin{bmatrix}u_1^{(1)}\\u_1^{(2)} \end{bmatrix}, u_2=\begin{bmatrix}u_2^{(1)}\\u_2^{(2)} \end{bmatrix},使得各个维度之间不相关,下面是推导:

X^=[u1Tu2T]X=UTX=[X^1X^2]\hat{X}=\begin{bmatrix}u_1^T\\u_2^T \end{bmatrix} X=U^TX=\begin{bmatrix}\hat{X}_1\\\hat{X}_2 \end{bmatrix} \\
X^uX^σX^=[X^1uX^1σX^1X^2uX^2σX^2]=[1σX^1001σX^2][X^1uX^1X^2uX^2]=D(X^μX^)=D(UTXUTμX)=DUT(XμX)=Z\begin{aligned} \dfrac{\hat{X}-u_{\hat{X}}}{\sigma_{\hat{X}}} =& \begin{bmatrix}\dfrac{\hat{X}_1-u_{\hat{X}_1}}{\sigma_{\hat{X}_1}}\\\dfrac{\hat{X}_2-u_{\hat{X}_2}}{\sigma_{\hat{X}_2}} \end{bmatrix} \\ =&\begin{bmatrix}\dfrac{1}{\sigma_{\hat{X}_1}}&0\\0&\dfrac{1}{\sigma_{\hat{X}_2}} \end{bmatrix}\begin{bmatrix}\hat{X}_1-u_{\hat{X}_1}\\\hat{X}_2-u_{\hat{X}_2}\end{bmatrix} \\ =&D(\hat{X}-\mu_{\hat{X}})\\ =&D(U^TX-U^T\mu_{X})=DU^T(X-\mu_X)=Z \end{aligned}
UDTDUT=UΣX^1UT=ΣX1UD^TDU^T =U\Sigma_{\hat{X}}^{-1}U^T= \Sigma_X^{-1}

最后的概率:

p(x)=1(2π)n2Σ12exp(12(xμ)TΣ1(xμ))p(x)=\dfrac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\dfrac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))

应用到异常检测的算法,首先对各个样本进行参数估计:

  • μ=1mi=1mx(i)\mu=\dfrac{1}{m}\sum\limits_{i=1}^{m}x^{(i)}
  • Σ=1mi=1m(x(i)μ)(x(i)μ)T\Sigma=\dfrac{1}{m}\sum\limits_{i=1}^{m}(x^{(i)}-\mu)(x^{(i)}-\mu)^T

当新样本xx到来时,计算p(x)p(x)

p(x)=1(2π)n2Σ12exp(12(xμ)TΣ1(xμ))p(x)=\dfrac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\dfrac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))

多元高斯分布与一般高斯分布对比

一般高斯分布模型:p(x)=p(x1,μ1,σ12)×p(x2,μ2,σ22)×...×p(xn,μn,σn2)p(x)=p(x_1,\mu_1,\sigma_1^2)\times p(x_2,\mu_2,\sigma_2^2)\times ...\times p(x_n,\mu_n,\sigma_n^2)

可见一般高斯模型是多元高斯模型的一个特例,也就是当协方差矩阵 Σ\Sigma 的上三角和下三角为00的时候。即Σ=[σ120...00σ22...000000...σn2]\Sigma=\begin{bmatrix}\sigma_1^2&0&...&0\\0&\sigma_2^2&...&0\\0&0&\ddots&0\\0&0&...&\sigma_n^2\end{bmatrix}

两者的区别:

一般高斯分布模型多元高斯分布模型
需要创建一些特征(比如组合x1,x2x_1,x_2)来描述某些特征的相关性自动描述了各个特征的相关性
计算复杂度低,适于高维特征计算较复杂,计算量大
即使样本数mm较小也适用必须满足m>nm>n,且各个特征必须线性无关,否则协方差矩阵将不可逆