数据挖掘中的异常检测。综合指南 101
Kavya ToletyonData Engineering,Data Mining- June 1st, 2022 -Write for Hevo
数据挖掘中的异常检测,也被称为离群点检测,检测数据中与预期行为不一致的模式。每个企业都必须从数据集中检测出异常或异常值,不仅要准备准确的数据,还要对系统中的异常情况做出反应。信用卡和保险欺诈的检测、网络安全以及安全相关系统的监测是一些著名的应用。运营商在监控操作和发现不正常情况时很费劲,因为它们变得越来越复杂。维护期的设置并不恰当,问题和故障经常被发现得太晚。通过早期检测异常情况,你可以避免异常情况和系统停机,最终可以提供大量的救济。
在这篇文章中,你将了解到数据挖掘中的异常检测,不同类型的异常,以及异常检测中使用的方法和算法。
目录
前提条件
- 对大数据的基本了解。
什么是数据挖掘中的异常检测?
数据挖掘中的异常检测是一种检测数据集中的异常值的方法,也就是不属于该组的对象。这些异常现象可能表明意外的网络活动,揭示一个故障的传感器,或突出在分析前必须清理的数据。一般来说,异常情况要么在分析前被删除,要么被彻底调查,以深入了解那些不符合标准模式的数据点。
例如,今天,管理和监测分布式系统的运作并不是一件容易的事。在分布式系统中,有成百上千的东西需要观察,数据挖掘中的异常检测可以协助识别错误,改善根源调查,并允许更快的技术援助。异常检测还可以帮助发现异常值造成的混乱,并提醒有关方面采取行动。
异常现象的类型
异常现象的分类如下。
-
点状异常。如 果一个单一的数据实例与其他的数据实例有很大的不同,那么它就是异常的。检测基于 "交易 "的信用卡欺诈是这种用例的一个很好的例子。
-
情境异常。针对特定情况的反常现象;反常现象是基于背景的。通常,在时间序列数据中,这种形式的反常是很普遍的。例如,在节假日期间每天花更多的钱在食物上是正常的,但在其他方面是不正常的。
-
**集体反常现象。**一组同时出现且不显示通常模式的数据实例被称为集体异常现象。换句话说,单独具有相同行为的数据点可能不是异常现象。但是,当它们集体出现时,就会被认为是一种异常现象。
使用Hevo的无代码数据管道在几分钟内执行ETL
Hevo数据,一个完全管理的数据聚合解决方案,可以帮助你在几次点击中自动化,简化和丰富你的聚合过程。通过Hevo的开箱即用的连接器和快速的数据管道,你可以从100多个数据源中提取和汇总数据,直接进入你的数据仓库,数据库,或任何目的地。为了进一步简化和准备你的数据分析,你可以使用Hevo强大的内置转换层处理和丰富原始颗粒数据,而不需要写一行代码!"
"有了Hevo,你可以将你的数据提取、清理、准备和丰富的时间和精力减少许多倍!"。此外,Hevo与BI和分析工具(如Tableau)的原生集成将使你有能力挖掘你的聚合数据,运行预测分析并轻松获得可操作的见解!"
体验一个完全自动化的无忧无虑的数据聚合。今天就试试我们的14天免费试用吧
什么是数据挖掘?
数据挖掘是一个收集、清理、转换和总结大数据的过程。数据挖掘背后的理念是确保你从数据湖或数据仓库中存在的大量信息中收集相关数据,用于分析。通常情况下,数据科学家在开发机器学习模式进行预测之前,会花费大量时间进行数据整理。有了数据挖掘过程,就可以让数据科学家更专注于建立模型,而不是花时间去识别和转换所需的数据集。一个有效的数据挖掘过程可以帮助你的组织简化整个数据分析和机器学习过程,以快速产生对数据的洞察力。
最广泛使用的数据挖掘框架是CRISP-DM(数据挖掘的跨行业标准流程)。CRISM-DM方法有六个步骤。
-
业务理解。C RISP-DM的第一阶段是了解公司并确定其特殊需求或目标。了解一个公司需要了解它打算解决的困难。例如,一个公司可能寻求提高各种营销活动的回应率。
-
数据收集。根 据你想解决的问题,你可以确定正确的数据来源来收集相关信息。确保你收集足够的数据,同时也考虑到分析数据所需的变量,以便更好地理解你的商业问题。
-
数据准备。在 牢牢掌握哪些信息存在,哪些数据不存在之后,对数据进行准备和处理,使其具有价值。数据准备过程消除了诸如缺失和空值的问题,删除了不必要的字符,以及更多从收集的数据。这有助于确保你在开始分析或机器学习模型训练之前有一个高质量的数据集。
-
建模。在 准备过程中收集的数据然后被用来创建各种行为模型。你可以利用清理过的数据,通过对类似的数据点进行聚类和分组来收集更多信息。在这个过程中,会用到一些机器学习技术,如KNN、决策树等等。
-
评价。对 你建立的模型进行批判以协助你进行决策是非常重要的。模型可能有偏差,如果它们不准确,会影响你的业务运营。在使用模型进行决策之前,必须彻底评估它们,以检查它们的准确性。
-
部署。根 据定义, CRISP-DM是迭代的。每个步骤不仅为后面的步骤提供信息, 也为前面的步骤提供信息。过程的每个阶段都会告知并重新告知模型, 而新的知识也会应用到之前的阶段。
由于这个过程是迭代的,这些阶段是按顺序处理的。这意味着在这个过程中产生的任何模型和理解都是为了通过在整个过程中获得的后续知识来加强的。
数据挖掘中的异常检测方法
检测数据异常的最基本方法是识别与分布的典型统计特征不同的数据点,如平均值、中位数、模式和量值。假设一个异常的数据点偏离平均值一个特定的标准差。因为时间序列数据并不是静态的,在其上遍历平均值并不容易。为了计算数据点的平均值,你需要一个滚动窗口。在技术术语中,这被称为滚动平均或移动平均,它被用来平滑短期变化,同时突出长期变化。一个n周期的简单移动平均线在数学上也被称为 "低通滤波器"。
数据挖掘中的异常检测是一门学科,旨在寻找数据集中特殊的或与大量数据不同的实例。这指的是不符合预先确定的分布模型的数据。正态分布是最著名的分布函数,它可以用来解释许多经济和技术过程的观察值的分布。在数据挖掘中也有几种基于决策树、距离/密度方法、重建技术和概率方法的异常检测方法。
监督的方法也可以在异常分布中发挥重要的影响。基于模型的策略可以是一个可行的选择,特别是对于标记的训练数据。因为大多数技术过程是周期性的,它们由重复的信号模式表示,可以用回归或时间序列分析来研究。这使得即使是与 "正常 "程序的轻微变化也能被发现。
下面的列表试图对数据挖掘中的异常检测中用于识别异常的算法的各种方法进行分类。然而,这不应该被看作是一种严格的分类,因为不同的策略采用了多个领域的方法。
-
基于概率 的数据挖掘中的异常检测 。 这些方法是基于一组关于事件发生的概率假设。数据点的概率分布被用来评估它们。离群值是具有极低可能性的罕见发生。
-
基于距离和密度的数据挖掘的异常检测。无 参数方法考虑并评估有关其周围环境的数据点。如果一个数据点周围有足够多的可比数据点,那么该数据就被判定为正常。k近邻算法就是遵循这个思路。
-
使用 聚类 方法的数据挖掘中的异常检测 。 这些方法寻求相关的项目和结构来分组。实例被划分为不同的组,使每个组内的数据尽可能具有可比性,而不同组内的数据则尽可能不同。离群值是指不能被分配到任何一组的实例。
-
使用重构方法的数据挖掘中的异常检测。这 些方法的目的是在数据中找到模式,在没有噪音的情况下重现信号。主成分分析(PCA)和复制者神经网络(RNN)是这一类别中两个著名的技术。
数据挖掘中用于异常检测的算法
数据挖掘中的不同异常检测技术通常可以发现数据中的异常值和异常情况。例如,分组、分类和关联规则学习的算法。
算法分为两类:监督式学习和无监督式学习。最普遍的学习类型是监督学习。包括逻辑和线性回归、支持向量机、多类分类等在内的算法。
因为数据科学家充当了老师的角色,教导算法应该得出什么结论,所以被称为监督学习。学习过程是由数据科学监督的。
为了建立一个预测模型,监督方法(也被称为分类方法)需要一个由正常和异常样本组成的训练集。
另一方面,无监督学习是一种假设,即计算机可以在没有人的帮助下学习发现复杂的过程和异常值。
数据挖掘中流行的异常检测方法有稳健协方差估计器、隔离森林、局部离群因子算法和单类支持向量机。自动编码器在深度学习领域被广泛利用。使用时间序列和回归研究,可以模仿和预测所研究过程的行为的模型被创建。
用Hevo的无代码数据管道简化你的数据分析
如果没有合适的工具,数据分析可能是一项艰巨的任务。Hevo的自动化平台为你提供了所有你需要的东西,使你有一个顺利的数据收集、处理和汇总的经验。我们的平台为你准备了以下内容
- **卓越的安全性。**容错架构,确保零数据损失。
- 规模化建设。 卓越的横向可扩展性,最小的延迟,满足现代数据的需求。
- 内置连接器。支 持100多个自定义数据源,包括数据库、SaaS平台、本地Webhooks、REST APIs、文件及更多。
- 数据转换。为 复杂代码和无代码数据转换提供一流和灵活的本地支持,使每个人都能在指尖上操作。
- 实时支持。Hevo团队24小时不间断地通过聊天、电子邮件和支持电话向客户提供特殊支持。
- 快速设置。Hevo具有自动化功能,可以在最短的时间内完成设置。此外,由于其简单和互动的用户界面,它对新客户的工作和执行操作是非常容易的。
- 自动模式映射。Hevo消除了模式管理的繁琐任务,并自动检测传入 数据的格式,并将其复制到目标模式。你还可以选择完全和增量映射,以满足你的数据复制要求。
今天就用Hevo简化你的数据分析
异常检测在数据挖掘中的应用
有几种独特的方法可以从数据挖掘中的异常检测中获得洞察力,因为在整个组织中有不同的指标需要测量。然而,深入研究后发现,数据挖掘中的异常检测有三个主要的商业应用。
应用性能
在数据挖掘中的异常检测中,应用程序的性能可能会决定劳动力的生产力和收入。传统的、被动的应用性能监控技术只允许你对问题做出反应,在你意识到有问题之前,你的组织就已经很脆弱了。
检测异常情况以提高产品质量
对于产品经理来说,仅仅依靠其他部门来处理基本的监控和通知是不够的。你需要相信产品从一开始到每次添加新功能时都会表现良好。
每一个版本的发布,A/B测试,新功能,购买漏斗的修改,或客户协助的改变都会导致行为的异常,因为你的产品在不断发展。当你不能充分监测这些产品的异常情况时,你就有可能损失数百万美元的收入,并损害你的品牌形象。
数据挖掘中的异常检测可以帮助电子商务等基于产品的公司实现其目标。虽然工程师可以处理电子商务平台监控的技术部分,但必须有人跟踪业务漏斗、转换率和其他关键的KPI。产品经理负责这方面的工作。然而,如果你依靠静态阈值来跟踪动态漏斗比率,你会错过与季节性和其他时间序列成分有关的基本信号。
检测异常情况以获得更好的用户体验
如果你遇到任何网络攻击或版本故障,你的业务就有可能失去客户。为了避免导致客户流失和收入损失的挫折感,在影响用户体验之前对这些缺点做出反应是至关重要的。
客户的幸福感可以通过简化和增强一系列业务中的用户体验来提高,包括。
- **游戏。**手动阈值无法跟踪游戏会话的变化细节。基于人工智能的数据挖掘解决方案中的异常检测监控操作系统、级别、用户段、多种设备等,以确保损害用户体验的故障和问题立即得到解决。
- 在线业务。任何在线业务要想成功,必须顺利运行。IT部门必须实时管理API问题、加载时间障碍、服务器不可用以及其他问题,以保证用户体验不受损害。检测所有平台、操作系统和数据中心的异常情况可以实现全面覆盖和快速反应时间。
总结
这篇文章帮助你了解什么是数据挖掘中的异常检测,为什么它对你的公司至关重要,以及这些系统如何在高水平上运作。企业一直专注于数据收集的优化,现在是时候使用这些数据来获得洞察力,通过快速识别和解决问题来推动你的公司前进。
然而,作为一个开发人员,从不同的数据源(如数据库、客户关系管理、项目管理工具、流媒体服务和营销平台)中提取复杂的数据到你的数据库,似乎是相当具有挑战性的。如果你是非技术背景,或在数据仓库和分析的游戏中是新手,Hevo Data可以帮助你!
海沃数据将使你的数据传输过程自动化,从而使你能够专注于你的业务的其他方面,如分析,客户管理,等等。这个平台允许你从 100多个来源的数据转移到基于云的数据仓库,如Snowflake,Google BigQuery,Amazon Redshift等。它将为你提供无忧无虑的体验,使你的工作生活更加轻松。
想体验一下Hevo吗?注册 一个14天的免费试用,亲身体验功能丰富的Hevo套件。
你也可以看看我们无与伦比的 价格,这将有助于你选择适合你的业务需求的计划!