数据挖掘技术的初级指南
数据挖掘技术在从商业到科学和治理的所有领域都有应用。公司使用数据挖掘来分析记录的数据,如用户偏好、销售数字和历史库存水平。如果他们能够确定这些数据的趋势和反复出现的模式,他们就可以做出更好的决策。如果管理得当,这些信息可以成为一个有效的工具,推动品牌意识、产品开发和营销举措,并加强整体业务发展战略。
在这篇博文中,我们将看看数据挖掘与机器学习有什么不同,以及哪些数据挖掘技术可以用来将原始数据转化为商业洞察力。
什么是数据挖掘?
数据挖掘(DM)是一个计算机辅助的过程,在大数据集中寻找模式。数据挖掘应用错综复杂的算法,使其浮出水面,从而可以用于解决现实世界的问题。
尽管数据挖掘有几种类型,但它们通常分为两个一般类别:探索性和预测性。
探索性和预测性数据挖掘
探索性数据挖掘已经有超过50年的历史。在上个世纪,它被广泛用于统计学中,以确定某些技术对数据分析的适用性。在实践中,它可以成为检测欺诈性保险索赔的工具,例如为多个保险案件提交的受损货物的重复照片。另一个例子是强调不正确的抽样--例如,90%的受访者是女性,而不是规定的50%。一般来说,探索性数据分析(EDA)描述数据分布,帮助识别异常情况或验证基于大数据的图形或非图形呈现的假设。在这篇文章中了解更多关于EDA的信息。
预测性数据挖掘是一项21世纪的技术,已经有20年的历史。该领域是从20世纪80年代的人工智能研究中演变而来的,该研究关注计算机如何从大量的非特定数据中学习。坚持以保险公司为例:通过将所有记录(保单号码、地址等)输入一个算法,你可以检测到特定的模式,如来自特定组织或人物的异常高额索赔或特定案件中的不规则现象。因此,保单延期的不规则现象可能是客户满意度低的信号。
为了澄清探索性数据分析和预测性数据挖掘之间的区别,我们可以补充说,第一个术语指的是在一个更抽象的层面上对原始数据进行总体评价的过程。它用于检查所收集的数据是否有一些异常或差异,是否符合正态分布或其他分布规律。这可以帮助避免使用不完整的数据样本或只适用于正态分布阵列的统计方法。
在预测性的DM中,目标是发现数字之间非明显的、多因素的相关性,特别是在统计方法不适用的情况下。
不可混淆:数据挖掘与KDD
数据挖掘是被称为数据库中的知识发现(KDD)的程序的一部分。这往往会造成两者之间的混淆,因为很多资料都是交替使用这些概念。
KDD是一个从数据中提取知识的一般过程,而数据挖掘是KDD中的一个阶段,专门处理数据中的模式识别问题。换句话说,数据挖掘是为实现KDD过程的总体目的而应用特定的算法。
KDD是迭代式的,在这个过程中,可以进行各种调整,包括完善评估和挖掘,增加新的数据,帮助获得更好的结果。
为了更好地理解数据挖掘和KDD之间的区别,你可以观看下面的视频。
数据挖掘(DM)用于何处?
它被广泛用于各种行业,包括医疗保健、零售、金融、政府和制造业。
例如,如果一家公司想发现购买某些产品的客户的模式或趋势,它可以使用数据挖掘技术来分析他们的购买历史,并开发模型,根据人口统计学或行为预测哪些客户希望购买特定商品。因此,在零售业,数据挖掘帮助公司制定更成功的销售策略。
此外,这些工具还可用于:
- 对客户进行细分: 确定有类似行为的客户群体,并针对他们提供个性化的营销信息。
- 预测取消订单: 根据历史数据,找出哪些客户倾向于取消订单。
- 检测欺诈: 根据历史交易数据,可以识别可疑的行为并加以阻止。
- 根据用户过去的经验,向他们推荐产品和服务。
其他领域的例子
数据挖掘技术在教育、科学、物流、金融和银行等领域也越来越受欢迎,换句话说,几乎所有领域都是如此。
在教育领域,DM帮助建立基于的定制方案:
- 学生的学习模式--例如,他们倾向于通过视频、音频、文本或三者的结合来消费信息。
- 劳动力市场趋势--这可以确定最相关的教育重点。
在金融领域,数据挖掘被用来
- 确定投资机会。
- 预测一些股票的需求,这使潜在的投资者能够做出明智的决定。
数据挖掘在执法和情报方面也有应用:
- 海关官员可以根据越境历史更好地了解边境违规者的典型情况,并关注特定类别的个人。
- 警察可以确定他们需要部署更多人力的地区,知道何时何地发生犯罪的可能性最大。
数据挖掘和机器学习之间的区别是什么?
数据挖掘和机器学习的概念是相似的,因此经常被交替使用。两者都是通过分析数据集来进行预测和获得洞察力。然而,它们是基于不同的原则。在ML中,分析之前要设定数据分类的标准。由于这一步放弃了数据清理,它允许从分析中剔除不适合的数据。在DM中,模式是事先不知道的,必须要建立起来。
数据挖掘使用算法来发现数据中的相关性和相互依赖性,并破译其含义,例如,客户的偏好。一个例子是发现宠物食品或洗发水的定期订单,以提醒客户并鼓励他们从公司购买。
再举个例子。当一家贸易公司想根据过去的销售情况下达生产订单时,它需要在考虑到几个因素的情况下找到物品的最佳组合。
该订单应该:
- 满足对最畅销商品不断增长的需求。
- 预测新商品的最佳生产。
- 考虑到季节性的波动。
- 弥补缺货单位的不足。
- 用类似商品替换某些SKU。
- 优化库存,使其保持在可用空间和商定的现金流范围内。
数学方法只能解决部分问题,而数据挖掘可以提供更好的解决方案。
机器学习是人工智能的一个子集,是关于设计从数据中学习并随着经验而改进的算法。垃圾邮件过滤器是机器学习的一个常见例子。算法分析每封电子邮件,并寻找表明其是否为垃圾邮件的模式(例如,包含 "免费钱 "字样或来自一个可疑的域名)。机器学习算法经常被用于电子商务平台和流媒体服务,如亚马逊和Netflix,以进行产品推荐。它们分析客户以前的购买和搜索历史,以确定他们接下来可能有兴趣购买什么。
机器学习算法可用于聚类、分类、回归(预测分析)、关联规则开发和异常检测,这意味着它们的应用更加普遍,有助于找出一般趋势和模式。
数据挖掘方法用于处理客户数据,并识别特定细分市场的相似性。因此,根据任务的不同,你可以使用ML或数据挖掘。在许多情况下,它们相互补充,相互丰富。例如,数据挖掘可以帮助建立假设,随后将用于机器学习。另外,ML技术可以用来验证这些假设。
数据挖掘 | 机器学习 | |
它是什么 | 从数据中提取信息的过程 | 人工智能的一个子集,使机器能够根据数据进行预测 |
它是如何工作的 | 在大量的数据中识别规则和模式 | 使用多种方法来训练机器学习,而不需要人工干预 |
目的 | 建立数据的相关性,发现序列和趋势,以生成假设 | 检查假设并评估其概率 |
数据挖掘过程的各个阶段
准备阶段
设定商业目标
第一步是确定项目的最终目标,弄清楚它将如何使组织受益。目标可能是更好地了解销售趋势,根据消费者的喜好或行为进行分类,或预测购买倾向。
数据提取和清理
接下来的阶段是收集来自各种来源的相关数据,如CRM、数据库、网页、社交媒体等。你需要合并所有这些渠道的数据,并将其转化为可用于研究(分析)的格式。
一旦你有了你需要的数据,你必须对其进行预处理,以便为分析做好准备。这涉及到数据的清洗和结构化。
正确的数据挖掘
数据探索
在开始分析数据之前,必须先了解它。 数据探索的目的是找出数据中的模式或相关性。
假设的形成
检查完数据后,是时候确定未知的集群、模式或趋势了。在这个阶段,分类、预测和聚类的算法被应用。每个假设都要使用适当的技术进行评估,如交叉验证、自举和误差矩阵分析。最有价值的假说被积累起来,随后呈现给公众。
后期处理:展示
为了使结果能够变成有价值的商业洞察力,它们必须以清晰、有条理和容易理解的形式展示。将它们可视化为报告、图表或信息图是突出最重要的发现的一种方式,如趋势、模式或相关性,这将使数据驱动的决策成为可能。
下面的图形总结了所有的数据挖掘阶段。
数据挖掘技术
为了从数据中提取信息,我们采用了各种各样的数据挖掘技术。
这些技术包括
- 分类
- 聚类
- 关联规则学习
- 回归
- 异常情况检测
- 顺序模式挖掘
根据数据特点,可以采用批处理或实时处理。第一个适用于在一定时期内收集的大量数据。实时处理适用于具有动态更新数据的系统,其例子是谷歌分析的实时概述报告,反映了此时此地发生的网站用户活动。
分类
分类是用来将数据分为预定的组或类。这种数据挖掘技术根据几个属性的值来确定一条记录所属的类别。其目的是将数据分为预定的类别。最常见的是,分类涉及预测一个目标变量,该变量可以采取两个或多个可能的值之一(例如,垃圾邮件/非垃圾邮件;正面或中性/负面评论),给定一个或多个输入变量称为预测器。
花几分钟时间观看这段视频,它解释了分类在真实数据上是如何工作的。
聚类
聚类是一种将数据库中的相关条目根据其相似性分组的技术。分类将变量分配到已知的类别中,而聚类技术首先在数据集中挑出这些聚类,然后根据变量的特点进行分组。
例如,你可以根据销售数据将客户聚类--那些经常购买宠物食品或特定饮料的客户,他们的喜好和客户行为都很稳定。一旦你建立了这些聚类,你就可以很容易地用定制的广告针对他们。
聚类的应用范围很广:
- 医学诊断
- 计算生物学
- 文本挖掘
- 网络分析
关联规则学习
关联规则学习发现了两个或更多变量之间的if-then模式。最简单的例子是购买面包和黄油之间的关联。购买面包的人通常会得到黄油,反之亦然。这就是为什么你会发现这两种产品在杂货店里彼此接近。
然而,这种联系可能没有那么直接。例如,2004年,沃尔玛发现,在飓风来临之前,草莓爆米花的销售达到了顶峰。人们不仅囤积了电池等必需品,而且还囤积了这些受欢迎的甜点。现在回想起来,其心理动机是相当明显的:在紧急情况下,你最喜欢的食物会给你一种安全感,而保质期长的蛋挞是一个完美的选择。但是为了确定这种关系,有必要应用数据挖掘技术。
回归
回归建立了变量之间的关系。它的目标是发现描述这种关系的正确函数。如果使用一个线性函数(y = ax + b),这个过程被称为线性回归分析。对于其他类型的依赖关系,可以使用诸如多元线性回归、多项式回归等方法。
它最常见的应用是规划和建模。一个例子是根据客户的购买历史来预测他们的年龄。我们还可以根据消费者需求等变量来预测成本--例如,由于美国对汽车的需求增加,二级市场上的价格激增。
异常情况检测
异常检测是一种数据挖掘技术,用于识别异常值(偏离常规的值)。例如,在电子商务数据集中,它可以检测出某个商店位置在某一周内的不寻常销售。在其他方面,它可以用来发现信用卡或借记卡欺诈,并识别网络中的入侵或中断。
这个视频对离群值做了简单的解释。
序列模式挖掘
顺序模式挖掘是一个数据挖掘领域,可以检测出发生的有意义的关系。识别以特定频率发生的事件的时间顺序,使我们可以谈论它们之间的依赖关系。
比方说,我们想调查一种药物或一种特定的治疗方法对癌症患者寿命的影响。顺序模式挖掘通过在分析中加入时间维度使你能够做到这一点。除其他外,这种技术适用于医学领域,以计算病人的医疗处方顺序,以及网络安全领域,以预测系统可能受到的攻击。
顺序模式挖掘的应用包括:
- 购物顺序
- 股票市场
- 自然灾害
- 医学治疗
- DNA测序研究
结论
数据挖掘技术被用来识别数据中的模式。它们在许多领域都有广泛的应用,并越来越多地被用来制定有效的营销和商业发展战略。
根据研究目标和数据的性质,不同的数据挖掘技术被应用。
数据挖掘过程是反复进行的,首先是设定目标,然后是准备数据,应用各种分析方法,并将既定结果可视化。
与机器学习不同的是,数据挖掘使用算法来使计算机更聪明,它采用分析工具来检测模式。数据挖掘技术提供了强大的数据驱动证明,并且,帮助发现趋势和相关性,支持决策。因此,它们对业务优化特别有效。
现在你已经了解了数据挖掘的基础知识,你可以加深你对数据处理和分析的认识。