知识图谱的应用场景

1,092 阅读14分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第18天,点击查看活动详情

0. 简介

停止单纯的采集数据点,要开始将数据连接起来。

“大数据”这一技术每年都在进步,然后今天的企业或组织的领导者并不希望管理这些海量的数据,而是迫切的希望 能够洞察数据背后的知识,因此数据节点之间的关系(Relationships) 要比独立的数据节点更为重要。

为了利用数据之间的关系,就需要能够把关系信息(Relationship Information) 作为一阶实体进行存储的数据库技术,这种数据库技术就是图数据库(Graph Database)

讽刺的是,尽管传统的关系型数据库管理系统(Relational database management system,RDBMS) 的名字中就包含关系,然而由于基于表格的数据模型和不够灵活的模式使其难以添加不同类型的连接

图(Graph)就是未来。

基于图(Graph)的数据库不仅可以高效存储数据之间的关系,还可以灵活的添加新的关系类型,因此其数据模型可以适用于不同的商业需求。

下面介绍应用图数据库最为广泛的五种场景。


1. 场景1:欺诈检测

银行和保险公司每年都会因欺诈导致数以亿计的损失,传统的欺诈检测方法所采用的离散数据分析容易受到假阳性数据和假阴性数据的影响,从而难以最小化欺诈的损失。经验丰富的骗徒们利用传统欺诈检测的缺点,开发出了各种利用这些缺点的欺诈手段。

而图数据库通过利用高级的的上下文链接分析,提供了高度精确的检测方法以发现诈骗团伙以及复杂的诈骗手段,并且具有实时制止欺诈行为。

1.1 欺诈检测面临的挑战

  • 发现欺诈模式的链接分析算法时间复杂度高。 揭露诈骗团伙需要遍历数据关系信息,因此时间复杂度很高,尤其是在诈骗团伙变得越来越庞大的情况下。
  • 检测和阻止欺诈行为需要满足实时性。 为了阻止欺诈团伙的欺诈行为,需要在欺诈团伙从创建一个假帐户到交易发生的时间窗口中进行实时的链接分析。
  • 不断进化和改变的欺诈团伙。 由于欺诈团伙会在规模和手段上不断变化,因此欺诈检测算法需要能够在不断变换的环境中检测到欺诈模式。

1.2 为何要用图数据库进行欺诈检测

尽管没有任何一种诈骗预防方法是完美的,但是通过引入孤立的数据之间的关系连接能够有效的改善诈骗预防方法的效果。对于理解数据之间的关联并推理这些关联的含义来说,收集更多的数据并非必要。可以通过将已有的数据重构为图(Graph) 来获得更多的数据洞察力。

与其他理解数据之间关联的方法不同,图被设计用来表达数据之间的关联。图数据库能够发现那些用数据表格表示数据的传统数据库所难以发现的模式(Pattern) 。越来越多的公司开始使用图数据库来解决包括欺诈检测在内的各种数据分析任务。

1.3 例子:电子商务欺诈

随着信息化和数字化的发展,越来越多的交易活动采用了线上的模式。欺诈者快速的适应了这一趋势,并设计了各种精巧的方法来欺骗在线支付系统。诈骗团伙可以在系统中创建大量的虚假身份以执行各种形式的欺诈方案。

在线交易系统的交易信息通常包含以下数据特征:用户ID、IP地址、地理位置、浏览器Cookies以及信用卡账号,这些特征之间通常是1-1的关系。有些交易系统还要考虑一些特殊情况,例如:多个用户共享使用同一设备、一个家庭共享一张信用卡、一个人使用多张信用卡等情况。

然而,当这种特殊情况多到一定程度,就可以认为非常有可能存在欺诈行为。不同用户账号之间存在的关联越多,就越要考虑其原因。庞大而连接密集的子图就是欺诈行为强有力的指示器。以下图为例:

image.png

从不同地址进行交易的信息所构建的图,由于IP1IP_1和五个不同的信用卡节点存在关联,因此在IP1IP_1节点可能存在欺诈行为。

通过设置用户登录、下订单、绑定信用卡等可用于评估欺诈行为的事件触发器,可以在造成实质性损失之前发现欺诈行为。

1.4 小结

对于基于图的欺诈检测方法,以下两点是显而易见的:

  • 随着交易活动自动化程度越来越高、速度越来越快,留给欺诈检测的时间窗口越来越小,因此对实时解决方法的需求不断增加。
  • 传统的欺诈检测技术难以发现诈骗团伙,图数据库可以通过分析数据之间的关联来发现欺诈模式。

2. 场景2:实时推荐引擎

对于零售、社交、媒体领域的企业,为用户提供高度准确和实时的推荐系统(Recommendation) 对于提高用户价值和保持竞争力非常重要。与传统的商业数据不同,推荐系统必须考虑终端用户数据之间的相关性,以提供充分考虑推理关系和上下文的推荐结果。

图数据库能够支持推荐系统获取用户的浏览行为和绑定了用户购买历史的统计特征,通过立刻分析用户当前的选择,然后立即提供推荐信息。

2.1 实时推荐系统面临的挑战

  • 处理大量与上下文相关的数据和关联信息。 协同过滤和基于内容的过滤算法依赖于快速的图遍历,同时还要面对不断增长和高度互联的数据集。
  • 实时提供相关推荐结果。 推荐系统的能力依赖推荐系统的实时性。
  • 需要适应持续增长的数据和关联信息。 要处理快速持续增长的数据,意味着推荐系统需要能够适应当前和未来的需求。

2.2 案例:沃尔玛与eBay

零售业巨头沃尔玛拥有位于27个国家的一万多家门店和位于10个国家的电子商务网站,拥有220万雇员,年销售额超过4600亿美元,每周为2450万客户提供服务。沃尔玛利用图数据库来理解在线用户的行为以及用户与商品之间的关系,并提供实时的产品推荐数据。

电子商务巨头eBay同样利用图数据库来实现强大的建议引擎(Suggestion Engine),以提供实时的快递包裹路由建议。利用图数据库的引擎要比之前用MySQL的解决方案快了近千倍,而代码量却只需要之前的十分之一到百分之一。

2.3 小结

使用图数据库存储和查询推荐系统的数据可以提供实时的结果,而不是预先设置好的陈旧数据。随着消费者期望增长、耐心减少,提供相关的实时推荐信息能够提供更大的竞争力。实时推荐系统能够为零售、运输、招聘、媒体、情感分析、搜索和知识管理领域的企业提供更为强大的竞争力。


3. 场景3:主数据管理(Master Data Management,MDM)

主数据(Master Data) 是企业的生命线,通常包括:

  • 用户信息
  • 客户信息
  • 产品信息
  • 账户信息
  • 合作伙伴信息
  • 站点信息
  • 部门信息

很多的商业应用都需要使用到企业的主数据,通常这些主数据会存储于不同的地方,同时还存在大量的冗余和重叠信息及以不同的格式,这些数据通常有着不同的数据质量和访问方法。主数据管理就是鉴别、清洗、存储和管理数据的活动。主数据管理的最佳实践包括:

  • 将所有数据合并到一起以便于管理数字资产。
  • 为单一服务或应用提供易于访问的数据管理方式。

无论使用哪种方式(或者混合的方式),企业数据架构都需要一种能够适应业务需求变更的数据模型,以面对临时变化和新型的数据结构。而图数据库最适合这种快速进化的数据模型。

3.1 主数据管理面临的挑战

  • 高度复杂的层级式数据集。 用关系型数据库管理层级式数据会导致复杂且难以维护的代码,这些代码运行效率低,编写代码开销昂贵,维护时间成本高。
  • 存储和查询性能要求实时性。 主数据需要整合到一起进行存储,并为企业内部的应用提供数据。在高度关联的数据集中实时的提供信息是一项重要的挑战。
  • 变化的数据结构。 主数据具有动态变化的性质,这使得开发者难以设计一个能够适应数据不断进化的系统。

由于主数据之间高度的互联以及共享需求,简单的构造主数据管理 系统会降低敏捷性,从而影响企业的发展。大部分遗留的主数据管理系统依赖于关系型数据库,这类数据库对于遍历数据之间的关联信息没有做到最优。使用图数据库管理主数据能够适应业务分析的进化。

3.2 案例:层级式雇员数据

在具有层级架构的数据中,每个节点都有其上层节点和本层节点,每个节点可能包括多个子节点。如下图所示,在雇员数据架构中,节点之间的结构描述了雇员之间汇报监督的关系,例如在下图中Billy要向George汇报,BertErnie要向Clarence汇报工作。

image.png

像上图所示的小型层级架构,用关系型数据库进行建模和维护是非常方便的。然而随着员工数量的增加,查询与维护的开销会越来越大。例如,当员工升职时,该员工与其关联的员工之间的关系都需要更新。此外,这种简单纯粹的企业人事架构在现实世界中几乎是不存在的,一个员工可能要向多个员工汇报工作,而且向其他员工进行汇报的关系可能来源于一些临时性的需求(例如实习工作和临时项目合作)。实际上,大部分的人事层级架构是一个充满了现实世界复杂性,并具有不同类型关系的复杂网络。下图就是以网络(或图)的视角对前面人事架构例子的重构。

image.png

当业务变化时,使用图数据库易于将传统的层级架构人事关系建模为人事图谱。在于主数据应用领域中,类似这样的需求非常广泛,例如产品关系、文档关系以及销售和客户数据等。

3.3 小结

最佳的数据驱动的业务架构实践不是基于传统的信息池,而是需要包含了数据间关系的实时主数据。将主数据重构为图谱模型能够提供更为灵活、快速的业务架构。


4. 案例4:网络与IT运维

网络本身的数据结构就是图(Graph),因此图数据库适合对通讯网络和数据中心网络和IT运维的数据进行建模、存储和查询。图数据库已经成功部署在通讯、网络管理、影响分析、云平台和IT虚拟财产管理领域。在这些领域,使用图数据库存储配置信息可以使基础设施在发生潜在问题的时候,把分析和解决的时间从小时级别降低到秒级。

对于数据中心和通讯企业,图数据库可以将分离的库存系统的信息聚合在一起,提供了包含全局信息的统一视图。网络的图表示可以让IT管理者对资产进行分类、部署的可视化以及鉴别硬件资源与部署之间的依赖关系。图结构的表示可以快速查询以下信息:

  • 一个特定的使用者使用了哪些资源?资源包括应用、服务、虚拟机、物理机、数据中心、路由器、网关和光纤通道等。
  • 一个特定的网络节点(路由或网关)设备参与到哪些应用和服务当中?
  • 对于哪些最重要的客户,是否使用了冗余的资源。

网络与IT运维场景存在的挑战

  • 网络故障诊断。在网络或IT环境环境下,物理设备和人之间相互联系之间非常复杂,使得故障诊断非常复杂。
  • 影响分析。网络节点之间的关系既不是纯粹的线性关系,也不是层级式架构。因此确定网络单元之间互相依赖关系,以确定故障的影响范围非常困难。
  • 物理节点和虚拟节点持续增长。通讯网络和IT运维的节点数量增长的越来越快,这就意味着建议系统需要适应目前和未来的需求。

5. 案例5:身份认证及访问权限管理

挪威的Telenor公司是一家提供通讯服务的跨国公司,为集团客户提供管理其自身账户的服务。该公司提供了一个基于浏览器的应用,为客户的组织提供添加和删除服务的功能。为了保证用户和管理员只能访问到与其相关的服务以便于管理,该应用部署了一个复杂的身份验证与访问权限管理系统(Identity and Access Management,IAM) 。该系统能够为数百万的用户设定在上千万个服务实例中的权限。

image.png

出于性能与响应时间的考虑,Telenor公司决定将其现有IAM系统更换为基于图数据库的解决方案。他们原有系统是基于关系型数据库的,利用递归的联合操作(JOIN) 来对复杂的组织结构和产品架构进行建模。对于联合操作密集的模型,该公司提供的服务中最重要的那些查询的性能难以被接受。

相反,当他们部署了基于图数据库的解决方案后,Telenor的处理身份验证和访问权限管理系统满足了性能、弹性和自适应性的需求。将查询所需的时间从几分钟降低到若干微秒。


6. 小结

除了上述的五个典型的应用场景,图数据库还广泛的用于物流与路由、生命科学、社交网络、游戏、政府管理、运动等组织或企业。图谱数据库是一种技术解决方案,允许数据专家利用数据之间的潜在关系来挖掘更多的信息。