知识图谱

286 阅读5分钟

知识图谱的定义

是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系.其基本组成单位是 “实体-关系-实体” 三元组, 以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。

知识图谱的理解

  1. 知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库。从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边。由此,知识图谱是对物理世界的一种符号表达。
  2. 知识图谱的研究价值在于,它是构建在当前Web基础之上的一层覆盖网络(overlay network)(所以实体都是使用uri表示),借助知识图谱,能够在Web网页之上建立概念间的链接关系,从而以最小的代价将互联网中积累的信息组织起来,成为可以被利用的知识。
  3. 知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来。

知识图谱的技术架构

202406121212.png

  • 知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程。这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含3个阶段:信息抽取、知识融合以及知识加工
  • 知识图谱有自顶向下和自底向上2种构建方式
    1. 自顶向下构建是指借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中
    2. 自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。

知识图谱的构建技术

自底而上的方式构建知识图谱是一个迭代更新的过程,每一轮更新包括三个步骤。

  1. 信息抽取:关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括:实体抽取、关系抽取和属性抽取。
  2. 知识融合:在获得新知识之后,需要对其进行整合, 以消除矛盾和歧义, 比如某些实体可能有多种表达, 某个特定称谓也许对应于多个不同的实体等。包括2部分内容:实体链接和知识合并。通过知识融合,可以消除概念的歧义,剔除冗余和错误概念,从而确保知识的质量。
  3. 知识合并:在构建知识图谱时, 可以从第三方知识库产品或已有结构化数据获取知识输入。例如,关联开放数据项目(linked opendata)会定期发布其经过积累和整理的语义知识数据,其中既包括前文介绍过的通用知识库DBpedia YAGO,也包括面向特定领域的知识库产品,如MusicBrainz和DrugBank等.
  4. 知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。新增数据之后, 可以进行知识推理、拓展现有知识、得到新知识。

问题与挑战

  1. 在信息抽取环节,面向开放域的信息抽取方法研究还处于起步阶段,部分研究成果虽然在特定(语种、领域、主题等)数据集上取得了较好的结果,但普遍存在算法准确性和召回率低、限制条件多、扩展性不好的问题。
  2. 在知识融合环节,如何实现准确的实体链接是一个主要挑战。
  3. 知识加工是最具特色的知识图谱技术,同时也是该领域最大的挑战之所在。主要的研究问题包括:本体的自动构建、知识推理技术、知识质量评估手段以及推理技术的应用。
  4. 在知识更新环节,增量更新技术是未来的发展方向,然而现有的知识更新技术严重依赖人工干预。可以预见随着知识图谱的不断积累,依靠人工制定更新规则和逐条检视的 旧模式将会逐步降低比重,自动化程度将不断提高,如何确保自动化更新的有效性,是该领域面临的又一重大挑战。
  5. 最具基础研究价值的挑战是如何解决知识的表达、存储与查询问题,这个问题将伴随知识图谱技术发展的始终,对该问题的解决将反过来影响前面提出的挑战和关键问题。当前的知识图谱主要采用图数据库进行存储,在受益于图数据库带来的查询效率的同时,也失去了关系型数据库的优点,如SQL语言支持和集合查询效率等。