知识库:入门简介

118 阅读2分钟

什么是知识库

一般来说,我们在互联网上能接触到的文本、音频、图片或者视频等,都是知识的一种表现形式。最常见的就是非结构化的语言表达,例如:“姚明是中国人”,这种非结构化的自然语言,就是一种知识,但是这种知识是不适合计算机来处理的。 因此,我们需要将其更加形式化、简洁的方式表达出来。目前常见的一种表达方式:三元组(triplet)【实体和实体关系】 就是,其中包含了大量三元组的知识库就是一个庞大的知识图,称之为知识库。 在知识库表达中,三元组包含了实体关系、实体链接、实体。实体关系由关系抽取来完成。具体:

  • 实体关系
    • 1)property 属性;
    • 2)relation 关系。 实体可以被称为topic。
  • 知识库的两种类
    • 维基百科;
    • extracted KBS 后者涉及到的两个关键技术是
      • 实体链指(Entity Linking) 涉及实体识别和实体消歧
      • 关系抽取。 pos、语法分析、依存关系树。

KBQA 介绍以及评测方法

知识库问答(knowledge base question answer, KB-QA),即给定自然语言问题,通过为问题进行语义理解和解析,进而利用知识库进行查询、推理得到答案的过程。

  • KBQA 和对话、机器人交互式对话的不同

KB-QA的特点:

  • 答案: 回答的答案是知识库中的实体或者实体关系。答案不一定唯一,比如: 中国的城市有哪些? 一般会列举一部分,给出的答案和顺序都可能不一致。

  • 评价标准: Recall、precision、F1-score。 而对话的评价标准则是人工评价为准,以及BLUE和perplexity。

  • 主流方法

    • 语义解析:把自然语言改写为逻辑表达式的形式。 语义解析目前还是有很多相关的论文是可以看一看的。
    • 信息抽取 Information Extraction:通过提取问题中的实体,在知识库中查询该实体,找到以该实体节点为中心的知识库子图,子图中的每一个节点或者边都可以作为候选答案。通过观察问题依据规则或者模板进行信息抽取,得到问题特征向量,建立分类器通过输入问题特征向量对候选答案进行筛选,得到最终的答案。
    • 向量建模 该方法思想和信息抽取较为接近。把问题和答案都映射为分布式表达,通过模型训练,使得问题和正确答案得分尽量高。

Reference

  • Yao X, Van Durme B. Information Extraction over Structured Data: Question Answering with Freebase[C]//ACL (1). 2014: 956-966.

本文正在参加 人工智能创作者扶持计划