知识图谱
知识图谱可以形式化表示为: O = {C, H, P, A, I}, 其中有:
- C:概念集合,如事物性概念和事件类概念
- H: 概念的上下位关系集合
- P:属性集合,用于描述概念所具有的特征
- A: 规则集合,描述领域规则
- I:实例集合,描述实例-属性-值
知识图谱技术包含三部分,分别是知识图谱构建技术,知识图谱查询和推理技术以及知识图谱应用。
- 知识图谱构建技术:知识表示,实体识别,实体链接, 实体关系学习,事件知识学习
- 知识图谱查询和推理技术:知识存储和查询,知识推理
- 知识图谱应用:通用和领域知识图谱,语义集成,语义搜索,基于知识的问答
1. 知识表示
知识的表示形式,是字符串还是低维向量,目前来看,发展最好的是采用深度学习技术来做实体的表示学习以及关系的表示学习,类似Word2Vec。最终将实体和关系表示为稠密的低维向量。
2. 实体识别
实体识别的目的是识别文本中指定类别的实体,从而为知识图谱构建合适的实体集。
3. 实体链接
实体链接是文本中识别出的实体与知识库中对应的实体进行链接,从而实现构建知识图谱。
4. 实体关系学习
实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。
实体关系抽取分为两类:
- 预定义关系抽取:系统所抽取的关系是预先定义好的,比如知识图谱中定义好的关系类别,如上下位关系、国家—首都关系等。
- 开放式关系抽取:开放式关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。
5. 事件知识学习
事件是促使事物状态和关系改变的条件,是动态的、结构化的知识。目前已存在的知识资源(如谷歌知识图谱)所描述多是实体以及实体之间的关系,缺乏对事件知识的描述。针对不同领域的不同应用,事件有不同的描述范畴。一种将事件定义为发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。一种将事件认为是细化了的主题,是由某些原因、条件引起,发生在特定时间、地点,涉及某些对象,并可能伴随某些必然结果的事情。事件知识学习,即将非结构化文本文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用意义重大。