作为一个知识图谱的觉悟就是全世界的猫猫联合起来-1

495 阅读5分钟

作为一个知识图谱的觉悟就是全世界的猫猫联合起来-1

一个小杜logo (2)

初衷

全世界猫猫,联合起来!消灭大瓜皮!忙里偷闲写个关于知识图谱的学习记录~

知识是没有穷尽的,坚持学习让人始终处于不败之地


Tags: 知识图谱

[toc]

🌙 什么是知识图谱

当我们从经验中学习到知识的时候,知识存在我们的脑海里,无数的神经元相互连接的轴突和树突相互连接形成我们的认知,这是以生理学的方式存储的知识

那么什么是知识图谱呢?

知识图谱其实就是一种知识的表示方式,就是为了解决“知识传递”的问题。

知识表示就是说:我们需要用怎样的方法,把自己的知识表示出来,像老师一样传道授业,传递给他人,或者传递给计算机呢?

image-20210324085705251

经典知识表示

古往今来,知识图谱的演变已经有了多种形式,先让我们身临其境体验一下学术界对知识表示的演变过程:

  • 命题逻辑:搞一搞复杂的逻辑分析
  • 框架系统:简化简化再简化~
  • 语义网络:既简单又复杂~

假设现在有以下3条常识性知识要用来表述给计算机:

  1. 每一天儿,太阳从东方升起,并且从西方落下
  2. 2008年北京奥运会,2008年8月8日晚上8时整在中华人民共和国的首都北京举办
  3. 20世纪50年代初,美国生物化学家Chargaff提出了关于DNA中四种碱基组成的Chargaff规则:
    • (···省略···)
    • 对于一特定组织的DNA,其碱基组分不随其年龄、营养状态和环境变化
    • 对于一组特定的生物体而言,腺嘌呤(A)与胸腺嘧啶(T)摩尔数相等,鸟嘌呤(G)和胞嘧啶(C)摩尔数相等
命题逻辑

先介绍一下命题逻辑的知识表示

对于每一天儿,太阳从东方升起,并且从西方落下这个命题(proposition)

我们先定义俩一阶谓词

  • Raise(x,y)Raise(x,y),表示xxyy升起
  • fall(x,y)fall(x,y),表示xxyy落下

命题符号化为Raise(太阳,东方)Raise(太阳,东方)fall(太阳,西方)fall(太阳,西方)

再介绍一下两个逻辑连接词 (logical connective)

  • \vee析取:XY\mathrm{X} \vee \mathrm{Y}表示“或”关系
  • \wedge合取:XYX \wedge Y表示“且”关系

再再介绍一下两个量词(quantifier):

  • \forall全称量词:xP(x)\forall x \mathrm{P}(x)表示“任意”
  • \exists存在量词:yQ(y)\exists y \mathrm{Q}(y)表示“存在”

综上,这个命题的逻辑表示为Raise(太阳,东方)fall(太阳,西方)\forall天Raise(太阳,东方) \wedge fall(太阳,西方)

框架系统

就是用框架将所有事物进行抽取,用来表示事物各方面的属性以及事物之间的类属关系

image-20210324092925978

就和图上类似,像一个Excel表格记录了句子中的所有信息。对于2008年奥运会在北京举办这种常识性知识,我们可以这样表示(像百科一样就非常的直观):

image-20210325100927115

语义网络

就是以网络的形式去表示知识,看起来像思维导图一样

image-20210324093044003

优点

  • 容易理解和展示,直观的把事物的属性及其语义联系表示出来
  • 相关概念容易聚类,是一种结构化的知识表示方法

缺点

  • 节点和边的值没有标准,完全是由用户自己定义
  • 多源数据融合比较困难,因为没有统一标准
  • 无法区分概念节点和对象节点
  • 无法对节点的边的标签进行定义

✨ 为什么需要知识图谱

我们知道,最近这些年人工智能的研究态势简直突飞猛进,论文数量指数上升,但是现在的深度学习代表的一类方法存在一些无法克服的“硬伤”,简单来说就是:

  • 缺乏可解释性:训练模型是个黑盒子,不明白模型是通过什么样的缘由做出的决策
  • 常识(Common Sense)缺失:大名鼎鼎的GTP-3也会翻车,人:太阳有几只眼睛?GPT-3:太阳有一只眼睛
  • 缺乏语义理解:人类的语言还是太丰富了
  • 依赖大量样本数据:人类小宝宝第一眼看出自行车之后就能再次识别自行车,不需要大量样本就能学习
image-20210323170129200

为什么需要知识图谱呢,除了深度学习为代表的方法的固有硬伤,还有一个原因就是:

  • 认知智能的理解、推理、解释任务不仅需要数据,更需要知识背景

所以说人工智能(特别是认知智能)的实现依赖要知识图谱。

📖 知识图谱都有啥类型儿

先看看知识图谱的类型

知识的分类

这些我们不用了解的太过详细~

  • ==陈述==性知识和==过程==性知识:就像是实验结论和实验过程报告
  • ==事实==性(或客观性)知识和==主观==性知识:比如说历史知识就是客观的,但是我们对历史的评判是主观的
  • ==静态==知识和==动态==知识:历史知识是已经确定的,还有的知识随着研究的进行不断改变的
  • ==百科==知识、==领域==知识、==场景==知识、==语言==知识、==常识==知识
知识图谱的类型
  • 语言知识图谱

    存储人类语言方面的知识

  • 常识知识图谱

    主要有CycConceptNet

  • 语言认知知识图谱

    中文知网词库HowNet

  • 领域知识图谱

    针对特定领域构建的知识图谱,专门为特定的领域服务

  • 百科知识图谱

    主要以Linked Open Data(LOD)项目支持的开放知识图谱为核心

image-20210325102848959

知识图谱的生命周期

image-20210325103232352

先行落幕~明天更新下文

👑 值得一看的资料和实践

  1. arXiv:Knowledge Graph 知识图谱综述
  2. 深蓝学院-知识图谱理论与实践