本届冬奥会，正在上演这样一幕：

开幕式当日，一个二次元虚拟歌手洛天依以一曲《Time to shine》受到广泛关注，成为首位登上奥运会的虚拟歌手；

青蛙公主谷爱凌荣获金牌的前一天，她的虚拟数字分身Meet GU正在咪咕冬奥赛事演播室帮准备参加比赛的她完成滑雪赛事解说、播报及场景电商等虚拟互动工作。

不止于此，早在开幕式10天前，一个以中国气象频道主持人冯殊为原型，可以模仿冯殊声音、语气、口型的虚拟气象主持人冯小殊就开始以以假乱真的主持效果播报天气......这些各式各样的虚拟形象展现着：这届冬奥会，虚拟人正在大爆发。

实际上，虚拟人的概念早在1982年的日本漫画《超时空要塞》中有所体现。动画作品女主角林明美被制作方包装成演唱动画插曲的虚拟数字歌姬，还出售自己的音乐专辑。此后，伴随技术的革新，这个赛道开始涌现类似“初音未来”、“洛天依”等能歌善舞的二次元虚拟人形象。

直至近些年，一些超写实的虚拟人正在走进人类的生活。从阿里首位数字人员工AYAYI的横空出世，再到清华大学女学生“华智冰”的诞生，以及前段时间以超绝美貌赢得全网关注的万科首位虚拟女员工崔筱盼的曝光。这些虚拟人不再是普通的形象与声音包装，他们变得越来越像“人”，也越来越有学识。

知识图谱令机器人变得更有学识

这不仅令人深思：究竟是什么在赐予虚拟人“灵魂”？

2022年1月29日，百度副总裁吴甜在央视的访谈节目中曾这样谈及虚拟数字人背后的技术驱动力。吴甜曾说， “计算机视觉、语音、自然语言处理、知识图谱等AI技术的整体提升及跨模态融合创新，使得由AI生成并驱动的虚拟数字人能够真正发挥价值，进一步拓展应用场景。” （图源：央视《对话》20220129节目截图）

从这段话中，我们可以理解，正是因为计算机视觉、语音、自然语言处理以及知识图谱等AI技术的升级，才逐渐打造了一个越来越有人味的“虚拟数字人”形象。

不过，除了外表和形象越来越像“人”之外，现在的超写实虚拟人逐渐和人一样展现出分析和推理能力。对此，浙江大学计算机科学于技术学院教授陈华钧曾在2016年的某次知识图谱会议上说过：“知识图谱令机器人变得更有学识。”

那么，什么是知识图谱？

回顾知识图谱（Knowledge Graph）的发展史，可以追溯到2012年。当年5月17日，谷歌公司通过其官方博客正式上线知识图谱的新功能，主要用作提升谷歌搜索引擎性能的知识库。这个概念的提出曾被视作当时谷歌搜索上线以来最大的一个改革。

当前，知识图谱并未有一个标准的定义。但是从专注AI人工智能教育的贪心科技CEO李文哲的《知识图谱的技术与应用（18版）》一文中，我们可以看到，一个较为学术的定义是：”知识图谱本质上是语义网络的知识库。“

语义网络(Semantic Network)可以称作知识图谱的前身，最早可以追溯上个实际五六十年代提出的一种知识表示形式，强调某种概念或某个对象之间的关系，譬如生物的界门纲目科属种。但不同于语义网络，知识图谱能提供物品之间复杂的语义关联。

（图源：李文哲知乎页面截图）

抛去繁杂的理论概念，通俗的说，知识图谱就是将全世界的知识打造成了一个巨大的数据库，通过搜索某个相关的问题，便可以根据知识库中的数据匹配、提取得到相应的答案。值得重点关注的是，知识图谱是一个系统性的工程，并不是单一的算法就能完成的，如果想要构建一个完整的知识图谱，需要持续投入大量的人力、物力以及关注度。

比如，清华大学一位最特殊的女大学生——虚拟数字人华智冰。她没有参加任何升学考试，却能师从清华大学计算机教授、系副主任唐杰，且琴棋书画样样拿手。在智源大会2021上，画质并根据一副中国水墨画创作出了一篇七言律诗。

华智冰为何能拥有如此强悍的学习和创作能力？

背后的原因还是得归属于创建华智冰的团队智谱AI搭建的一个性能稳定，规模巨大的知识图谱，用于构建一个超大规模预训练模型，从而华智冰便具有了一定的认知和推理能力。

那么问题来了，知识是无穷无尽的，是不断需要补充学习的。人类在面临一些困扰时，还需得从大脑中思考信息来源。那么对于看似比你有文化的虚拟人来说，他们是如何在庞大的海量知识图谱中如何提取和定位到准确的信息的呢？这就需要知识图谱的抽取工具来实现需求。

一个漫长的工作,一群用心维护的开源贡献者

为了更深刻的认识和理解虚拟人，我们就给大家介绍一款由浙江大学知识图谱团队维护的开源知识图谱抽取工具集——DeepKE。

开源许可证

MIT

项目作者

OpenKG

项目简介

DeepKE 是一个支持低资源、长篇章的知识抽取工具，可以基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。简单说，它是基于深度学习的知识库提取工具包。

项目地址

gitee.com/openkg/deep…

正式介绍之前，必须得先聊聊DeepKE的作者OpenKG。前文曾提过，一个知识图谱的构建并非单一的算法实现的，它需要持续且大量投入。很多时候，这些投入只是基于对技术、对知识的热爱，并不带来经济上的回报。可以说，这和开源一样，是需要具有贡献精神的行为。

有意思的是，OpenKG还是一个支持开源开放的知识图谱社区联盟，目前由浙江大学、东南大学、同济大学等多个高校和单位的专业知识图谱团队进行技术支持与日常运营。正如其愿景一样，OpenKG旨在推动以中文为基础的知识图谱数据的开放、互联与众包，以及知识图谱算法、工具和平台的开源开放工作。

言归正传，截至目前，DeepKE 已经加入dockerfile以便自动创建环境，并发布了demo页面。

模型架构：

DeepKE为三个知识抽取功能（命名实体识别、关系抽取和属性抽取）设计了一个统一的框架；
可以在不同场景下实现不同功能。比如，可以在标准全监督、低资源少样本和文档级设定下进行关系抽取；
每一个应用场景由三个部分组成：Data部分包含Tokenizer、Preprocessor和Loader，Model部分包含Module、Encoder和Forwarder，Core部分包含Training、Evaluation和Prediction。

如何快速上手：

首先，DeepKE支持 Python pip安装使用。若是以常规全监督设定关系抽取为案例，需要以下6个步骤实现常规的抽取模型。

Step 1：下载代码 git clone github.com/zjunlp/Deep…

Step 2： 使用anaconda创建虚拟环境，进入虚拟环境（提供Dockerfile源码可自行创建镜像，位于docker文件夹中）

conda create -n deepke python=3.8conda activate deepke

（1）基于pip安装，直接使用

pip install deepke

（2）基于源码安装

python setup.py installpython setup.py develop

Step 3 ： 进入任务文件夹，以常规关系抽取为例

cd DeepKE/example/re/standard

Step 4： 下载数据集

wget 120.27.214.45/Data/re/standard/data.tar.gztar -xzvf data.tar.gz

Step 5 ： 模型训练，训练用到的参数可在conf文件夹内修改DeepKE使用wandb支持可视化调参

python run.py

Step 6 ： 模型预测。预测用到的参数可在conf文件夹内修改conf/predict.yaml中保存训练好的模型路径。

python predict.py

除此之外，在作者的仓库中该提供了若干Notebook和Google Colab教程，大家可针对性调试学习。

demo预测效果：

操作下载网址：

deepke.openkg.cn/CN/index.ht…

另外，DeepKE的下一个版本中还打算加入多模态知识抽取，如果大家对此有更多的想法，可以点击gitee.com/openkg/deep… 前往作者的仓库,提交issues。

冬奥会虚拟人大爆发，未来夺冠的可能不是「人」

知识图谱令机器人变得更有学识

一个漫长的工作,一群用心维护的开源贡献者

推荐阅读