知识图谱加速COVID-19研究的技术解析

26 阅读2分钟

知识图谱在COVID-19研究中的应用

知识图谱通过节点和边的形式组织信息,使其能够被更高效地探索和分析。在COVID-19知识图谱中,节点代表实体,边表示实体间的关系。

图谱结构设计

图谱包含五种节点类型:

  • 论文节点:包含标题、ID号等元数据
  • 作者节点:包含作者姓名
  • 机构节点:包含机构名称和位置
  • 概念节点:包含论文中出现的具体医学术语
  • 主题节点:包含基因组学、流行病学等研究领域

同时定义五种边类型:

  • 作者关系:连接论文与作者
  • 隶属关系:连接作者与机构
  • 概念关联:连接论文与相关概念
  • 主题关联:连接论文与主题
  • 引用关系:连接论文与被引论文

图谱构建过程

从标准化格式的研究论文中提取标题、摘要、正文、作者、机构和引用信息。使用某机构的医学理解服务提取医学实体,并将其分类为实体类型。采用Z-LDA主题模型从论文文本中提取主题,并通过医学专家协助最终确定10个主题。

应用案例:基于引用的排名

图谱结构便于统计引用次数,并支持按特定主题或概念进行定制化统计。

相似论文引擎

给定一篇论文,相似论文引擎使用两种相似性度量方法:

科学文本嵌入 使用基于BERT的科学文本专用模型SciBert,分别对标题、摘要和正文生成嵌入表示,然后进行平均融合。在表示空间中,嵌入向量的接近程度反映论文相似性。

知识图谱嵌入 使用某机构开发的DGL-KE工具,从知识图谱中提取向量三元组(头实体,关系,尾实体)作为训练数据。通过区分真实链接和虚假链接,训练得到图中所有节点的嵌入表示。

最后将语义嵌入和知识图谱嵌入拼接,在新的高维表示空间中通过计算余弦距离得到最相似的前k篇论文。

评估方法

由于缺乏论文推荐的基准真值,通过定量和定性分析进行评估,包括流行度分析、主题交集分析、低维聚类和摘要比较等方法。

该技术为COVID-19研究人员提供了强大的信息发现工具,显著提升了科研效率。