开源生物知识图谱助力新冠药物重定位

2 阅读3分钟

某机构开源生物知识图谱以应对COVID-19

该知识图谱整合了六个公共数据库的数据,并包含机器学习工具。

COVID-19的迅速传播表明,急需快速有效的药物发现方法。药物重定位是一种利用现有药物治疗新适应症的药物发现范式。与新药发现相比,它具有显著缩短时间和降低成本的优点。利用知识图谱进行药物重定位为治疗COVID-19提供了一种有前景的策略。

知识图谱描述了现实世界实体之间的已知关系,并能够发现新的关系。它们是药物重定位的理想工具,因为药物重定位依赖于识别生物实体(例如蛋白质和化合物)之间的新型相互作用。

链接预测是一种通过概率推断现有图谱结构中实体之间缺失的链接(或称边)来扩展知识图谱存储信息的过程。它可用于推断药物与疾病之间的直接联系,或药物与疾病相关细胞产物(例如化合物与其抑制的蛋白质之间)之间的低层级联系。

为了加速药物重定位研究,某机构的研究团队与明尼苏达大学、俄亥俄州立大学和湖南大学的合作者共同创建并开源了药物重定位知识图谱(DRKG)以及一套可用于优先选择药物进行重定位研究的机器学习工具。

DRKG的高层级结构。数字表示实体类别之间不同类型关系的数量;括号中的术语是这些关系的示例。

在实验中,团队使用机器学习方法搜索DRKG,以寻找具有治疗COVID-19潜力的药物。在分析确定的41种药物中,有11种正在进行或已经完成了针对COVID-19的临床试验。DRKG是一个全面的生物知识图谱,关联了人类基因、化合物、生物过程、药物副作用、疾病和症状。它策展并规范化了来自六个公共数据库的数据,以及与COVID-19相关的最新出版物中的信息。

DRKG包含近10万个实体(超过十几种类型)和近600万条关系(超过100种类型)。它捕获了与COVID-19的遗传特征或与现有药物及病毒成分相关的实体之间的相互作用。

附带的机器学习工具使用最先进的深度图学习方法(DGL-KE),利用分布式图操作(来自流行的深度学习库,如PyTorch和MXNet)来预测药物治疗疾病或与疾病相关蛋白质结合的可能性。当针对与COVID-19相关的人类蛋白质进行测试时,这些工具为当前正在临床试验中的许多COVID-19候选药物赋予了高概率值。

DRKG和机器学习工具均已公开发布在GitHub上。这将有助于使针对COVID-19和其他疾病(例如阿尔茨海默病)的计算药物重定位更加高效和有效。

参与开发DRKG的某机构团队成员包括Vassilis Ioannidis、Xiang Song、Saurav Manchanda、Mufei Li、Xiaoqin Pan、Da Zheng和George Karypis。FINISHED