A weighted bilinear neural collaborative filtering approach for drug repositioning 一种用于药物重定位的加权双线性神经协同过滤方法
Introduction
众所周知,一款新药物的研制往往需要几十年的时间和数亿美元的投入,这样既耗时又耗力,而且新药研制后投入市场也需要平均9-12年的时间,因此提高药物的生产力刻不容缓。近些年药物重定位受到越来越多的关注,因为其较为廉价和研制的速度,能够有效的降低药物研究当中的不可预知风险。
Data
药物与药物之间的相似度由SMLES计算而得。通过比较药物之间的分子结构,进而转化为向量的形式,通过杰卡德相似度或者余弦相似度计算得到。 疾病与疾病之间的相似度,通过Text mining计算对两种疾病的医学症状描述的语句获得。
- 药物-药物相似度网络
- 疾病-疾病相似度网络
- 药物-疾病关联网络
Methods
虽然论文题目是协同过滤方法,论文中整体架构和图卷积神经网络(GCN)。和DRHGCN结构基本相似 主要创新点有以下几个部分
构建了三个网络
- 药物-疾病关联网络
- 疾病-疾病相似度网络
- 药物-疾病相似度网络
集成组件(integration component)
-
定义了一种加权双线性神经网络(weighted bilinear aggregator WBA),目的是最大化不同节点在相同领域之间作用的关系,比如节点a和节点b,如果a在b的k近邻之内而且b也是a的k近邻,新的WBA只会考虑这样关系。
-
当然预测组件中也集成了传统图卷机操作(加权求和 AGG),并且对WBA和AGG进行线性组合。
预测组件 (pediction component)
- 药物-疾病关系复杂且具有较高的稀疏性,且负样本(药物-疾病之间没有相互作用关系)的数量远高于正样本(药物-疾病之间具有相互作用关系)的数量。
- 以往的矩阵分解大部分直接假设药物-疾病之间具有线性关系,但是在数据具有较高稀疏性时,在确定药物/疾病的高度相似性时,模型表现不佳。我们希望模型具有更强的泛化性能。
- 因此这里采用了基于MLP的预测组件,并使用的图正则化。
Optimization
由于正负样本之间的不均衡性会导致以下几种问题
- 训练效率低下,容易分类的负样本和绝大部分的损失计算不能提供有用的学习信息。
- 负样本会将训练淹没,导致模型的表现不佳
- 第一项则代表-balanced focal loss function ,目的是平衡正负样本之间的不均衡性。
- 第二项为药物图正则化,目的是两个相邻近的药物隐向量之间的距离。
- 第三项为疾病图正则化。
Result
- 判断最近邻-k值大小的影响(Effect of the number of nearest neighbors)
通过在三个基准数据集上的测试,我们可以看出在k=3时效果最佳。
- WBA的作用
通过控制的大小,来控制AGG和WBA在线性组合中的占比情况,
- 当=0,代表之包含只AGG
- 当=1,代表之包含只WBA
- 当=0.9,AGG占比0.1,WBA占比0.9,此时效果最好
- 模型效果
比此前的几个模型的效果都要好,但是和前作DRHGCN相比还是要差上一些。
DRHGCN
Cai L, Lu C, Xu J, Meng Y, Wang P, Fu X, Zeng X, Su Y. Drug repositioning based on the heterogeneous information fusion graph convolutional network. Brief Bioinform. 2021 Nov 5;22(6):bbab319. doi: 10.1093/bib/bbab319. PMID: 34378011.
DRWBNCF
Meng Y, Lu C, Jin M, Xu J, Zeng X, Yang J. A weighted bilinear neural collaborative filtering approach for drug repositioning. Brief Bioinform. 2022 Mar 10;23(2):bbab581. doi: 10.1093/bib/bbab581. PMID: 35039838.