编辑 | 萝卜皮
尽管在生产高通量数据集方面取得了巨大成就,但构建全面的相互作用图仍然是一项重大挑战。对于异质分子类型,缺乏足够的相互作用实验证据更为重要。因此,制定预测组学间联系的策略对于构建疾病的整体图谱至关重要。
尽管在生产高通量数据集方面取得了巨大成就,但构建全面的相互作用图仍然是一项重大挑战。对于异质分子类型,缺乏足够的相互作用实验证据更为重要。因此,制定预测组学间联系的策略对于构建疾病的整体图谱至关重要。
伊斯法罕医科大学和伊斯法罕理工大学的研究人员,针对各种组间交互预测,提出了深度学习数据集成(DIDL)方法。DIDL 的适用性在不同的网络上进行了评估,即药物-靶蛋白、转录因子-DNA 元件和 miRNA-mRNA。
此外,研究人员通过文献调查评估了新预测的有效性。结果表明,DIDL 优于最先进的方法。对于所有三个网络,曲线下面积和精确召回曲线分别超过 0.85 和 0.83。
DIDL 提供了几个优点,例如从原始数据中自动提取特征、端到端训练以及对网络稀疏性的稳健性。此外,仅依赖于现有的层间相互作用和相互作用分子的生化特征的独立性使得该算法适用于多种网络。DIDL 通过构建综合网络为了解复杂疾病的潜在机制铺平了道路。
该研究以「A deep learning approach to predict inter-omics interactions in multi-layer networks」为题,于 2022 年 1 月 26 日发布在《BMC Bioinformatics》。
最近出现的高通量技术允许产生以前难以置信的大量生物数据。数据生成的速度已经超过了数据分析,为生物医学科学家提供了前所未有的庞大数据集。因此,大数据分析是现代生物学的一大挑战。
尽管近年来已经为组学数据分析开发了多种方法,但组学数据集成仍然是一个重大挑战。现在普遍认为,对生物医学现象的描述不能简化为对单一类型生物分子的改变。事实上,不仅要考虑一层组学数据之间的相互作用,还要考虑复杂的层间通信,以识别生物信息的流动并生成对潜在事件的全面了解。
为了预测组学间的相互作用,已经开发了许多用于组学数据集成的方法。然而,它们主要依赖于网络节点的特定生化特性。因此,它们的适用性仍然仅限于特定的网络类型。例如,基因表达数据已在以前的一些算法中用作节点特征。显然,这些方法不能应用于例如基因组学和表观基因组学数据的整合。
网络嵌入,也称为网络表示学习,是最近被提出的一种方法,通过捕获网络的拓扑属性和边信息,将网络节点嵌入到称为潜在特征的低维向量空间中。换句话说,该方法计算成对节点之间的相似度,以找到隐藏在相应高维数据中的低维流形结构。为基于网络嵌入的交互预测而开发的方法之一是矩阵分解,其中从网络拓扑中检测潜在特征。
矩阵分解的数据融合(DFMF)是一种预测异构节点之间直接和间接交互的方法。然而,这些方法无法从数据中提取高度非线性的模式。一种更新的交互预测方法 node2vec 学习节点的低维表示,并尝试最大化网络随机游走中后续节点出现的概率。该方法已应用于同质和异质相互作用预测。
深度学习是一种机器学习技术,可以从非常大的、异构的、高维数据集的原始数据中自动提取高级特征。这一优势使深度学习非常适合生物学中大数据的复杂性,因为它可以用于网络嵌入以找到复杂的结构特征并学习深度、高度非线性的节点表示。
结合矩阵分解和深度学习的想法被称为深度矩阵分解(DMF)。该方法使用两个深度神经网络 (DNN) 提取表示,并通过作为不可训练解码器的余弦函数计算表示的相似性。DMF 用于推荐系统,并已被证明优于传统的矩阵分解。这种策略最近被应用于预测药物-靶点相互作用。
张量分解是多种异构、稀疏、大数据多层网络的有力工具。在这里,认识到深度学习和张量分解的优势,尝试通过端到端策略使用张量分解来处理多层网络,而不依赖特定的生化特征,从而开发深度学习在大生物数据集成中的应用。
图示:DIDL 方法框架概述。(来源:论文)
针对各种组间交互预测,提出了深度学习数据集成(DIDL)方法。该方法由一个具有两个 DNN 的编码器和一个张量分解预测器组成,该编码器具有两个 DNN,用于提取考虑节点异质性的生物实体的表示,以及一个预测交互概率的张量分解预测器。为了证明所提出方法的适用性,它在三个不同的生物数据集上进行了评估,即药物-靶蛋白、转录因子 (TF)-DNA 元件和 miRNA-mRNA。总体而言,提出了一种新的大数据集成,它连接异质层而不依赖于相互作用分子的特定生化特性。
讨论
为了全面了解生理或病理现象的复杂机制,构建考虑异质生物分子相互作用的多层网络势在必行。本研究旨在开发一种基于深度学习的高度非线性数学数据集成方法,用于在已知相互作用的基础上预测任意两层生物网络之间的相互作用。
根据网络交互的邻接矩阵的行和列同时训练编码器和预测器。评估了 DIDL 效率以预测药物-靶点、TF-DNA 和 miRNA-mRNA 网络的相互作用,并与替代方法进行比较。此外,通过文献调查评估了预测的有效性。此外,还开发了一个增强版本的 DIDL,它可以预测交互的类型。
图示:使用 10 倍交叉验证评估 DIDL。(来源:论文)
DIDL 是多层感知器(MLP)和张量分解的组合,但这种组合更有效,适用于不同类型的多组学异构网络中的链接预测,而不依赖于相互作用元素的生物学特性。
此外,一些用于预测两个异质层之间相互作用的可用方法依赖于每层内部的同质相互作用。DIDL 克服了这一限制,因为它仅通过已知的层间交互进行训练。
这些优势使得所开发的算法特别适用于诸如 miRNAs 等,既没有全面发现层内相互作用也没有全面发现节点的生物学特征和相互作用机制的情况。
图示:DIDL 对 miRNA-mRNA 预测的有效性。(来源:论文)
发现 DIDL 甚至优于用于 miRNA-mRNA 相互作用预测的最佳可用算法,例如 TargetScan、miRAW 和 DIANA microT。值得注意的是,使用 T-SNE 对潜在特征的可视化表明,虽然 DIDL 没有提供 miRNA 的生物学信息,但它可以根据它们的家族对它们进行聚类。这有力地证明了该算法的有效性。
图示:miRNA潜伏特征的T-SNE可视化。(来源:论文)
对包括蛋白质在内的生物分子之间相互作用的大规模研究刚刚开始,并且大多数相互作用可能尚未被发现。因此,考虑到 DIDL 对识别交互的依赖性,有必要研究一下这种方法对网络稀疏性的鲁棒性。研究人员观察到,DIDL 在删除训练子集中相当一部分已知交互后仍保持了可接受的性能水平。这表明,即使在目前尚未完全了解分子连接的情况下,也可以可靠地利用 DIDL。
所提出方法的另一个优点是特征选择和网络表示的过程是自动的。尽管预测新交互的方法的逻辑是基于先前的交互,但节点的交互趋势可能会因网络类型而异。例如,在 PPI 网络中,共享许多共同邻居的两个蛋白质之间相互作用的概率实际上很低。
相反,在基因-疾病网络中,导致相同或相似疾病的基因往往会相互作用。因此,手动特征提取不是一个好的选择,尤其是在网络行为不正确的情况下。
DIDL 是一种新颖的自动编码器架构,能够学习一阶和二阶近似的联合表示。该架构在单个学习阶段提供高效的端到端训练,以同时执行节点表示和链路预测。这样,可以联合优化预测器和编码器参数。最近的研究表明,使用这种端到端学习方案可以显着增强图形结构数据的建模。这至少可以部分描述 DIDL 优于 node2vec、DeepWalk、CN 和 JI。
总之,使用深度学习策略,我们在这里提出了一种新颖的组学间预测管道,它依赖于最少的数据,适用于各种网络。它可用于构建多层网络并生成复杂疾病潜在机制的综合地图。