西班牙纳瓦拉大学的研究人员开发了RNACOREX,这是一个开源软件平台,旨在识别与癌症生存相关的基因调控网络。该工具由数据科学与人工智能研究所(DATAI)的科学家与纳瓦拉大学癌症中心诊所的成员合作开发。其性能已使用国际联盟——癌症基因组图谱(TCGA)提供的十三种不同类型肿瘤的数据进行了测试。
RNACOREX 发表在《PLOS计算生物学》期刊上。它可以同时分析数千种生物分子,从而能够检测到传统分析方法经常遗漏的重要分子相互作用。通过生成清晰且可解释的分子“图谱”,该软件帮助研究人员更好地理解肿瘤的功能,并探索驱动癌症进展的生物学过程提供了新途径。
解码癌症隐藏的遗传结构 在人类细胞中,不同类型的分子——如微小RNA(miRNA)和信使RNA(mRNA)——通过高度复杂的调控网络进行通讯。当这些网络功能失常时,就可能发展出包括癌症在内的疾病。
“理解这些网络的结构对于检测、研究和分类不同的肿瘤类型至关重要。然而,由于可用数据量巨大、存在大量虚假信号,以及缺乏能够区分哪些分子相互作用真正与每种疾病相关的、易于使用的精确工具,可靠地识别这些网络是一项挑战,” DATAI数字医学实验室负责人、该研究的主要作者之一 Rubén Armañanzas 表示。
RNACOREX 旨在克服这些挑战。它整合了来自国际生物数据库的精选信息与真实的基因表达数据,对最具生物学意义的miRNA-mRNA相互作用进行排序。以此为基础,该软件逐步构建出日益复杂的调控网络,这些网络也可以作为研究疾病行为的概率模型。
用可解释的结果预测生存率 为了评估该工具的性能,研究团队使用来自癌症基因组图谱(TCGA)的信息,将RNACOREX应用于十三种不同癌症的数据,包括乳腺癌、结肠癌、肺癌、胃癌、黑色素瘤以及头颈部肿瘤。
“该软件预测患者生存率的准确度可与复杂的AI模型相媲美,但它具备许多这些系统所缺乏的东西:对结果背后的分子相互作用的清晰、可解释的说明,” DATAI数字医学实验室研究员、该研究的第一作者 Aitor Oviedo-Madrid 说道。
除了生存预测,RNACOREX 还可以识别与临床结果相关的调控网络,检测多种肿瘤类型共有的分子模式,并突出具有强大生物医学相关性的单个分子。这些见解可能帮助研究人员产生关于肿瘤如何生长和进展的新假设,同时也指向了有前景的未来诊断标志物或治疗靶点。“我们的工具提供了一个可靠的分子‘图谱’,有助于确定新的生物学靶点的优先次序,加速癌症研究,”Oviedo-Madrid补充道。
一个不断扩展的开源平台 RNACOREX 作为开源程序在GitHub和PyPI(Python包索引)上免费提供。它包含用于下载数据库的自动化工具,使实验室和研究机构更容易将该软件整合到他们的工作流程中。该项目得到了某机构的部分资助。
“随着人工智能在基因组学领域的加速发展,RNACOREX 定位为一个可解释、易于理解的解决方案,作为‘黑箱’模型的替代方案,有助于将组学数据带入生物医学实践,”Armañanzas 说道。
该大学团队正在努力扩展该软件的功能。计划的增加内容包括通路分析和新的分子相互作用数据层,目标是创建能更全面解释肿瘤生长和进展背后生物学机制的模型。这些努力凸显了该机构对跨学科研究的更广泛承诺,该研究结合生物医学、人工智能和数据科学,以推进个性化和精准的癌症医学。FINISHED