基因组数据搜索:像谷歌查询一样简单

4 阅读7分钟

一位计算机科学家及其团队正致力于将基因组数据搜索提升到新的水平

米兰理工大学的教授斯特凡诺·切里正致力于将一个分布式、多格式的基因组数据集整合到一个统一的、易于访问的系统中。该项目得到了某机构机器学习研究奖的支持。

大约八年前,计算机科学家斯特凡诺·切里未曾想到自己最终会投身于基因组学——研究基因及其功能的学科。作为米兰理工大学数据库系统的教授,切里在其学术生涯的前40年里深度参与了数据管理研究。

由新一代测序技术推动的基因组数据爆炸式增长,引起了切里对新兴的计算基因组学领域的兴趣。如今,他的研究目标之一是运用自身在数据管理方面的经验,使基因组信息的搜索变得像谷歌查询一样简单。使这些数据更易于访问,可以帮助科学家们专注于重要的生物学问题,而不是为实现这些结果所需的计算步骤,从而有助于找到从癌症到新冠肺炎等疾病的解决方案。

切里对基因组学的兴趣始于2012年参加在米兰某欧洲肿瘤研究所举办的一次科学会议。“当时,新一代测序技术刚刚起步,但正以前所未有的速度产生海量数据。该研究所的研究人员不知道如何管理这些数据,”他解释道。会议结束后,切里和他的一些大学同事与该研究所展开了合作。他们为具有跨学科知识的学生提供了博士机会,将数据管理应用于基因组学。

基因组信息庞大而复杂,充满了不同类型的特征或“信号”。这些信号不仅包括突变(DNA序列的变化),还包括基因表达(衡量基因在特定组织和条件下的活性指标,例如由癌症等疾病引起的变化)以及表达峰值(揭示DNA上与特定蛋白质相互作用最显著的基因组位点)。

结合这些信号对于回答诸如了解肿瘤如何发展以及如何治愈等研究问题至关重要。(“计算基因组学”一词是在20世纪90年代中期,随着完整基因组测序的出现而出现的。)

当他初次涉足这一领域时,切里的生物学背景仅限于高中课程。在他学习基因组学知识的过程中,了解到当时最新的科学兴趣在于理解不仅来自基因,也来自“基因外部”(即所谓的表观遗传学)的信号。“我花了好几年的时间才摸清这个领域的皮毛,”他说。

浏览基因组

有几个公共基因组数据存储库,例如DNA元件百科全书和癌症基因组图谱。这些存储库共同包含海量的基因组数据——但它们也带来了挑战。每个公共数据集都独立存放,使用不同的格式和一套不同的数据描述符。

切里表示:“我在基因组计算领域的工作重点是构建工具,将来自不同来源、不同格式的数据整合到一个统一的存储库中,以便在其中进行查询,从而更好地理解全球范围内的信息。”

切里的第一步是:将来自不同来源的基因组数据整合并同质化,托管到米兰理工大学的单一存储库中。第二步是:通过用户友好的界面使这些数据易于搜索,即使是不懂编程的生物科学研究人员也能操作。

得益于切里项目(数据驱动的基因组计算,简称GeCo)的努力,全球的研究人员现在可以通过一个名为GenoSurf的统一平台,访问来自多个来源的聚合基因组数据,该平台托管在GeCo的网站上。该系统允许用户“浏览”基因组数据,选择与其研究相关的属性。然后他们可以可视化并下载结果。

他与同事还致力于定义语言和创建可应用于该存储库的工具,使研究人员更容易识别基因组序列中的重要区域,例如,哪些基因在特定临床条件下表达最多。这种类型的复杂分析过去需要多个软件工具以及从一个软件到下一个软件的数据转换。切里的愿景是让科学家有能力使用单一系统进行研究,这个系统不仅更易于使用,而且具有更强大的数据提取和分析能力。

“我还在我的团队内部开发了我们自己的特定数据管理语言来查询这些系统,它被称为GenoMetric查询语言。它是一种新技术,是一种非常强大且抽象的语言,可以通过结合异构数据(DNA向科学家发送的信号)来识别基因组区域,从而通过简单的计算来理解复杂的现象,”切里说。

这些计算用于研究生物学问题,例如如何为基因组的每个部分分配功能,或者了解可能受基因组结构变化影响的基因。由于计算量很大,他的团队开始对使用某云服务提供商的云计算和存储环境产生兴趣。“我们的语言构建在Apache Spark之上,这是一个著名的数据管理计算引擎。通过在云上运行,我们能让Spark发挥出最佳性能。”

当切里意识到为他的博士生团队和其他相关研究人员提供云服务很重要时,他决定申请某机构机器学习研究奖。他获得的2019年奖项使团队能够以不同方式使用云服务。包括展示其团队开发系统的可扩展性,这需要在云中逐步增加节点进行加速和规模扩展实验。

研究病毒序列

当新冠肺炎疫情开始时,GenoSurf已经被意大利和其他国家的研究人员使用,主要用于肿瘤学研究。由于许多合作者来自医院,项目被暂时搁置,因为他们集中精力应对健康危机。

GeCo项目也将其工作重心转向病毒基因组序列的研究。切里的团队运用他们从GenoSurf项目中获得的专业知识,开发了ViruSurf。这个搜索引擎聚合了存储在不同数据库中的病毒基因组序列数据。任何研究人员都可以访问该系统并执行查询,例如,特定突变首次出现的时间以及它如何传播。

该系统不断更新,以包含世界各地产生的所有新冠病毒序列。目前,大约有65万条。“对于数据导入和整理,包括变异搜索,我们使用的算法和工具计算量很大。这正是云服务再次发挥作用的地方,帮助我们进行有效而快速的计算,”切里说。

当疫情消退后,切里希望能完成几个因医院应对新冠肺炎患者而暂停的项目。这些初步合作涉及前列腺癌的预防以及卵巢癌和霍奇金淋巴瘤的精准医疗。对于一个仅仅八年前还认为DNA不过是一种“四字母编码”的人来说,斯特凡诺·切里正在遗传学研究领域留下自己的印记。FINISHED