破解疾病密码:机器学习如何变革医疗
ARA获奖者Marinka Zitnik致力于研究机器学习如何实现精确诊断并推动新疗法与新药物的开发。
作者:Sean O'Neill 2023年5月15日 10分钟阅读
在其职业生涯早期,计算机科学家Marinka Zitnik面临着一个生物医学难题:在12,000个基因中,哪几个基因在模式生物对细菌感染的反应中起到了作用?这无异于大海捞针。
但当Zitnik将生物医学数据输入她自己设计的机器学习算法时,该算法预测了最可能相关的八个基因。当这些候选基因在实验室进行测试时,研究团队发现其中六个确实与感染有关。她的方法取得了惊人的成功。
“作为一名当时接受计算机科学训练的人,能在另一个领域产生影响,这让我感到非常有成就感,”Zitnik说。“这对我来说是一个转折点。”
这个发生在2013年的转折点,开启了她长达十年的机器学习研究生涯,并使她成为哈佛医学院生物医学信息学的助理教授。在哈佛的Zitnik实验室,她专注于研究机器学习如何实现精确诊断并推动新疗法与新药物的开发。在亚马逊研究奖的支持下,她正致力于通过在线平台Therapeutics Data Commons,在全球范围内释放AI辅助药物发现的潜力。
当然,如今生物信息学已经是一门成熟且不断发展的学科。但在Zitnik高中最后一年,一个她从未听过的魔法词突然向她揭示了如何将对计算机、编程和数学的热情与改变社会的抱负结合起来。
“我偶然听到了一位大学招聘人员的讲座,学到了这个词。生物信息学结合了计算和生物学。这是一个新兴领域,真正激发了我的兴趣,”Zitnik说。随后,她在斯洛文尼亚的卢布尔雅那大学获得了计算机科学和数学学位,并留校于2012年开始攻读计算机科学博士学位,始终怀揣着医学梦想。
“我想深入理解那些可以用计算来解决的生物学和医学中的复杂问题,”Zitnik说。
瓶颈与挑战
在Zitnik攻读博士学位的早期,她发表了多篇机器学习论文,这些论文被许多生物医学机构的科学家们阅读。许多人主动联系她,邀请她到他们的实验室合作,将她的算法应用于他们的数据。在博士期间,Zitnik与世界各地的临床医生、生物医学研究人员、遗传学家和计算机科学家合作,包括斯坦福大学和伦敦帝国理工学院。
“我想了解实验室中基础生物学发现的过程——其中的瓶颈和挑战,”她说。
其中一次与德克萨斯州休斯顿贝勒医学院的合作尤其令人鼓舞:即那场12,000个基因的挑战。传统方法需要成千上万次的筛选实验,逐一测试每个基因。Zitnik算法的成功意味着节省了大量的时间和资源。
“这是我第一次看到,将人工智能预测与实验室中的实验生物学工作相结合,可以将实验产出提高一个数量级,”Zitnik说。
时间快进到2019年,Zitnik来到哈佛大学建立自己的实验室。她专注于两个密切相关且同样可以从人工智能中受益的医学领域。一是机器学习如何根据从基因代码、血液检测结果到病史和生活方式数据等各种信息,为患者实现精确诊断。第二个领域涉及为这些诊断识别和开发可能的治疗方法。
Therapeutics Data Commons
不仅如此,Zitnik更希望在全球范围内释放AI增强医学的潜力。从她早期与生物医学界的合作中,她深知获取和整理高质量医疗数据以训练机器学习模型的巨大困难。她直面这些双重挑战,利用亚马逊弹性计算云(EC2)和AWS机器学习部署工具(通过她的亚马逊研究奖获得),启动了Therapeutics Data Commons(TDC)。这是一个旨在跨治疗方式和发现阶段评估AI能力的国际合作项目。
TDC的核心是一个专注于药物发现和开发的开放源代码数据集和先进机器学习模型的集合,并伴有一个更广泛的资源和工具生态系统,包括用于尖端机器学习模型的基准测试和排行榜。
“这是生物医学和生物化学研究人员与机器学习科学家之间的交汇点,”Zitnik说。“这是一个蓬勃发展的社区。”
TDC是全球同类平台中最大的开源平台。Zitnik与包括麻省理工学院、斯坦福大学、佐治亚理工学院、康奈尔大学、伊利诺伊大学厄巴纳-香槟分校和卡内基梅隆大学在内的合作机构共同运营,并获得了制药行业和科技公司的额外支持。TDC涵盖了药物发现和开发的整个过程,从识别潜在的治疗分子到优化和规划实验室实验。
该平台包含来自匿名电子健康记录、医学影像、基因组学、临床试验等数据。生物医学研究人员可以使用TDC的数据,或带来自己的数据和挑战,并与机器学习科学家合作,以提高药物发现的速度,同时降低将新药推向市场的巨大成本。Zitnik表示,它已被全球超过20万名科学家使用。
助力罕见病研究
Zitnik也热衷于利用她的技术帮助致力于罕见病的患者和临床医生。世界上有超过7000种罕见病,每种已知病例数量虽少,但总体影响人数众多。人工智能能在这里发挥作用吗?
为一种常见病开发诊断模型通常需要数千名患者的诊断数据。而对于罕见病,这种带标签的患者数据根本不存在。“这个问题不能通过投入更多资金来解决,”Zitnik说。“它需要一种新的思维方式。”
因此,Zitnik和她的团队,包括博士后研究员Emily Alsentzer和研究生研究员Michelle Li,正在将关于生物相互作用、化学、遗传学、患者症状和药物相互作用的医学原理及现有科学知识融入到他们模型的神经架构中。
“这使得我们能够使用极少量、有时甚至完全没有带标签的患者数据来训练复杂的深度学习模型,”Zitnik说。
与哈佛大学主导的一项名为未确诊疾病网络(UDN)的研究合作表明,这种方法是有效的。在当地层面无法确诊的罕见遗传病患者可以被转诊到UDN遍布美国12个临床地点的临床和研究专家网络。确诊可以消除患者的不确定性负担,并有望开启治疗的可能性。在UDN研究迄今接受的2500名参与者中,已有627人成功确诊——每一个案例都是一场来之不易的胜利。
当Zitnik的团队将他们的模型应用于其中465名患者的医疗数据(一个排除了他们实际诊断结果的数据集)时,结果令人震惊。该模型被要求为每位患者预测最可能导致其疾病的基因。对于四分之三的患者,致病基因位于模型预测的前五位。
“下一阶段是在真实环境中使用它,协助临床团队评估未确诊患者,”Zitnik说。
Zitnik表示,该工具已引起医学界的极大兴趣。她正计划与波士顿和以色列不属于UDN的诊所进行试点研究,以进一步评估该模型作为新病例诊断推荐工具的效果。Zitnik还在与几个以个体罕见病为中心的患者主导基金会进行讨论,旨在为他们提供一套用户友好的工具。
这正是亚马逊云服务所支持的。“当我们希望在生物医学或临床环境中部署模型时,我们使用SageMaker,”Zitnik说。亚马逊SageMaker可用于将机器学习模型转化为公开发布的独立工具,或者将算法放入基于云的容器中以便与合作者共享。
云计算对生物医学数据的强大作用
更广泛的云计算对Zitnik实验室的工作至关重要。
“我们需要在许多不同类型的健康数据上反复训练我们的模型,以确保它们在多样化的患者群体、多样化的化学结构等情况下都能表现良好,即使输入数据相对杂乱,”Zitnik说。她的亚马逊研究奖提供了AWS积分,用于访问这些需要大量训练的强大模型所需的高性能并行计算。
除了推出TDC,Zitnik的亚马逊奖项还支持了具体的研究项目。2021年,当新冠疫情在全球肆虐时,Zitnik和她的团队希望探究人工智能方法在识别现有药物(可被重新用于治疗新兴病原体)方面能有多高效。与从头开发一种药物相比,识别已在市场上或处于后期临床试验阶段的药物可以节省多年时间和数十亿美元。
Zitnik的团队首先在人类相互作用组——人体内蛋白质之间物理相互作用的完整网络——上训练了一个几何深度学习模型。这些网络告诉我们,给定药物分子会影响人体细胞机制的哪些部分。
模型训练完成后,他们向模型输入了超过7500种现有药物及其作用机制的数据。在这些药物中,模型预测并排序了6340种候选药物。生物医学研究人员筛选了排名前918的建议,在感染了新冠病毒的细胞上进行了测试,发现了77种对病毒有强或弱效果的药物。他们利用这些结果微调了模型的预测,最终在人体细胞中筛选了排名最靠前的药物。他们识别出六种能减少病毒感染的药物。其中,有四种原则上可以重新用于治疗新冠肺炎。
“这是一个令人兴奋的例子,展示了人工智能如何加速药物发现和开发。我们能够将这类研究的时间线——从数据收集到最终模型和预测在实验室得到验证——从几年压缩到几个月,”Zitnik说。在这个案例中,只用了三个月。
这本身就令人印象深刻,但实验也揭示了人工智能方法的另一面力量。
级联网络效应
一个成熟的药物发现策略是利用分子对接。如果感染性病原体需要与人体细胞表面的特定蛋白质对接才能增殖,那么与该蛋白质对接的治疗性分子就可以阻断病原体的作用。事实上,Zitnik的模型确实识别出了一种与新冠病毒靶向的相同蛋白质结合的药物。但关键在于——它还通过间接的系统性效应发现了另外76种能成功减少病毒感染的药物。
“这项工作的最大成果之一就是发现了这组似乎通过级联网络效应起作用的药物,间接地影响了病毒攻击的蛋白质,”Zitnik说。“我们称之为网络药物。如果没有像图神经网络这样的算法,它们能够利用基于生物医学知识的原则进行间接观察和推断,我们将无法识别出这类药物。”
这种由生物医学人工智能驱动的新发现方法让Zitnik对未来充满期待。她看到了这些工具的巨大潜力,它们可以生成更精确、针对特定细胞、疾病和患者的科学假设,并帮助弥合实验室与临床环境之间的差距:
“我迫不及待地想看到这些发展将如何继续塑造我们的世界。”
研究领域
机器学习
标签
医疗健康|亚马逊研究奖|冠状病毒(COVID-19)FINISHED