Nature评论|业界多源势力通力合作,加速AIDD研发

60 阅读3分钟

Title

AI can help to speed up drug discovery — but only if we give it the right data

我们正站在药物开发的转折点上。我们呼吁同行通力合作,加快这一激动人心的未来的到来。

前置知识:大分子疗法/基于蛋白质的药物具有广泛的治疗潜力

蛋白质可以有一个以上的结合域,因此可以设计出能附着于一个以上靶点的疗法, 例如,既能附着于癌细胞,也能附着于免疫细胞。将两者结合在一起,就能确保消灭癌细胞

大分子疗法:传统与AI的碰撞

image.png

单个制药公司,无法独自积累足够的数据

事实证明,与药物在体内的行为有关的特性仍无法预测。了解以前的候选药物在临床试验中成功或失败的原因很重要。训练有效的机器学习模型,需要数百或数千个蛋白质的数据。但是即使是最有成果的生物制药公司,平均每年仅启动了3-12项蛋白质疗法的临床试验。 所以,生物制药公司需要share特定氨基酸序列的物理特性、在体内的作用方式等信息。但是,这些信息都是商业资产,制药公司可以借助这些信息以极具竞争力的速度将治疗药物推向市场。所以,share data是不可取的思路

解决方案1:联邦学习

是什么? 有了"联邦学习 (Federated learning)" ,各方可以使用数据集更新共享模型,而无需共享基础数据。

怎么做? 值得信赖的一方--技术公司或专业咨询公司--将维护一个"全局"模型,该模型最初可以使用公开数据进行训练。该方将向每家参与的生物制药公司发送全球模型,后者将利用公司自身的数据对其进行更新,以创建新的"本地"模型。受信任方将汇总本地模型,生成更新的全球模型。这一过程可以重复进行,直到全局模型基本上停止学习新模式。

案例 小分子药物联合学习项目MELLODDY. 怎么做的?项目中,安进公司和其他九家制药公司利用 2,100 多万个候选小分子药物的药理学和毒理学数据,对共享的联邦学习模型进行了为期三年的训练。 效果如何?所有十家合作伙伴使用共享模型预测小分子药物特性的效果都优于使用自己现有的模型。大多数公司在预测小分子如何被人体吸收、分布、代谢和排泄方面的能力提高了 10% 以上。mp.weixin.qq.com/s?__biz=MzU…

解决方案2:主动学习

"主动学习(Active learning)"方法利用了机器学习模型可以检测到不寻常的输入(例如,与训练数据中的氨基酸序列截然不同的氨基酸序列),并提醒用户其对该输入的预测是不可靠的。 通过主动学习,算法可以确定对这类异常氨基酸序列进行更可靠预测所需的训练数据。

LINK

Nature评论|安进呼吁通力合作,为人工智能提供正确数据,加快药物研发 (qq.com)