定制Nova模型提升药物发现分子特性预测

3 阅读10分钟

定制化某中心Nova模型提升药物发现中的分子特性预测

一个经过优化的单一LLM统一了之前需要多个模型才能完成的任务,并可作为医学化学家的推理伙伴。

2026年4月15日

概述

通过使用监督微调和强化微调,一个定制化的某中心Nova模型能够同时预测11种分子特性,在7项特性上达到或超越了多个单独训练的多任务GNN模型的性能。使用Huber损失奖励的强化微调取得了最佳结果,与监督微调基线相比,R²提高了4.9%,并且以RMSE衡量,平均性能在专用GNN的5%以内。某机构部署了其定制构建的LLM(名为Novus)在某云平台上进行分子特性预测,并计划将能力扩展到分子设计和对话式推理。

正文

近年来,大语言模型已成为软件工程师和知识工作者不可或缺的助手。某机构委托某中心的生成式AI创新中心和通用人工智能部门,研究是否能为发现新药物的医学化学家打造同样能干的助手。这样的智能体可以显著加速药物发现, potentially挽救生命。

传统上,AI在药物发现中使用的模型称为图神经网络。GNN是贯穿制药研发过程的分子特性预测的主力模型,这是有充分理由的:它们在定义明确的任务上提供了强大的准确性。

由于缺乏统一的AI解决方案,化学家们不得不通过多个模型来评估单个分子——在不同的界面、数据格式和故障模式之间拼凑出互不关联的结果。

通常,必须内部构建和维护多个针对不同分子特性专门化的GNN——这是一个昂贵且操作复杂的过程。近年来,LLM在多个研究领域的成功引起了生物技术公司的注意,但对于药物发现而言,通用的、现成的LLM已被证明准确性低于GNN或其他计算方法。

我们采用了一种新方法,将GNN的准确性与LLM的泛化能力和推理能力相结合。通过使用监督微调和强化微调来定制通用LLM,我们能够以极少的时间和人力获得与使用多个GNN相当的结果。

微调后的LLM提供了显著简化的工作流程。在传统设置中,每个GNN都有单独的界面,具有各自的特点、数据格式和故障模式。结果以互不关联的数字形式返回,化学家必须手动整合。当需要预测新特性时,必须有人构建多任务数据集,并训练和验证一个全新的模型,这个过程可能需要数周时间。

GNN是贯穿制药研发过程的分子特性预测的主力模型。

相比之下,单个微调后的LLM允许化学家提交一个查询,就能收到所有感兴趣的分子特性的预测。添加新特性只需要增量微调,而不是从头构建新模型。此外,语言模型为实现一种性质上不同的能力——对话——打开了大门。

使用微调后的LLM,现在可以询问模型输出背后的推理,或提出可能产生所需特性的分子修改建议。这指向了一个将分子特性预测和生成统一在单一交互体验中的助手,我们将其视为AI辅助药物设计的理想下一步。定制化的LLM解锁了特定领域的科学助手,为精简的生物技术团队提供了一种与使用其科学语言进行交流的AI系统协作的实用方式。

如今,将单一药物推向市场需要10到15年,平均成本超过20亿美元,且进入临床试验的药物候选者中只有约8%获得FDA批准。我们相信,AI助手可以特别提高这一流程早期阶段的生产力,即化学家设计具有药物样特性的分子的阶段。提高开发速度和可行候选药物的数量,将最大化将安全有效的药物送进临床试验的机会。

研究内容

我们与某机构合作的工作聚焦于涵盖药物开发关键的三个类别的特性:

  • 亲脂性(有一个相关特性):决定分子能否穿过生物膜。它是药物吸收和分布的基础,并影响药物的所有其他特征。
  • 渗透性(四个相关特性):衡量药物通过血流进入人体的难易程度。
  • 清除率(六个特性):决定身体消除药物的速度。药物清除时间过长可能产生毒性;清除过快则无效。

这11种分子特性跨越了三个对药物开发至关重要的类别:亲脂性(1种特性)、渗透性(4种特性)和清除率(6种特性)。每个类别捕捉了药物在体内行为的不同维度。

这些特性跨越不同的数值范围,并表现出复杂的相互依赖性——在实践中需要单独的多任务GNN模型。我们在预测特定分子的所有三类特性的任务上测试了通用LLM(Claude Sonnet 4和Nova 2 Lite)。尽管这些模型在其他方面有着令人印象深刻的能力,但它们在专用GNN面前表现明显不佳,根据特性的不同,以均方根误差衡量,准确度差距从40%到超过200%的误差不等。

然而,我们发现,经过监督微调,随后进行强化微调的Nova 2 Lite可以缩小这一差距。我们单一的微调LLM预测11种不同分子特性的准确度与多个单独训练的多任务GNN模型相似。

实现方法

我们微调LLM的方法遵循人类专业知识发展和机器学习共同的原则:基础知识必须先于性能优化。在SFT期间,模型学习了分子结构和特性关系等核心概念。然后,在RFT期间,训练转向通过实践和反馈发展预测判断。

在SFT期间,我们让Nova 2 Lite接触了超过55,000个带有11种特性实验测量值的分子。SFT至关重要,因为我们要求模型执行的特定领域任务远远超出Nova 2 Lite的广义预训练数据。例如,我们使用一种称为SMILES的表示法来代表化学结构。没有SFT,LLM将无法执行诸如“从SMILES字符串中以结构化JSON格式预测化学特性”之类的任务。

第二个训练阶段——强化微调,对于实验数据有限的特性尤其关键,仅靠SFT难以泛化。RFT还能实现跨特性的模型内学习迁移。例如,亲脂性影响渗透性,而两者都可以为代谢预测提供信息。此外,RFT将学习目标从模式匹配(“给定分子X,基于相似示例输出值Y”)转变为质量优化(“最小化所有特性的预测误差”)。

我们在训练期间未见过的15,000个分子上测试了SFT和RFT模型。我们还构建了一个系统提示,其中包含核心化学知识以及我们感兴趣的11种化学特性,包括它们的定义和预期数值范围。

通过监督微调和强化微调,单个LLM开始学习分子特性之间的相互依赖性——亲脂性影响渗透性,而两者都可以为代谢预测提供信息——这是孤立GNN难以捕捉的。

在RFT阶段,我们试验了三种生成奖励的策略来指导学习过程。分子特性预测特别适合为RFT进行奖励工程,因为输出是单个数字,这使我们能够精确衡量每个预测偏离的程度。

第一种策略是使用指数衰减函数,预测值越接近真实值获得的奖励呈指数级增长。但误差较大时,从“极差”改进到“糟糕”几乎没有奖励差异,使模型无法从其最差的预测中学习;而误差较小时,微小的变化会导致巨大的奖励差异,这使得奖励信号嘈杂且最终无益。

第二种策略——二元通过/失败奖励——产生了相反的问题。模型因渐进式改进获得的奖励为零:它要么越过了一个任意阈值(在我们的案例中是误差在10%以内),要么什么也学不到。

基于Huber损失的奖励解决了这两个问题。与指数衰减不同,Huber奖励在大误差下不会变得微不足道——模型总能收到有意义的改进信号——同时它们在正确答案附近保持稳定,优化预测而不会对微小波动反应过度。这产生最佳结果,R²比基线提高了4.9%,我们将Huber奖励作为同时在多个分子特性上训练模型的默认奖励。

将此方法应用于多属性训练,我们微调了一个单一模型来同时预测所有11种属性。表现最佳的模型是基于全秩SFT之上再进行RFT的Nova 2 Lite,这意味着所有模型参数都被更新了。它在平均RMSE上比Claude Sonnet 4好39%,比基础Nova 2 Lite好37%。虽然平均落后基线GNN 5%,但在11种属性中的7种上达到或超过了GNN——这是一个引人注目的结果,因为单个LLM正与多个独立训练的多任务GNN模型正面交锋,不仅减少了模型数量,还减少了围绕训练、部署和维护的整个基础设施占用空间。

总体而言,表现最佳的模型是在全秩SFT之上进行RFT的Nova 2 Lite模型。在平均RMSE上,该模型的性能比Claude Sonnet 4好39%,比Nova 2 Lite好37%。以RMSE衡量,该模型的平均性能比基线GNN模型差5%,但在我们所研究的11种属性中的7种上,其表现优于或与GNN持平。

Huber奖励实现了最佳的R²分数(0.6224),比基线提高了4.9%,表明平衡的奖励区分度能转化为更好的预测。

值得注意的是,某服务(允许客户在预训练和SFT期间使用专有数据)在某个平台上支持SFT和RFT,实现了广泛的模型定制。由于该平台内部处理训练框架和基础设施维护,组织避免了从头构建和维护自定义训练管道的成本。

下一步计划?

基于这些初步实验和结果,某机构最近将其Novus模型部署在某个云平台上。Novus是该机构通过某服务定制的LLM。在其当前形式下,Novus处理分子特性预测的准确性与专用GNN相当。

下一个里程碑是将这些能力扩展到分子设计,使模型能够提出结构修改建议,预测其下游特性,并解释其推理——所有这些都在一次对话中完成。

一个单一的微调LLM统一了之前需要多个独立训练模型的任务,将分子特性预测整合到一个交互式体验中——并打开了GNN无法提供的大门:对话。FINISHED