编辑 | 萝卜皮
确保始终如一的高产量和产品质量是生物制造的关键难题。即使是介质和进料成分等关键工艺参数(CPP)的微小偏差也会显著影响产品关键质量属性 (CQA)。
为了识别 CPP 及其与产品产量和 CQA 的相互依赖性,工业中通常使用实验设计和多变量统计方法。尽管这些模型可以预测 CPP 对产品良率的影响,但通过捕获高维数据中的复杂关系,仍有提高 CQA 预测性能的空间。
在这方面,机器学习(ML)方法在处理非线性数据集方面提供了巨大的潜力,因此能够识别可以有效预测 CQA 的新 CPP。ML 技术还可以与作为「混合 ML」或「白盒 ML」的机械模型协同工作,以识别 CPP 如何机械地影响产品产量和质量,从而实现生物过程的合理设计和控制。
在这篇综述中,新加坡科技研究局 (A*STAR) 生物加工技术研究所的研究人员,描述了统计建模在生物制造质量源于设计(QbD)中的作用,并梳理了有关如何使用相关 ML 来有意义地分析生物加工数据集的通用大纲。然后,就 ML 的相关使用如何加速生物制药 4.0 范式中系统性 QbD 的实施提出了观点。
该综述以「Harnessing the potential of machine learning for advancing『Quality by Design』 in biomanufacturing」为题,于 2022 年 1 月 9 日刊载在《mAbs》。
一点点小背景
单克隆抗体(mAb)和融合蛋白等生物药物是目前最具市场价值的药物:2019 年排名前 10 的药物中有 7 种是生物药物。与小分子不同,生物药物是大型、复杂的药物,通常使用活哺乳动物细胞生产。
生物制药的生物活性对其关键质量属性(CQA)的变化极为敏感,例如 N-糖基化、电荷分布和聚集。生物制药产品质量,对潜在的生物制造操作条件和原材料变化也极为敏感。即使是生物反应器物理化学条件 [如 pH 值、温度、溶解氧(dO2)和细胞培养基] 的微小变化,也可能导致不同产品质量属性的显著变化。因此,生物制造受到高度监管,以确保生物产品的安全性和有效性。
在传统的生物制造中,生物制药中的产品质量是通过测试质量来评估的。美国食品和药物管理局(FDA)和欧洲药品管理局(EMA)等药物监管机构建议采用设计质量(QbD)方法。
QbD 方法依赖于对产品和相关制造过程的全面了解,其中产品的 CQA 及其产量将被视为各种关键过程参数(CPP)的函数。生物工艺现在通常按照 QbD 范式进行设计,其中首先确定影响产品产量和 CQA 的 CPP,并对制造过程进行相应的监管和监控。
在 QbD 中,实验设计( DoE)首先用于以结构化方式进行实验,其中 CPP 发生变化,例如 pH、温度和细胞培养基,并测量产品产量、CQA 和细胞生长的相应变化。然后使用多变量数据分析(MVDA)技术从使用 DoE 生成的数据集中对 CPP 和 CQA 之间的多变量和多共线性关系进行建模。
在这篇综述中:
- 首先总结了在 QbD 中如何使用数学建模(统计方法和机械方法)与生物制造中的上游哺乳动物细胞培养设计相关。
- 然后,分析报告了用于检查已发表研究的生物制药制造中 CQAs-CPPs 关系的各种统计建模方法。
- 接下来,强调了 ML 算法和混合 ML 机械建模方法的优势,以提高模型预测的准确性,解释 CPP 和 CQA 之间的关系,并减少工艺条件变化期间所需的实验数量或产品。
- 最后,描述了还存在的问题与挑战,并就建立复杂的 ML 和混合模型以增强上游生物过程设计提出了观点。
多变量分析的生物制造 QbD 之旅
QbD 最初由 FDA 的生物技术产品办公室在 2000 年代提出,很快被生物制药行业采用,用于设计和监测哺乳动物细胞培养物。广泛的 CPP,如 dO2、pH、温度和细胞培养基(即培养细胞的各种生化化合物的组成),被证明会影响细胞培养的各种性能指标,即 细胞生长、生物制药生产力及其质量。
大多数已发表的哺乳动物 QbD 研究都使用 MVDA 技术对输入(CPP)和输出 (滴度、细胞生长和 CQA) 变量之间的多因素和多共线性关系进行数学建模。MVDA 方法因其简单性和易用性而广受欢迎:Minitab®、MODDOE® 和 SIMCA® 等多种软件工具可供使用,有助于将 DoE 和 MVDA 一起系统地实施用于工业流程。
图示:QbD 在生物制造中的历史趋势。(来源:论文)
在各种 MVDA 方法中,主成分分析 (PCA) 是一种常用来了解哺乳动物生物过程的主要趋势和模式的技术。在这种方法中,原始数据集被正交投影到新的不相关变量的低维空间中,称为主成分(PC),以更好地描述原始数据集中不同变量之间的关系。与一起变化的变量相对应的 PC 倾向于在变换空间中聚集在一起。各种研究使用 PCA 来挖掘历史生物过程数据集并确定相互关联的 CQA。
偏最小二乘回归(PLSR) 也是一种常用技术,与 PCA 非常相似。在该方法中,首先将原始数据集投影到正交低维空间上,然后进行线性回归以建立不同变量之间的关系和相互作用。PLSR 广泛用于识别生物制造 QbD 中的 CQAs-CPPs 相关性/关系:一些研究特别使用 PLSR 来探索细胞培养基中各个成分对各种过程结果的影响。
超越传统的 MVDA 来实施 QbD
构建高级 ML 模型
如前所述,MVDA 方法(如 PCA 和 PLSR)通常用于分析细胞培养数据、揭示 CQAs-CPPs 的相互关系。MVDA 方法将数据转换为低维空间,然后从原始数据集中减少维数。这可能会导致在转换过程中丢失原始数据集中的一些信息。
此外,由于生物过程本质上是复杂的,因此 CCP 和 CQAs 之间的关系很可能在本质上是非线性的,特别是随着 CPPs 的数量随着生物反应器读数特性的改进而增加。因此,使用线性模型(如 PCA 和 PLSR)可能不足以捕捉潜在的 CQAs-CPPs 关系。
此外,MVDA 方法在关联 CPP 和 CQA 方面的准确性也可能显著低于公认的规范。因此,可以开发基于高级机器学习 (ML) 算法的更复杂的方法来克服这些问题。
尽管 ML 在某些应用中具有优势,但很少有文章描述基于 ML 的属性预测,例如滴度、活细胞密度和糖基化。这表明 ML 对于 QbD 应用仍处于起步阶段。
在一项此类工作中,人工神经网络 (ANN) 与 DOE 相结合,从细胞接种密度、培养基补充百分比、常规喂养期间的培养基交换量和培养基交换中预测细胞倍增的百分比。与使用标准线性回归开发的模型相比,ANN-DOE 模型表现出显著提高的预测准确性。
最后,由于生物制药行业的持续兴趣,预计未来几年 ML 应用的数量将会增长。
图示:示例 ML 应用程序。(来源:论文)
迈向机械机器学习混合建模方法
对 QbD 使用纯统计建模方法时的主要限制之一是此类方法仅以经验方式关联 CPP 和 CQA,而不提供有关它们之间因果关系的信息。因此,必须对每个生物工艺活动都彻底重复这种方法,以解决培养基、进料、pH 和类似产品类别(例如具有相同制造条件的生物仿制药)的微小变化。这将不可避免地增加生物工艺开发和生物制造的成本。
开发一个依赖于对基础过程的机械理解的 QbD 框架,可以使其应用于不同的生物加工活动,并且将是在生物制造过程中实现 CQA 实时、自适应控制的重要一步。在这方面,尽管对于哺乳动物细胞中与蛋白质合成相关的一些细胞过程存在各种综合机械模型,但由于数学方法不同,这些模型的集成非常困难。
为了应对上述挑战,开发杂交 ML 或白盒 ML 模型可能是一种有用的替代方法,因为这些模型可以采用已知的潜在机制来模拟某些细胞过程,如代谢,同时依赖基于ML的方法来模拟其他研究较少的过程。
开发成功的 ML 模型以推进 QbD 的艺术
目前,借助 Scikit-learn 等现成的开源 ML 编程库,可以开发一种高效的 ML 模型来推进 QbD。但是,为生物制造过程正确实施 ML 算法并不像下载库并使用生物处理数据集优化它那么简单。在模型的开发和测试其性能方面存在各种挑战。
这里描述了两种最常用的 ML 方法,QbD ML 的输入和输出类型,以及开发正确的 ML 算法时最关键的因素。
图示:假设的 ML 模型及其在 QbD 中的多种应用。(来源:论文)
有监督与无监督 ML 的选择:
在所谓的有监督机器学习中,模型会显示输入和输出变量,并且通过优化参数来进行学习,以使模型预测尽可能接近输出变量。也就是说,输出变量用于监督模型优化。
另一方面,如果输出目标变量未知,而输入变量仅用于在数据中查找可能对应于底层过程的聚类或模式,则将其归类为无监督机器学习。监督与非监督方法的选择取决于所解决问题的性质。
监督机器学习是识别 CPP 和 CQA 之间非线性关系的最合适的方法,而无监督机器学习可用于识别相互关联的 CQA。
QbD 中的 ML 输入和输出:
一个受监督的 ML 模型中,CQA 将使用来自细胞培养基的不同测量值和物理化学参数作为输入变量来预测。请注意,广泛的输入变量,如细胞密度、滴度和其他基本代谢产物的直接测量,以及使用光谱学或其他软测量、物理化学参数甚至胞内和胞外组学数据的原位测量,也可用于任何组合。
简而言之,任何 ML 算法的目标都是识别一个模型(或函数),该模型(或函数)使用输入变量(CPP)的特定组合来预测尽可能接近实验确定的 CQA 目标的 CQA 值。
开发在 QbD 中有用的 ML 算法:
开发带瑕疵的 ML 算法很简单,一旦出错则会导致模型无法在新数据上准确执行。Walsh 等人最近发表了一套完整的社区范围内的建议,旨在建立生物学中 ML 验证的要求。
这些建议分为 ML 的四个核心领域:数据、优化、模型和最终模型的评估。与 QbD ML 建模相关的主题包括正确拆分数据集、优化时避免过度拟合,以及如何使用适当的指标评估 ML 算法的性能。
为确保 ML 方法的正确性和可重复性,根据先前制定的指南,应在任何 ML QbD 研究的支持信息中提供如何构建 ML 算法的汇总表。
特征选择:
在生物处理操作中,输入变量的数量可能很大,尤其是在考虑原位测量和多组学数据时。寻找和使用最相关的因素并忽略多余的因素是特征选择(FS)算法的目标。FS 在 ML 中具有许多优势,例如减少过拟合的机会、降低计算成本以及在某些情况下提高预测性能。
在 QbD 方法中,FS 非常重要,因为重要变量/特征的识别可以提供关于控制生物反应器的关键杠杆的新知识。
预测类型:
在对细胞培养中表达的生物制剂的 QbD 建模时,有两种有用的预测类型:实时预测(「此刻」数据通过仪器从生物反应器到达)或使用当前从生物反应器收集的数据预测未来 CQA 值。
对于真正的实时预测,所使用的模型需要来自实时生物反应器分析的瞬时输入和从仪器中提取的数据。
迄今为止,预测很少受到关注,这可能是因为它的难度,但它对制造业非常重要,因为它可以在预测前景不理想时采取先发制人的行动。
此外,预测可以分为两种类型的输出:回归,其中模型产生实数 CQA 值和分类,其中事件或标签可以分配给生物反应器状态。
构建准确且可重复的基于 ML 的 QbD 框架的挑战
虽然 ML 模型比传统的 MVDA 提供了在允许范围内以良好的准确性识别影响 CQA 的重要 CPP 的潜力,但一个显著的限制是模型需要大量数据,才能进行良好训练, 从而对看不见的数据产生理想的预测。这要求制药公司在保护敏感信息的同时共同合作。学术界也必须发挥作用,发布数据集供公众自由使用。
增加数据可用性问题的是当前 QbD 建模中使用的大量数据,例如,可能存在具有不同细胞表达系统、产品、培养 CPP 变量、培养持续时间和分析的时间点间隔的多个数据集。这使得模型的交叉比较几乎是不可能的。
在其他 ML 领域也受到关注的一个解决方案是让 QbD 建模社区就标准数据格式、本体或 QbD 建模实验所需的最少信息达成共识。这将大大提高模型的可重复性,具有开发复杂模型能力的实验室可以使用标准化数据集将其性能与当前基线进行比较。
除了为 QbD 采用 ML 模型的技术问题外,还存在与监管批准相关的问题。 即使与先前基于 MVDA 设计的流程相比,新设计的集成模型的流程显示出提高了效率,但缺乏使用 ML 模型获得监管批准的先验知识仍可能阻碍其成功采用。
未来展望
随着生物制造和 PAT 中大规模数据的积累,采用 ML 模型代替 MVDA 方法的情况正在增加。除了提高 CPP 和 CQA 之间的准确性和捕获非线性之外,ML 模型还可以进一步扩大范围。这已在其他领域实现,例如蛋白质组学,其中已经存在复杂的 ML 模型,用于从其序列预测蛋白质结构。
然而,为了从蛋白质治疗剂的序列中获得相同的 ML 性能,以 CQA 预测蛋白质治疗剂,还应考虑生物反应器的测量。当前需要专门针对生物加工操作中的生物制剂进行调整的新型聚合模型。
蛋白质生物制剂的生物活性通常受到多种可能影响电荷分布的翻译后修饰的影响。与聚合类似,ML 模型也可以在预测电荷变体方面发挥作用。然而,关于电荷变体表征模型的文献是有限的,在这个领域需要进一步的工作,特别是要将 ML 纳入表征。
除了完整的 ML 模型,还强调了混合 ML 模型的可应用性。建立混合 ML 模型是有利的,因为它可以将当前以产品为中心的 QbD 的范式转变为以知识为中心的范式。
总体而言,我们认为 PAT 和生物过程数据数字化的最新发展有望在复杂的 ML 模型的帮助下加速系统化 QbD,这最终将导致一种更可持续和更经济的生物制造方式。