自然语言处理在毒理学机制信息提取中的应用本研究展示了如何利用自然语言处理技术从科学文献中系统、客观地提取毒理学机制信息。

为了研究化合物如何诱发不良效应，毒理学家们构建了不良结局通路。不良结局通路可被视为一种实用工具，用于捕捉和可视化任何类型应激源引发的不同毒性背后的机制，并描述了在多个生物组织层面上，导致不良结局的关键实体之间的相互作用。不良结局通路的构建或优化是一个劳动密集型过程，目前依赖于手动搜索、收集、审阅和整合现有的科学文献。然而，利用自然语言处理技术，可以系统、客观且快速地提取科学文献中的信息，从而提高准确性和可重复性，极大地促进这一过程。这将使研究人员能够将专业知识投入到对不良结局通路的实质性评估中，用对自然语言处理提取的数据进行批判性审查来替代花费在证据收集上的时间。作为案例，我们选择了两种常见的肝脏不良反应：即分别表示胆汁和脂质蓄积的胆汁淤积和脂肪变性。我们使用深度学习语言模型来识别文本中的目标实体，并建立它们之间的因果关系。我们展示了一个结合命名实体识别和基于简单规则的因果关系提取模型的自然语言处理流程，如何帮助筛选文献中与肝脏不良反应相关的化合物，并提取从分子到整体水平上这些不良反应如何发展的机制信息。最后，我们对大语言模型的最新进展所开辟的前景以及未来的应用方式提出了一些看法。我们认为这项工作主要有两个贡献：1）概念验证，证明自然语言处理可以支持从文本中提取信息用于现代毒理学；2）一个用于识别毒理学实体及其关系的开源模板模型。所有资源均可通过 GitHub (github.com/ontox-proje…) 公开获取。

引言

应激源（例如化合物或辐射等环境应激源）的毒性由其可能对个体、种群或生态系统（生态毒性）造成有害影响的潜力来定义。本报告将重点关注生物体层面。传统上，应激源的毒性潜力通过在动物（尤其是哺乳动物）身上进行测试来评估，并假设获得的结果可以外推到人类。这种方法受到越来越多的质疑，主要原因有两个。首先，每年牺牲数百万只动物所涉及的伦理问题。其次，越来越清楚的是，动物身上的效应通常很难转化到人类身上。因此，毒理学效应更倾向于以机制性方式进行研究，毒理学家试图理解导致特定不良结局的生物事件级联反应，并考虑到人类生理学相对于其他生物体的特异性。这为开发更低生物组织水平的研究方法（如毒理基因组学）打开了大门，并开始将毒理学评估视为概率性的而非确定性的（即区分有毒与无毒）。

这种机制性方法在不良结局通路的开发中得到了应用。不良结局通路是一个框架，通过一系列不同生物组织层面的步骤（即关键事件），将最初的扰动（分子起始事件）与器官或生物体的毒性表现或不良结局联系起来。连续的关键事件通过关键事件关系连接，这代表了两个关键事件之间的因果关系。因此，不良结局通路提供了一种组织导致人类病理的机制信息的方法，并指导使用基于人类的体外测试和/或计算机模拟模型来评估毒性的新方法学的发展。大多数现有的不良结局通路都收集在AOPWiki中。然而，构建或扩展这些通路依赖于收集、审阅和整合大量现有知识，这些知识通常以结构松散的文本形式存在，如科学文献或监管报告。这个过程耗时且繁琐，可以说专家们的时间可以更好地利用。

我们最近提出，自然语言处理领域的发展可以让毒理学家更有效地筛选文献。自然语言处理是机器学习的一个领域，专注于文本分析及其信息提取。有趣的是，已经开发出模型来从文本中提取生物医学相关的实体。然而，提取这些实体之间的关系（这对于不良结局通路中的机制性方法至关重要）被证明是困难的。尽管在关系提取领域已经开发出有前景的方法，有些甚至是为了支持不良结局通路开发本身，但它们往往基于术语的共现，侧重于化合物-疾病关系，或依赖于被视为“黑箱”且需要大量计算能力的生成模型。在这里，我们使用了一种相对简单的基于语法规则的方法，该方法整合了一些语言信息。它允许我们手动检查提取的关系，因为结果可以完全追溯到用作来源的原始科学摘要。

虽然不良结局通路代表了导致不良结局的通用生物学通路，因此设计为与应激源无关，但在实践中，其分子起始事件通常由原型化合物触发。我们对由ASPIS联盟成员策划的一系列化合物及其预期的相关不良结局进行了案例研究，特别是ONTOX项目中包含的那些。ASPIS集群是三个欧洲项目的合作，其共同目标是实现无动物化学风险评估。ONTOX特别寻求开发一种策略，通过作用方式本体论和人工智能来预测毒性，而无需使用动物。为此，ONTOX正在研究多个案例（不同器官的不良结局）。我们从PubMed中提取了与整个化合物集合相关的文献，并使用定制的自然语言处理流程进行了分析。然后，我们验证了是否能够提取有关不良结局及其发生机制的相关信息。

药物或化合物不良反应的表现常见于肝脏。肝脏中旨在从血液中解毒化合物的酶促过程可能会导致该器官出现不良反应。在上市后监测中通常观察到的两种不良反应是胆汁淤积和脂肪变性。因此，这些不良结局对ONTOX项目尤为重要。胆汁淤积（胆汁积聚）是一种主要的药物诱发的不良结局，可导致严重的肝损伤和发病率增加。脂肪变性是小的或大的脂肪滴的积累。本研究将重点关注这两种肝脏不良结局。

方法

文献检索

我们从ASPIS三个项目组成的兴趣化合物清单开始。该清单将不同类型的化合物与集群中某个项目感兴趣的一个或多个不良结局（包括胆汁淤积和脂肪变性）相关联。对于胆汁淤积和脂肪变性，这些是基于文献选择的。对于每种化合物，我们通过查询PubMed以编程方式最多检索前100篇摘要，查询条件为：化合物名称 AND toxic* AND (human OR Animals, Laboratory OR Disease Models, Animal)。为此，我们使用Python包metapub进行查询，使用biopython进行文本检索。由于计算资源以及我们旨在进行概念验证，查询限制为100篇摘要。虽然没有为每种化合物定义最小摘要数，但我们分析了每种化合物找到了多少篇。删除了重复的摘要。

预处理

所有步骤均使用开源Python包spaCy v3.0.8进行。进行了基本的预处理，如分句、分词和语义解析，以支持我们的命名实体识别和关系提取模块。

命名实体识别

命名实体识别指的是识别句子中指向感兴趣概念的词块。在本例中，我们提取了实体“化合物”（指化学化合物或物质）和“表型”（指生物事件）。为此，我们使用了机器学习模型。具体来说，命名实体识别模型使用scispaCy en-core-sci-lg作为起点进行训练，这允许使用基于科学文献训练的词汇表和语法。它被重新训练以识别科学文本中的毒理学概念，包括化合物和表型。这包括PubMed文章和ECHA报告。训练语料库由具有生物学背景的项目团队成员进行标注，并附有一份手册，其中包含可供标注者使用的实体的详细描述。我们将表型定义为任何水平的生物效应：分子、细胞、器官或生物体。该命名实体识别模型是在以发育和生殖毒性为导向的语料库上训练的，但可以推广到大多数类型的生物体水平表型。对训练语料库的交叉验证分析显示，表型的F1分数为56%，化合物为88%。因此，我们预期模型识别化合物的效果优于表型。

关系提取

我们使用spaCy的依赖项匹配器，建立了一个基于语义规则的因果关系提取模型。如果两个实体在其语义树中有一个共同的因果动词祖先，则认为它们存在因果关系。因果动词列表包含以下术语：“increase”, “produce”, “cause”, “induce”, “generate”, “effect”, “provoke”, “arouse”, “elicit”, “lead”, “trigger”, “derive”, “associate”, “relate”, “link”, “stem”, “originate”, “lead”, “bring”, “result”, “inhibit”, “elevate”, “diminish”。更准确地说，我们验证了动词的词元（即其基本形式）是否是语义树中的共同祖先。使用词元可以防止动词的变形影响结果。我们提取了已识别的表型之间（可能在不同生物组织水平上）的关系，以及化合物和表型之间的关系。有关该模型的更多信息，请查看GitHub仓库上的自述文件。

图1 信息提取工作流程，从化合物列表到与之相关的摘要，再到这些摘要中与毒理学相关实体之间的关系。插图（1）显示了用于查找与某种化合物毒性相关的文章的PubMed查询。我们目前将自己限制在与人类或动物相关的结果上，因为它们仍然是黄金标准。插图（2）详细说明了关系提取机制：如果（预定的）因果动词是包含两个实体的短语的语义树中的共同祖先，则识别两个给定实体之间的关系。

Neo4j网络

得到的实体及其关系随后被组织到一个Neo4j数据库中，其中每个节点是一个实体（表型/化合物），每条边是识别出的两个实体之间的关系。边还引用了提取该关系的文章。我们通过查询特定感兴趣的不良结局来探索该图。查询可以在GitHub仓库中找到。我们通过查询胆汁淤积或脂肪变性并找到网络中的第一级连接，验证了是否能够找到与感兴趣肝脏不良结局相关的化合物。

结果

自动文献检索

表1总结了ASPIS清单中每种化合物找到的文章数量。我们注意到，对于相当数量的化合物（约34%），没有检索到摘要，这意味着我们很可能无法提取关于它们的任何信息（在指定给另一种化合物的摘要中，有很小的几率会包含关于它们的信息）。对于与肝脏不良结局（胆汁淤积或脂肪变性）相关的化合物，这一数字接近20%。对于35%的化合物（对于胆汁淤积/脂肪变性化合物为50%），我们达到了可以提取的最大摘要数，这意味着很可能存在更多文献。

表1 每种化合物检索到的摘要数量 （第一组数字指的是完整清单中的化合物数量，第二组数字指仅与肝脏不良结局相关的化合物数量。例如，ASPIS清单中有278种化合物没有与之相关的摘要，其中14种化合物与胆汁淤积或脂肪变性相关。）

我们进一步从两个不同方向研究结果。首先，我们验证了是否能够找到与特定肝脏不良结局（胆汁淤积或脂肪变性）相关的化合物。其次，我们评估了在此过程中能够提取多少机制信息。为此，我们查询了在Neo4j中获得的图的子部分。

自然语言处理支持选择肝脏不良结局的化合物

如前所述，我们查询了Neo4j数据库中的“cholestasis”和“steatosis”，以及所有标记为“COMPOUND”的邻居节点。

胆汁淤积 我们观察到，通过胆汁淤积查询找到的所有10个化合物节点确实被确定为已知会引发胆汁淤积不良结局的阳性对照。唯一值得注意的例外是“oxygen”节点。这指的是活性氧的产生，是模型的一个已知伪影，该模型倾向于识别化合物比识别表型更好。

图2 与胆汁淤积（A）和脂肪变性（B）相关的化合物。 蓝色节点指化合物，而绿色节点指表型。连接实体的因果动词描绘在它们之间的箭头上。

脂肪变性 查询“steatosis”的结果稍微复杂一些。我们找到了11个化合物节点。其中两个化合物在ASPIS清单中被描述为与脂肪变性相关：TBT和丙戊酸盐，而另外两个与胆汁淤积相关。有五种化合物没有明确与脂肪变性相关，但通过手动查阅文献确实证实了关联：BDE-47、PFHxS、戊唑醇、FIAU和氯乙醇。FMAU本身不是一种化合物，而是非阿尿苷的一种代谢物，与非阿尿苷相关的脂肪变性有关。有趣的是，在自然语言处理流程中发现了氯乙醇，但它尚未包含在ASPIS清单中。最后，还发现了柚皮苷，它被描述为对脂肪变性/肝损伤有保护作用。因此，我们的自然语言处理流程能够从摘要中提取有关10种已知脂肪变性相关化合物的信息，其中只有2种是明确预期的。因此，我们确定了8个在不良结局通路开发中可以考虑的候选化合物。此外，我们将关于柚皮苷的结果追溯到原始科学摘要，该摘要显示柚皮苷与丙戊酸在同一句子中被提及，并被错误地归为一类，认为与胆汁淤积相关。这表明，当使用机器学习识别可能的关键事件时，数据溯源和使用可解释的人工智能方法非常重要。

缺失的化合物 我们没有找到根据ASPIS清单预期的81种化合物中的53种（65%）。其中14种（17%）找到0篇摘要。手动查询其他缺失化合物及其在Neo4j网络中的直接邻居显示，实际上其中16种（20%）被发现与更一般的肝损伤形式相关，如“hepatotoxicity”或“liver injury”。我们预计更具体的信息将包含在全文论文中。总体而言，该流程检索到了81种化合物中的44种，即54%。

我们观察到复杂的化合物名称并不总是在其论文的摘要中使用，因此没有被命名实体识别流程提取。同样，非常通用的化合物名称往往不会被识别为化合物。此外，包含其他化合物的化合物名称往往会被忽略。

总的来说，这些结果表明，我们的方法有助于识别与感兴趣不良结局相关的化合物，可能包括毒理学专家传统上考虑的不同应激源。我们确实注意到，实体可以更好地统一：“steatosis”触发了五个可以合并为一个或两个的独立实体。例如，“liver steatosis”和“hepatic steatosis”实际上是同义词。这凸显了实体消歧和标准化的必要性，可能通过将它们链接到现有标识符来实现。

自然语言处理流程提取高生物组织水平的机制信息

从AOPWiki中，我们提取了与我们的肝脏不良结局（脂肪变性和胆汁淤积）相关的所有不良结局通路的所有事件。相应列出。AOP 59和421都只包含一个关键事件，分别是一个分子起始事件和一个关键事件。我们将它们排除在进一步分析之外。

表2 AOPWiki中目前可用的与胆汁淤积或脂肪变性相关的不良结局通路。

我们首先手动检查了通过自然语言处理流程找到了多少个不良结局通路中描述的事件。这描绘在图3中。

图3 通过自然语言处理流程和手动整理找到的关键事件数量。 对于每个不良结局通路，我们检索到了40%到80%的事件。当更仔细地观察我们能够提取的事件类型时，我们注意到所有未被识别的事件都与更高水平的生物细节有关。它们大多与特定的基因或蛋白质相关，例如其激活或表达的变化，并且通常属于分子起始事件类型。例如，过氧化物酶体增殖物激活受体的激活，即不良结局通路36的分子起始事件，都没有被我们的模型识别出来。这部分可以通过我们的命名实体识别流程更好地识别更高水平的表型来解释。这可能通过在包含更多分子或细胞水平表型提及的语料库上重新训练我们的模型来补救。

图4 为不良结局通路提取的信息。 (A) 不良结局通路27。(B) 不良结局通路36。(C) 不良结局通路318。绿色和黄色框分别代表分子起始事件和不良结局。蓝色圆圈显示它们之间的关键事件。黑色箭头描绘已建立的关键事件关系。用红色圈出的事件也是通过我们的自然语言处理流程在手动整理后找到的。红色虚线箭头代表自然语言处理流程提取的关系。

图4描绘了通过我们的自然语言处理流程为胆汁淤积和脂肪变性提取的事件和关键事件关系。每个面板都是对AOPWiki中已建立的不良结局通路的表示，并以绿色和黄色框分别描绘了分子起始事件/不良结局，以蓝色圆圈描绘了它们之间的关键事件，以黑色箭头描绘了关键事件关系。用红色圈出的事件也是通过我们的自然语言处理流程在手动整理后找到的。红色虚线箭头也代表了自然语言处理流程提取的关系。虽然我们找到了一些关键事件，但我们并不总是直接提取它们之间的联系。这似乎指出了我们的关系提取模块需要改进，尤其是在分子水平表型之间。有趣的是，在两个实例中，我们确实直接找到了一个事件与另一个事件经过一系列其他事件后触发的不良结局之间的联系，例如胆汁积聚和胆汁淤积之间。

讨论

我们展示了自然语言处理可以帮助从文本中提取机制信息，以及从文献中筛选应激源及其相关不良结局，可能发现毒理学家较少使用的测试应激源。我们提供了用于实体和关系识别的可重复容器模型。我们预见自然语言处理的使用将使不良结局通路框架更像一个活的、动态的系统性回顾，其中关于分子起始事件或关键事件的新信息几乎可以在发布后立即整合。

然而，我们的结果表明仍然需要几个步骤。首先，生物事件和化合物的自动消歧和统一，以及它们与语义本体术语的链接，将有助于使提取的数据更具互操作性和可重用性。例如，通过将表型实体直接连接到AOPWiki中相应的关键事件，这种技术将使研究人员能够轻松记录与关键事件关系相关的证据。只有当事件不存在时，才会创建新的标识符，或许首先将其链接到其他本体，如基因本体、统一医学语言系统或哺乳动物/人类表型本体。通过这项研究，我们注意到许多关键事件看起来非常相似，只是措辞略有不同。这可能是手动构建不良结局通路的结果，因为验证每个已存在的关键事件可能很耗时。在这方面，自然语言处理可以帮助不良结局通路开发人员避免重复现有信息。

其次，关系提取模型可以改进。虽然我们的自然语言处理流程可以从摘要中提取关系信息，但它显然没有找到所有可能预期的信息。我们建议在更低水平的信息上训练模型。此外，语言上复杂的子句难以识别。

大型语言模型领域的最新发展可能有用，因为在关系提取以及一般性地在科学文献中查找信息方面已经取得了一些有前景的结果。不过，我们仍然保持谨慎，因为大型生成模型已知会“产生幻觉”，即对查询给出事实错误的答案。模型应该限制在给定的文本中寻找答案，就像我们目前的模型所做的那样。一个可能的工具是类似Lála等人的方法，该方法通过在文档中查找并找到最相关的段落来回答问题，这得益于问题与文档中文本在嵌入上的相似性。大型语言模型的计算成本也很高，因此往往在云端运行。这反过来又对环境有更大的影响。因此，使用它们的方法之前应进行成本/收益评估。

我们设想一个模型，其中关系不表示为二元事件，而是关联一个存在的概率。当事件明确不发生或以某种方式被抵消时，我们也可以记录下来。此外，将上下文和/或可量化的事件纳入模型，例如化合物的给药剂量和途径、进行的测试类型、相关的生物学信息或事件数量的变化，也应纳入模型，有助于这种概率预测。提取额外的上下文也可以支持定量不良结局通路和/或基于生理的药代动力学模型的发展。

我们进一步预期，如果我们不限制自己分析的文章数量，我们本可以更好地重建不良结局通路。在这里，证据的数量将是决定机制稳健性的关键因素。一个可能的后续步骤是将我们的自然语言处理流程应用到整个PubMed。我们也可以考虑将其应用于整个PubMed Central，以分析全文而不仅仅是摘要。然而，这将带来一系列挑战。首先，我们的模型是在摘要上训练的，并不能保证能很好地推广到全文或结果部分，因为这些部分的写作风格可能与摘要不同。其次，我们将受到限制和偏见，因为我们只能分析开放获取的文章，因为付费墙后面的文章只有摘要可用。第三，我们怀疑分析所有PubMed/PMC所需的计算时间相当可观，因此不一定符合环境友好型方法。因此，我们需要事先实施一些筛选程序。例如，我们可以使用现有资源，如Chembl或ctdbase，将化合物和PubMed文章链接起来，查询与原型应激源相关的文章。

在现阶段，更明智的做法是让人工参与其中，以验证提取信息的质量，因为我们观察到检索到的一种化合物实际上已知对肝损伤具有保护作用。这个自然语言处理模型可以用作不良结局通路构建的辅助工具，让毒理学家将宝贵的时间用于控制和整合从文献中自动提取的信息，而不是阅读数十篇文章。

在本报告中，我们展示了通过自然语言处理流程生成的信息如何帮助创建不良结局通路。这些信息的应用，包括物理化学性质、跨物种毒性、暴露组、病理学等，仅受用户需求的限制。例如，我们的自然语言处理流程可以应用于更大规模的化学效应提取，以补充定量构效关系、交叉参照方法，并为下一代风险评估框架做出贡献。通过从现有文献中提取与各种化学物质相关的不良效应，我们可以用结构、物理化学和生物学特性补充数据库，以促进预测具有相似结构或性质的（新）化学物质毒性的模型的开发。使用自然语言处理流程从文献中收集的信息很可能可以应用于并影响毒理学和风险评估的几乎所有方面。

数据可用性声明

本研究中提供的数据集可以在在线存储库中找到。存储库名称和登录号可以在下面找到：github.com/ontox-proje…

作者贡献

MC：概念化、形式分析、调查、方法论、软件、可视化、撰写初稿、审阅与编辑。TL：方法论、软件、审阅与编辑。AdH：概念化、方法论、撰写初稿、审阅与编辑。RP：概念化、审阅与编辑、监督。JF：数据整理、审阅与编辑。TV：数据整理、审阅与编辑。MV：数据整理、资金获取、审阅与编辑。MT：概念化、方法论、监督、撰写初稿、审阅与编辑。

基金

作者声明，本研究的开展获得了资金支持。这项工作是在ONTOX项目的背景下进行的，该项目已获得欧盟地平线2020研究与创新计划的资助，资助协议编号为963845。ONTOX是ASPIS项目集群的一部分。

致谢

我们感谢Iris den Hertog对关系提取流程的初步贡献，以及Eefje Poppelaars对en-tox命名实体识别模型的贡献。我们感谢Ramiro Jover和Anouk Verhoeven提供肝脏不良结局的化合物清单以及关于如何选择这些化合物的说明。

利益冲突

作者TL受雇于某机构。其余作者声明，研究是在没有任何可能被解释为潜在利益冲突的商业或财务关系的情况下进行的。作者声明，在提交时他们是Frontiers的编辑委员会成员。这对同行评审过程和最终决定没有影响。

出版商声明

本文中表达的所有主张仅代表作者，不一定代表其附属组织或出版商、编辑和审稿人的主张。本文中可能评估的任何产品，或可能由其制造商提出的声明，均不由出版商保证或认可。FINISHED