ClinicalAgents: Multi-Agent Orchestration for Clinical Decision Making with Dual

0 阅读7分钟

Abstract

1. 核心挑战:非线性推理的缺失

摘要首先指出,尽管 LLM 在医疗领域有潜力,但它们在面对复杂的临床诊断时往往表现不佳。

  • 痛点:  现有的方法通常依赖于从“症状到诊断”的静态、线性映射。
  • 差异:  这种模式无法捕捉人类医生在实际诊疗中那种**迭代式、假设驱动(Hypothesis-driven)**的推理本质。

2. 解决方案:ClinicalAgents 框架

为了弥补这一差距,作者提出了 ClinicalAgents。它不仅是一个简单的多智能体系统,更是一个模拟专家临床认知工作流的系统。

  • 动态编排(MCTS):  该框架不再使用僵化的顺序执行模式,而是采用基于**蒙特卡洛树搜索(MCTS)**的动态机制。

ClinicalAgents employs a dynamic orchestration mechanism modeled as a Monte Carlo Tree Search (MCTS) process. 

  • 回溯机制:  这种机制允许系统迭代地生成假设、验证证据,并在发现关键信息缺失时触发“回溯”。

3. 核心支柱:双存储器架构

摘要强调了框架的底层基础是双存储器(Dual-Memory)设计:

  • 工作存储(Working Memory):  动态更新,维护不断变化的患者状态,用于上下文感知的推理。
  • 经验存储(Experience Memory):  静态存储,包含临床指南和历史病例,通过反馈循环进行检索。

The foundation of this framework is a Dual-Memory architecture: a mutable working memory that maintains the evolving patient state for context-aware reasoning, and a static experience memory. 

4. 实验结果

摘要最后总结了实验成果。在大规模实验中,ClinicalAgents 在所有评估的基准测试中均表现最佳。

  • 性能提升:  相比于强大的单智能体和多智能体基线,显著提高了诊断准确性
  • 可解释性:  框架的推理过程更加透明和可解释,这在临床实践中至关重要。

Introduction

1. 临床决策(CDM)的本质:高度动态与不确定性

引言首先定义了 CDM 是一个持续、复杂的过程,需要医生在高度不确定的环境下,根据患者症状不断收集信息。

  • 多模态数据集成:  医生需要综合处理电子健康记录(EHR)、医学影像、实验室检查等多种数据。
  • 动态更新:  医生需要根据新证据动态调整鉴别诊断,并确保符合医学指南。

CDM is a complex, continuous process that involves evaluating evidence and patient symptoms to provide accurate diagnoses and effective treatment [10]. 

2. 现有 AI 范式的局限性

文章回顾了从深度学习(DL)到预训练语言模型(PLM)的发展,指出它们虽能分析结构化数据,但在复杂推理上存在缺陷:

  • 缺乏多步推理:  无法进行临床所需的迭代式假设评估。
  • 缺乏适应性:  难以在诊断过程中根据新证据动态调整。
  • 单模型瓶颈:  即使是目前的强力 LLM,仅靠复杂的提示词(Prompting)也难以胜任跨学科、多环节的临床任务。

3. 多智能体系统(MAS)的现状与挑战

虽然研究界开始转向 MAS 以模拟医疗团队协作,但引言指出目前的 MAS 仍存在三个关键挑战:

  • 工作流僵化:  大多采用预设的静态流程,缺乏纠错和回溯能力。
  • 记忆碎片化:  对话上下文窗口有限,导致智能体在多轮交互中丢失关键细节,出现信息不一致。
  • 忽视“假设-演绎”模型:  临床诊断通常是一个先建立假设、再通过证据证伪的循环(Hypothetico-deductive process),而现有模型往往将其视为一种“静态生成”任务,容易在信息不足时误诊。

...clinical diagnosis is often described as a hypothetico-deductive process [29]: clinicians start with a set of hypotheses, collect evidence to narrow the search space, and iteratively revise the hypotheses until they reach diagnostic closure [9, 15]. 

4. 本文的核心贡献

为了弥补这些缺陷,作者提出了 ClinicalAgents,其引言总结了四个主要贡献点:

  • 显式实例化诊断循环:  建立了一个“感知-假设-验证-更新”的闭环,与真实临床推理对齐。
  • MCTS 编排机制:  克服流程僵化,支持证据触发的自动回溯。
  • 双存储器系统:  结合了用于状态跟踪的可变工作内存和用于知识检索的经验内存,减少信息丢失。
  • SOTA 性能:  在多阶段临床工作流基准测试上证明了其稳健性和准确性。

Related work

1. 大语言模型在临床决策(CDM)中的应用

这部分回顾了 LLM 从早期的静态任务向动态推理的演进过程。

  • 单模型增强:  早期工作主要通过高级提示工程(如 Med-PaLM 2 的集成精炼)或微调(如 HuaTuoGPT 的协议对齐)来提高模型在医疗考试(如 USMLE)上的表现。

  • 缓解幻觉与检索:  为了解决长链推理中的幻觉问题,引入了验证机制(如 CoV)和工具调用(如 ReAct),尝试将静态知识与动态决策结合。

  • 核心局限:

    While these methods excel in single-turn QA, they fundamentally treat CDM as a static prediction task rather than a dynamic process.  作者认为,这些方法大多将临床决策视为对固定病例的脱机推理,缺乏主动发现证据和迭代获取信息的能力。


2. 医疗多智能体系统(MAS)

由于医疗实践具有多学科协作的性质,研究重心已从单模型转向多智能体系统。

  • 角色扮演与协作:  基础框架(如 MedAgents)利用专门的智能体(如诊断专家、药理学家)共同协作。

  • 自适应与共识机制:

    • MDAgents:  根据医疗任务的复杂性动态调整团队规模。
    • 辩论与投票:  像 ReConcile 这样的框架证明了辩论机制在达成推理共识方面优于简单的投票。
  • 模拟与流程建模:

    • Agent Hospital:  在虚拟环境中通过互动进化。
    • MedChain:  提出了一个包含五个关键阶段的高度真实的端到端诊断流程。
  • 核心局限:

    Nevertheless, most MAS for CDM still rely on pre-scripted interaction protocols and window-bounded memory, offering limited replanning and backtracking under incomplete or evolving patient information.  现有的 MAS 大多依赖于预设的交互协议和受限的对话记忆,在面对不完整或不断变化的患者信息时,缺乏重新规划和回溯的能力。


总结:ClinicalAgents 的定位

通过相关工作的梳理,作者强调 ClinicalAgents 的不同之处在于:

  1. 非预设流程:  通过 MCTS 实现了灵活的动态路径搜索。
  2. 显式回溯:  能够识别证据缺口并主动回过头来补充。
  3. 双层存储:  解决了“窗口受限内存”导致的信息丢失问题,确保了多轮推理的一致性。

Methods

3.1 Framework Overview

1. 三大核心组件

框架的顶层设计由三个相互协作的部分组成:

  • 智能体池(Agent Pool): 包含多种专业化的医生智能体,分别代表不同的医疗角色(如放射科医生、治疗专家等)和特定任务。

  • 临床编排器(Clinical Orchestrator): 作为系统的“大脑”,负责任务分配、信息流转,并执行关键的“回溯”程序。

  • 双存储器系统(Dual-Memory System): 负责在不同智能体之间同步状态。

    • 工作存储(Working Memory MworkM_{work}): 它是可变的,记录当前病例的动态进展。
    • 经验存储(Experience Memory MexpM_{exp}): 它是静态的,提供外部指南支持。

The framework comprises three core components: Agent Pool... Clinical Orchestrator... Dual-Memory System.Architecture Components


2. 标准工作流循环

ClinicalAgents 遵循一个严谨的四步循环:

  1. 感知(Perceive): 收集和理解患者的初始症状及体征。
  2. 假设(Hypothesize): 编排器激活特定智能体生成候选的诊断假设。
  3. 验证(Verify): 根据临床指南对假设进行验证。
  4. 更新(Update): 根据验证结果更新患者状态和诊断结论。

3. 主动回溯机制(Backtracking Mechanism)

这是该框架最具特色的逻辑。在“验证”阶段,系统不仅检查假设是否成立,还会检查证据是否充足

  • 发现缺口: 如果验证步骤揭示关键信息缺失(例如:缺少某项血液检查或影像资料)。
  • 触发回溯: 系统会自动返回“感知”阶段,从病历中提取、检查或请求缺失的信息。
  • 标记未知: 如果信息确实不可用,系统会将其标记为“未解析”,而不是强行进行推断。

image.png

3.2 Clinical Orchestrator

临床协调器作为 ClinicalAgents 框架中的核心控制单元,负责协调各个专用智能体之间的交互与任务执行。总体而言,我们将智能体的协调过程视为一种基于记忆的蒙特卡洛树搜索算法(MCTS)(Silver 等人,2016 年;Browne 等人,2012 年)。该算法采用基于假设的扩展策略,并通过回溯机制来补充缺失的信息,从而得出最终诊断结果。在 MCTS 的每个扩展步骤中,我们都会在马尔可夫决策过程框架内选择合适的智能体来执行任务(Puterman,1990 年)。临床协调器会根据患者的当前状况以及不断变化的诊断需求,动态选择并激活最合适的智能体。具体来说,我们对问题的定义如下:

定义 3.1(基于存储的 MCTS 问题): 在每个步骤 tt 中,给定一个由五元组 Mtwork,A,R,T,η\langle M_t^{work}, A, R, T, \eta \rangle 定义的马尔可夫决策过程(MDP),其中:

  • MtworkM_t^{work} 是步骤 tt 的工作存储,包含证据集 EtE_t、假设集 HtH_t 和行动轨迹 τt=(a0,a1,,at)\tau_t = (a_0, a_1, \dots, a_t)

    Mtwork=Et,Ht,τtM_t^{work} = \langle E_t, H_t, \tau_t \rangle
  • AA 是动作空间。

  • RR 代表奖励函数。

  • TT 是终止状态(例如:通过确认诊断达成临床闭合)。

  • η\eta 是最大编排步数。

我们的 MCTS 目标是从步骤 t=0t=0 开始,逼近最优策略 π:MtworkA\pi^* : M_t^{work} \to A,并通过奖励函数 RR(公式 4)使期望的信息增益最大化。当达到终止状态 TT 或最大编排步数 η\eta 时,MDP 过程结束。

在每个步骤 tt 中,给定工作存储 MtworkM_t^{work},大语言模型(LLM)编排器 OO 估计采取特定动作 aa 以推进诊断并获得奖励 RR 的概率。在 MDP 过程中,动作空间 AA 包括:

  1. AagentA_{agent}:调用特定智能体(如影像诊断智能体、治疗智能体等)按需执行任务。
  2. araga_{rag}:从经验存储 MexpM_{exp} 中调用知识检索动作,提供新证据或指导。
  3. abacka_{back}:调用编排器 OO 执行回溯,并决定轨迹 τ\tau 中的回溯点。
  4. aterma_{term}:当达成临床闭合时终止编排过程。
A=Aagent{arag,aback,aterm}A = A_{agent} \cup \{a_{rag}, a_{back}, a_{term}\}

通过启用回溯,我们的编排被建模为一个可搜索的决策过程,而非硬编码的规则,这允许系统在当前证据不足以验证假设时,返回到感知阶段。

奖励函数与搜索策略

接下来,我们介绍奖励函数 RR,它基于引入每项证据和提出每个假设后的信息增益。令 EmtE_m^t 为步骤 tt 的缺失关键证据集,ct[0,1]c_t \in [0, 1] 为 LLM 生成的顶级假设 htHth_t \in H_t 的置信度。定义如下:

Emt=LLM(Et,Imiss),ct=LLM(ht,Iconf),ΔEmt=Emt1Emt,Δct=ctct1E_m^t = LLM(E_t, I_{miss}), c_t = LLM(h_t, I_{conf}), \Delta E_m^t = E_m^{t-1} - E_m^t, \Delta c_t = c_t - c_{t-1}

1. 缺失证据的识别 (EmtE_m^t)

Emt=LLM(Et,Imiss)E_m^t = LLM(E_t, I_{miss})
  • 含义: 在步骤 tt,编排器调用 LLM 来审查当前已有的证据集 EtE_t
  • ImissI_{miss} 这是一个专门的指令(Prompt),要求模型思考:“基于目前的病例,为了确诊,还有哪些关键的医学证据(如某项化验、某种体征)是缺失的?”
  • 结果: EmtE_m^t 代表当前缺失的关键证据集合

2. 诊断置信度的评估 (ctc_t)

ct=LLM(ht,Iconf)c_t = LLM(h_t, I_{conf})
  • 含义: 在步骤 tt,针对当前排在第一位的诊断假设 hth_t,模型给出一个置信度评分。
  • IconfI_{conf} 这是一个指令,要求模型定量评估:“基于现有证据,你对这个诊断结论有多大把握?”
  • 结果: ctc_t 是一个 0011 之间的数值,代表诊断的确定性

3. 进度的量化 (ΔEmt\Delta E_m^tΔct\Delta c_t)

这两个“Δ\Delta”(德尔塔)代表了系统在这一步行动中取得的净收益

  • ΔEmt=Emt1Emt\Delta E_m^t = E_m^{t-1} - E_m^t(证据缺口的减少):

    • 它比较了前一步和这一步缺失证据的数量(或重要性)。
    • 如果 ΔEmt>0\Delta E_m^t > 0,说明这一步行动填补了关键的证据缺口(缺失的东西变少了)。
  • Δct=ctct1\Delta c_t = c_t - c_{t-1}(确定性的增长):

    • 它比较了前一步和这一步的诊断信心。
    • 如果 Δct>0\Delta c_t > 0,说明这一步行动让模型对诊断结论更加确信了

这些值会被带入到后续的奖励函数 RtR_t 中:

Rt=αmax(0,ΔEmt)+βmax(0,Δct)R_t = \alpha \cdot \max(0, \Delta E_m^t) + \beta \cdot \max(0, \Delta c_t) - \dots

其中 ImissI_{miss}IconfI_{conf} 分别表示缺失证据检测和置信度评分指令。为了引导搜索达成经过验证的结论,我们的奖励函数 RR 反映了缩小鉴别诊断范围的临床目标。对于任何非终止动作(ataterma_t \neq a_{term}),奖励为:

Rt=αmax(0,ΔEmt)+βmax(0,Δct)γI[ΔEmt0Δct0]R_t = \alpha \cdot \max(0, \Delta E_m^t) + \beta \cdot \max(0, \Delta c_t) - \gamma \cdot \mathbb{I}[\Delta E_m^t \leq 0 \wedge \Delta c_t \leq 0]

其中 α,β,γ0\alpha, \beta, \gamma \geq 0 分别是减少缺失证据、提高置信度和无信息动作惩罚的权重系数。

MCTS 扩展与回溯策略

给定当前 MtworkM_t^{work},编排器模型 OO 输出所有动作 aAa \in A 的动作选择评分分布 O(aMtwork,Iselect)O(a | M_t^{work}, I_{select})。我们通过取前 KK 个动作构建候选集 AKA_K。对于每个候选动作,我们运行 NN 次独立的模拟(rollouts),并通过平均模拟回报来估计其在步骤 tt 的动作价值 Q(Mtwork,a)Q(M_t^{work}, a)

Q(Mtwork,a)=1Ni=1Nk=tLiγdktRk(i)Q(M_t^{work}, a) = \frac{1}{N} \sum_{i=1}^N \sum_{k=t}^{L_i} \gamma_d^{k-t} R_k^{(i)}

其中 LiL_i 是第 ii 次模拟的终止步,γd(0,1]\gamma_d \in (0, 1] 是折现因子。在树遍历期间,节点选择由受 LLM 先验引导的**预测器与树的上置信度界限(PUCT)**控制,选择步骤 tt 的动作 aa^*

a=argmaxaAK(Q(Mtwork,a)+λO(aMtwork,Iselect))a^* = \arg \max_{a \in A_K} (Q(M_t^{work}, a) + \lambda \cdot O(a | M_t^{work}, I_{select}))

受到 MCTS 反向传播的启发,我们设计了一种新颖的回溯机制,作为处理证据不足导致的诊断不确定性的动态纠正措施。通过决策函数 Φ(Mtwork)\Phi(M_t^{work}) 机械地驱动:

Φ(Mtwork)=I[Emt>0]\Phi(M_t^{work}) = \mathbb{I}[|E_m^t| > 0]

如果关键证据缺失(即 EmtE_m^t \neq \emptyset),编排器 OO 会根据缺失证据的类型决定回退到哪个目标阶段和动作。

3.3 双存储器系统

为了支持一致的多轮推理,ClinicalAgents 采用了双存储器架构 Mwork,Mexp\langle M_{work}, M_{exp} \rangle。其中,工作存储 MworkM_{work} 在整个推理过程中维护不断演变的证据集和假设集,而经验存储 MexpM_{exp} 则提供对外部医疗指南和历史诊断病例的访问。这种设计使 ClinicalAgents 能够将实时的患者上下文与已有的医学知识相结合,确保跨多个推理步骤的逻辑连贯性。我们将在下文详细介绍每个存储模块的结构和功能。

3.3.1 工作存储(Working Memory)

工作存储 MworkM_{work} 作为整个 ClinicalAgents 系统的中央状态板,同步所有智能体对当前患者上下文和诊断进度的理解。通过汇总和共享最新的证据及假设,它确保了所有智能体的行动在多轮推理中保持一致且信息充分。

从形式上定义,步骤 t1t-1 的工作存储为:

Mworkt1=Et1,Ht1,τt1M_{work}^{t-1} = \langle E_{t-1}, H_{t-1}, \tau_{t-1} \rangle

其中:

  • Et1E_{t-1} 是累积的证据集(如症状和检查结果);
  • Ht1H_{t-1} 是不断演变的诊断假设集;
  • τt1\tau_{t-1} 记录了截至步骤 t1t-1 所采取的行动序列。

在每个步骤 tt,编排器通过整合从智能体交互中收集到的新证据 EnewtE_{new}^t 和新假设 HnewtH_{new}^t 来更新工作存储:

Et=Et1EnewtE_t = E_{t-1} \cup E_{new}^t
Ht=UpdateHyp(Ht1,Hnewt)H_t = UpdateHyp(H_{t-1}, H_{new}^t)

这种设计实现了所有智能体之间的实时、多轮同步,为连贯的临床推理和决策提供了全面且持续更新的上下文。

3.3.2 Experience Memory,经验存储

如果说工作存储(Working Memory)是医生的临时病历本,那么经验存储(Experience Memory)就是医生的专业参考书过往行医案例集

以下是该模块的两个核心功能:

1. 结构化指南检索(Guideline Retrieval)

系统会从一个权威的医学指南数据库 DguideD_{guide} 中检索相关知识。

  • 如何检索: 利用作者之前提出的 AGRAG(高级图检索增强生成)模型。
  • 检索内容: 输入当前的证据 EtE_t 和假设 HtH_t,获取针对性的医疗建议、诊疗协议和路径指导。
  • 价值: 确保模型的决策不是盲目生成的,而是有据可依的“证据医学”实践。

2. 基于历史案例的“缺失证据”预测(Proactive Evidence Seeking)

这是该框架最聪明的地方。它不仅仅是被动地查书,还会根据历史病例 DcdcD_{cdc}(即“因果诊断链”)主动预测当前可能遗漏的信息。

  • 因果诊断链(CDC): 每个历史病例都存储为 证据 -> 诊断 -> 治疗计划 的因果链。
  • 寻找相似: 系统会找回最相似的历史病例集。
  • 计算重要性分数 Imp(e)Imp(e) 系统会查看在类似的病人身上,医生通常还会检查哪些项目。如果某个项目(如“某项血液指标”)在类似案例中频繁出现,但在当前病人身上却缺失了,它就会获得很高的分数。
  • 主动出击: 如果分数超过阈值 δ\delta,该项目会被标记为“潜在缺失证据” EptE_p^t