ClinicalAgents: Multi-Agent Orchestration for Clinical Decision Making with Dual

Abstract

1. 核心挑战：非线性推理的缺失

摘要首先指出，尽管 LLM 在医疗领域有潜力，但它们在面对复杂的临床诊断时往往表现不佳。

痛点： 现有的方法通常依赖于从“症状到诊断”的静态、线性映射。
差异： 这种模式无法捕捉人类医生在实际诊疗中那种**迭代式、假设驱动（Hypothesis-driven）**的推理本质。

2. 解决方案：ClinicalAgents 框架

为了弥补这一差距，作者提出了 ClinicalAgents。它不仅是一个简单的多智能体系统，更是一个模拟专家临床认知工作流的系统。

动态编排（MCTS）： 该框架不再使用僵化的顺序执行模式，而是采用基于**蒙特卡洛树搜索（MCTS）**的动态机制。

ClinicalAgents employs a dynamic orchestration mechanism modeled as a Monte Carlo Tree Search (MCTS) process.

回溯机制： 这种机制允许系统迭代地生成假设、验证证据，并在发现关键信息缺失时触发“回溯”。

3. 核心支柱：双存储器架构

摘要强调了框架的底层基础是双存储器（Dual-Memory）设计：

工作存储（Working Memory）： 动态更新，维护不断变化的患者状态，用于上下文感知的推理。
经验存储（Experience Memory）： 静态存储，包含临床指南和历史病例，通过反馈循环进行检索。

The foundation of this framework is a Dual-Memory architecture: a mutable working memory that maintains the evolving patient state for context-aware reasoning, and a static experience memory.

4. 实验结果

摘要最后总结了实验成果。在大规模实验中，ClinicalAgents 在所有评估的基准测试中均表现最佳。

性能提升： 相比于强大的单智能体和多智能体基线，显著提高了诊断准确性。
可解释性： 框架的推理过程更加透明和可解释，这在临床实践中至关重要。

Introduction

1. 临床决策（CDM）的本质：高度动态与不确定性

引言首先定义了 CDM 是一个持续、复杂的过程，需要医生在高度不确定的环境下，根据患者症状不断收集信息。

多模态数据集成： 医生需要综合处理电子健康记录（EHR）、医学影像、实验室检查等多种数据。
动态更新： 医生需要根据新证据动态调整鉴别诊断，并确保符合医学指南。

CDM is a complex, continuous process that involves evaluating evidence and patient symptoms to provide accurate diagnoses and effective treatment [10].

2. 现有 AI 范式的局限性

文章回顾了从深度学习（DL）到预训练语言模型（PLM）的发展，指出它们虽能分析结构化数据，但在复杂推理上存在缺陷：

缺乏多步推理： 无法进行临床所需的迭代式假设评估。
缺乏适应性： 难以在诊断过程中根据新证据动态调整。
单模型瓶颈： 即使是目前的强力 LLM，仅靠复杂的提示词（Prompting）也难以胜任跨学科、多环节的临床任务。

3. 多智能体系统（MAS）的现状与挑战

虽然研究界开始转向 MAS 以模拟医疗团队协作，但引言指出目前的 MAS 仍存在三个关键挑战：

工作流僵化： 大多采用预设的静态流程，缺乏纠错和回溯能力。
记忆碎片化： 对话上下文窗口有限，导致智能体在多轮交互中丢失关键细节，出现信息不一致。
忽视“假设-演绎”模型： 临床诊断通常是一个先建立假设、再通过证据证伪的循环（Hypothetico-deductive process），而现有模型往往将其视为一种“静态生成”任务，容易在信息不足时误诊。

...clinical diagnosis is often described as a hypothetico-deductive process [29]: clinicians start with a set of hypotheses, collect evidence to narrow the search space, and iteratively revise the hypotheses until they reach diagnostic closure [9, 15].

4. 本文的核心贡献

为了弥补这些缺陷，作者提出了 ClinicalAgents，其引言总结了四个主要贡献点：

显式实例化诊断循环： 建立了一个“感知-假设-验证-更新”的闭环，与真实临床推理对齐。
MCTS 编排机制： 克服流程僵化，支持证据触发的自动回溯。
双存储器系统： 结合了用于状态跟踪的可变工作内存和用于知识检索的经验内存，减少信息丢失。
SOTA 性能： 在多阶段临床工作流基准测试上证明了其稳健性和准确性。

Related work

1. 大语言模型在临床决策（CDM）中的应用

这部分回顾了 LLM 从早期的静态任务向动态推理的演进过程。

单模型增强： 早期工作主要通过高级提示工程（如 Med-PaLM 2 的集成精炼）或微调（如 HuaTuoGPT 的协议对齐）来提高模型在医疗考试（如 USMLE）上的表现。
缓解幻觉与检索： 为了解决长链推理中的幻觉问题，引入了验证机制（如 CoV）和工具调用（如 ReAct），尝试将静态知识与动态决策结合。
核心局限：

While these methods excel in single-turn QA, they fundamentally treat CDM as a static prediction task rather than a dynamic process. 作者认为，这些方法大多将临床决策视为对固定病例的脱机推理，缺乏主动发现证据和迭代获取信息的能力。

2. 医疗多智能体系统（MAS）

由于医疗实践具有多学科协作的性质，研究重心已从单模型转向多智能体系统。

角色扮演与协作： 基础框架（如 MedAgents）利用专门的智能体（如诊断专家、药理学家）共同协作。
自适应与共识机制：
- MDAgents： 根据医疗任务的复杂性动态调整团队规模。
- 辩论与投票： 像 ReConcile 这样的框架证明了辩论机制在达成推理共识方面优于简单的投票。
模拟与流程建模：
- Agent Hospital： 在虚拟环境中通过互动进化。
- MedChain： 提出了一个包含五个关键阶段的高度真实的端到端诊断流程。
核心局限：

Nevertheless, most MAS for CDM still rely on pre-scripted interaction protocols and window-bounded memory, offering limited replanning and backtracking under incomplete or evolving patient information. 现有的 MAS 大多依赖于预设的交互协议和受限的对话记忆，在面对不完整或不断变化的患者信息时，缺乏重新规划和回溯的能力。

总结：ClinicalAgents 的定位

通过相关工作的梳理，作者强调 ClinicalAgents 的不同之处在于：

非预设流程： 通过 MCTS 实现了灵活的动态路径搜索。
显式回溯： 能够识别证据缺口并主动回过头来补充。
双层存储： 解决了“窗口受限内存”导致的信息丢失问题，确保了多轮推理的一致性。

Methods

3.1 Framework Overview

1. 三大核心组件

框架的顶层设计由三个相互协作的部分组成：

智能体池（Agent Pool）： 包含多种专业化的医生智能体，分别代表不同的医疗角色（如放射科医生、治疗专家等）和特定任务。
临床编排器（Clinical Orchestrator）： 作为系统的“大脑”，负责任务分配、信息流转，并执行关键的“回溯”程序。
双存储器系统（Dual-Memory System）： 负责在不同智能体之间同步状态。
- 工作存储（Working Memory $M_{work}$ ）： 它是可变的，记录当前病例的动态进展。
- 经验存储（Experience Memory $M_{exp}$ ）： 它是静态的，提供外部指南支持。

The framework comprises three core components: Agent Pool... Clinical Orchestrator... Dual-Memory System.Architecture Components

2. 标准工作流循环

ClinicalAgents 遵循一个严谨的四步循环：

感知（Perceive）： 收集和理解患者的初始症状及体征。
假设（Hypothesize）： 编排器激活特定智能体生成候选的诊断假设。
验证（Verify）： 根据临床指南对假设进行验证。
更新（Update）： 根据验证结果更新患者状态和诊断结论。

3. 主动回溯机制（Backtracking Mechanism）

这是该框架最具特色的逻辑。在“验证”阶段，系统不仅检查假设是否成立，还会检查证据是否充足：

发现缺口： 如果验证步骤揭示关键信息缺失（例如：缺少某项血液检查或影像资料）。
触发回溯： 系统会自动返回“感知”阶段，从病历中提取、检查或请求缺失的信息。
标记未知： 如果信息确实不可用，系统会将其标记为“未解析”，而不是强行进行推断。

3.2 Clinical Orchestrator

临床协调器作为 ClinicalAgents 框架中的核心控制单元，负责协调各个专用智能体之间的交互与任务执行。总体而言，我们将智能体的协调过程视为一种基于记忆的蒙特卡洛树搜索算法（MCTS）（Silver 等人，2016 年；Browne 等人，2012 年）。该算法采用基于假设的扩展策略，并通过回溯机制来补充缺失的信息，从而得出最终诊断结果。在 MCTS 的每个扩展步骤中，我们都会在马尔可夫决策过程框架内选择合适的智能体来执行任务（Puterman，1990 年）。临床协调器会根据患者的当前状况以及不断变化的诊断需求，动态选择并激活最合适的智能体。具体来说，我们对问题的定义如下：

定义 3.1（基于存储的 MCTS 问题）： 在每个步骤 $t$ 中，给定一个由五元组 $\langle M_t^{work}, A, R, T, \eta \rangle$ 定义的马尔可夫决策过程（MDP），其中：

$M_t^{work}$ 是步骤 $t$ 的工作存储，包含证据集 $E_t$ 、假设集 $H_t$ 和行动轨迹 $\tau_t = (a_0, a_1, \dots, a_t)$ ：
$M_t^{work} = \langle E_t, H_t, \tau_t \rangle$
$A$ 是动作空间。
$R$ 代表奖励函数。
$T$ 是终止状态（例如：通过确认诊断达成临床闭合）。
$\eta$ 是最大编排步数。

我们的 MCTS 目标是从步骤 $t=0$ 开始，逼近最优策略 $\pi^* : M_t^{work} \to A$ ，并通过奖励函数 $R$ （公式 4）使期望的信息增益最大化。当达到终止状态 $T$ 或最大编排步数 $\eta$ 时，MDP 过程结束。

在每个步骤 $t$ 中，给定工作存储 $M_t^{work}$ ，大语言模型（LLM）编排器 $O$ 估计采取特定动作 $a$ 以推进诊断并获得奖励 $R$ 的概率。在 MDP 过程中，动作空间 $A$ 包括：

$A_{agent}$ ：调用特定智能体（如影像诊断智能体、治疗智能体等）按需执行任务。
$a_{rag}$ ：从经验存储 $M_{exp}$ 中调用知识检索动作，提供新证据或指导。
$a_{back}$ ：调用编排器 $O$ 执行回溯，并决定轨迹 $\tau$ 中的回溯点。
$a_{term}$ ：当达成临床闭合时终止编排过程。

A = A_{agent} \cup \{a_{rag}, a_{back}, a_{term}\}

通过启用回溯，我们的编排被建模为一个可搜索的决策过程，而非硬编码的规则，这允许系统在当前证据不足以验证假设时，返回到感知阶段。

奖励函数与搜索策略

接下来，我们介绍奖励函数 $R$ ，它基于引入每项证据和提出每个假设后的信息增益。令 $E_m^t$ 为步骤 $t$ 的缺失关键证据集， $c_t \in [0, 1]$ 为 LLM 生成的顶级假设 $h_t \in H_t$ 的置信度。定义如下：

E_m^t = LLM(E_t, I_{miss}), c_t = LLM(h_t, I_{conf}), \Delta E_m^t = E_m^{t-1} - E_m^t, \Delta c_t = c_t - c_{t-1}

1. 缺失证据的识别 ( $E_m^t$ )

E_m^t = LLM(E_t, I_{miss})

含义： 在步骤 $t$ ，编排器调用 LLM 来审查当前已有的证据集 $E_t$ 。
$I_{miss}$ ： 这是一个专门的指令（Prompt），要求模型思考：“基于目前的病例，为了确诊，还有哪些关键的医学证据（如某项化验、某种体征）是缺失的？”
结果： $E_m^t$ 代表当前缺失的关键证据集合。

2. 诊断置信度的评估 ( $c_t$ )

c_t = LLM(h_t, I_{conf})

含义： 在步骤 $t$ ，针对当前排在第一位的诊断假设 $h_t$ ，模型给出一个置信度评分。
$I_{conf}$ ： 这是一个指令，要求模型定量评估：“基于现有证据，你对这个诊断结论有多大把握？”
结果： $c_t$ 是一个 $0$ 到 $1$ 之间的数值，代表诊断的确定性。

3. 进度的量化 ( $\Delta E_m^t$ 和 $\Delta c_t$ )

这两个“ $\Delta$ ”（德尔塔）代表了系统在这一步行动中取得的净收益：

$\Delta E_m^t = E_m^{t-1} - E_m^t$ （证据缺口的减少）：
- 它比较了前一步和这一步缺失证据的数量（或重要性）。
- 如果 $\Delta E_m^t > 0$ ，说明这一步行动填补了关键的证据缺口（缺失的东西变少了）。
$\Delta c_t = c_t - c_{t-1}$ （确定性的增长）：
- 它比较了前一步和这一步的诊断信心。
- 如果 $\Delta c_t > 0$ ，说明这一步行动让模型对诊断结论更加确信了。

这些值会被带入到后续的奖励函数 $R_t$ 中：

$R_t = \alpha \cdot \max(0, \Delta E_m^t) + \beta \cdot \max(0, \Delta c_t) - \dots$

其中 $I_{miss}$ 和 $I_{conf}$ 分别表示缺失证据检测和置信度评分指令。为了引导搜索达成经过验证的结论，我们的奖励函数 $R$ 反映了缩小鉴别诊断范围的临床目标。对于任何非终止动作（ $a_t \neq a_{term}$ ），奖励为：

R_t = \alpha \cdot \max(0, \Delta E_m^t) + \beta \cdot \max(0, \Delta c_t) - \gamma \cdot \mathbb{I}[\Delta E_m^t \leq 0 \wedge \Delta c_t \leq 0]

其中 $\alpha, \beta, \gamma \geq 0$ 分别是减少缺失证据、提高置信度和无信息动作惩罚的权重系数。

MCTS 扩展与回溯策略

给定当前 $M_t^{work}$ ，编排器模型 $O$ 输出所有动作 $a \in A$ 的动作选择评分分布 $O(a | M_t^{work}, I_{select})$ 。我们通过取前 $K$ 个动作构建候选集 $A_K$ 。对于每个候选动作，我们运行 $N$ 次独立的模拟（rollouts），并通过平均模拟回报来估计其在步骤 $t$ 的动作价值 $Q(M_t^{work}, a)$ ：

Q(M_t^{work}, a) = \frac{1}{N} \sum_{i=1}^N \sum_{k=t}^{L_i} \gamma_d^{k-t} R_k^{(i)}

其中 $L_i$ 是第 $i$ 次模拟的终止步， $\gamma_d \in (0, 1]$ 是折现因子。在树遍历期间，节点选择由受 LLM 先验引导的**预测器与树的上置信度界限（PUCT）**控制，选择步骤 $t$ 的动作 $a^*$ ：

a^* = \arg \max_{a \in A_K} (Q(M_t^{work}, a) + \lambda \cdot O(a | M_t^{work}, I_{select}))

受到 MCTS 反向传播的启发，我们设计了一种新颖的回溯机制，作为处理证据不足导致的诊断不确定性的动态纠正措施。通过决策函数 $\Phi(M_t^{work})$ 机械地驱动：

\Phi(M_t^{work}) = \mathbb{I}[|E_m^t| > 0]

如果关键证据缺失（即 $E_m^t \neq \emptyset$ ），编排器 $O$ 会根据缺失证据的类型决定回退到哪个目标阶段和动作。

3.3 双存储器系统

为了支持一致的多轮推理，ClinicalAgents 采用了双存储器架构 $\langle M_{work}, M_{exp} \rangle$ 。其中，工作存储 $M_{work}$ 在整个推理过程中维护不断演变的证据集和假设集，而经验存储 $M_{exp}$ 则提供对外部医疗指南和历史诊断病例的访问。这种设计使 ClinicalAgents 能够将实时的患者上下文与已有的医学知识相结合，确保跨多个推理步骤的逻辑连贯性。我们将在下文详细介绍每个存储模块的结构和功能。

3.3.1 工作存储（Working Memory）

工作存储 $M_{work}$ 作为整个 ClinicalAgents 系统的中央状态板，同步所有智能体对当前患者上下文和诊断进度的理解。通过汇总和共享最新的证据及假设，它确保了所有智能体的行动在多轮推理中保持一致且信息充分。

从形式上定义，步骤 $t-1$ 的工作存储为：

M_{work}^{t-1} = \langle E_{t-1}, H_{t-1}, \tau_{t-1} \rangle

其中：

$E_{t-1}$ 是累积的证据集（如症状和检查结果）；
$H_{t-1}$ 是不断演变的诊断假设集；
$\tau_{t-1}$ 记录了截至步骤 $t-1$ 所采取的行动序列。

在每个步骤 $t$ ，编排器通过整合从智能体交互中收集到的新证据 $E_{new}^t$ 和新假设 $H_{new}^t$ 来更新工作存储：

E_t = E_{t-1} \cup E_{new}^t

H_t = UpdateHyp(H_{t-1}, H_{new}^t)

这种设计实现了所有智能体之间的实时、多轮同步，为连贯的临床推理和决策提供了全面且持续更新的上下文。

3.3.2 Experience Memory，经验存储

如果说工作存储（Working Memory）是医生的临时病历本，那么经验存储（Experience Memory）就是医生的专业参考书和过往行医案例集。

以下是该模块的两个核心功能：

1. 结构化指南检索（Guideline Retrieval）

系统会从一个权威的医学指南数据库 $D_{guide}$ 中检索相关知识。

如何检索： 利用作者之前提出的 AGRAG（高级图检索增强生成）模型。
检索内容： 输入当前的证据 $E_t$ 和假设 $H_t$ ，获取针对性的医疗建议、诊疗协议和路径指导。
价值： 确保模型的决策不是盲目生成的，而是有据可依的“证据医学”实践。

2. 基于历史案例的“缺失证据”预测（Proactive Evidence Seeking）

这是该框架最聪明的地方。它不仅仅是被动地查书，还会根据历史病例 $D_{cdc}$ （即“因果诊断链”）主动预测当前可能遗漏的信息。

因果诊断链（CDC）： 每个历史病例都存储为 证据 -> 诊断 -> 治疗计划 的因果链。
寻找相似： 系统会找回最相似的历史病例集。
计算重要性分数 $Imp(e)$ ： 系统会查看在类似的病人身上，医生通常还会检查哪些项目。如果某个项目（如“某项血液指标”）在类似案例中频繁出现，但在当前病人身上却缺失了，它就会获得很高的分数。
主动出击： 如果分数超过阈值 $\delta$ ，该项目会被标记为“潜在缺失证据” $E_p^t$ 。