Abstract
1. 核心挑战:非线性推理的缺失
摘要首先指出,尽管 LLM 在医疗领域有潜力,但它们在面对复杂的临床诊断时往往表现不佳。
- 痛点: 现有的方法通常依赖于从“症状到诊断”的静态、线性映射。
- 差异: 这种模式无法捕捉人类医生在实际诊疗中那种**迭代式、假设驱动(Hypothesis-driven)**的推理本质。
2. 解决方案:ClinicalAgents 框架
为了弥补这一差距,作者提出了 ClinicalAgents。它不仅是一个简单的多智能体系统,更是一个模拟专家临床认知工作流的系统。
- 动态编排(MCTS): 该框架不再使用僵化的顺序执行模式,而是采用基于**蒙特卡洛树搜索(MCTS)**的动态机制。
ClinicalAgents employs a dynamic orchestration mechanism modeled as a Monte Carlo Tree Search (MCTS) process.
- 回溯机制: 这种机制允许系统迭代地生成假设、验证证据,并在发现关键信息缺失时触发“回溯”。
3. 核心支柱:双存储器架构
摘要强调了框架的底层基础是双存储器(Dual-Memory)设计:
- 工作存储(Working Memory): 动态更新,维护不断变化的患者状态,用于上下文感知的推理。
- 经验存储(Experience Memory): 静态存储,包含临床指南和历史病例,通过反馈循环进行检索。
The foundation of this framework is a Dual-Memory architecture: a mutable working memory that maintains the evolving patient state for context-aware reasoning, and a static experience memory.
4. 实验结果
摘要最后总结了实验成果。在大规模实验中,ClinicalAgents 在所有评估的基准测试中均表现最佳。
- 性能提升: 相比于强大的单智能体和多智能体基线,显著提高了诊断准确性。
- 可解释性: 框架的推理过程更加透明和可解释,这在临床实践中至关重要。
Introduction
1. 临床决策(CDM)的本质:高度动态与不确定性
引言首先定义了 CDM 是一个持续、复杂的过程,需要医生在高度不确定的环境下,根据患者症状不断收集信息。
- 多模态数据集成: 医生需要综合处理电子健康记录(EHR)、医学影像、实验室检查等多种数据。
- 动态更新: 医生需要根据新证据动态调整鉴别诊断,并确保符合医学指南。
CDM is a complex, continuous process that involves evaluating evidence and patient symptoms to provide accurate diagnoses and effective treatment [10].
2. 现有 AI 范式的局限性
文章回顾了从深度学习(DL)到预训练语言模型(PLM)的发展,指出它们虽能分析结构化数据,但在复杂推理上存在缺陷:
- 缺乏多步推理: 无法进行临床所需的迭代式假设评估。
- 缺乏适应性: 难以在诊断过程中根据新证据动态调整。
- 单模型瓶颈: 即使是目前的强力 LLM,仅靠复杂的提示词(Prompting)也难以胜任跨学科、多环节的临床任务。
3. 多智能体系统(MAS)的现状与挑战
虽然研究界开始转向 MAS 以模拟医疗团队协作,但引言指出目前的 MAS 仍存在三个关键挑战:
- 工作流僵化: 大多采用预设的静态流程,缺乏纠错和回溯能力。
- 记忆碎片化: 对话上下文窗口有限,导致智能体在多轮交互中丢失关键细节,出现信息不一致。
- 忽视“假设-演绎”模型: 临床诊断通常是一个先建立假设、再通过证据证伪的循环(Hypothetico-deductive process),而现有模型往往将其视为一种“静态生成”任务,容易在信息不足时误诊。
...clinical diagnosis is often described as a hypothetico-deductive process [29]: clinicians start with a set of hypotheses, collect evidence to narrow the search space, and iteratively revise the hypotheses until they reach diagnostic closure [9, 15].
4. 本文的核心贡献
为了弥补这些缺陷,作者提出了 ClinicalAgents,其引言总结了四个主要贡献点:
- 显式实例化诊断循环: 建立了一个“感知-假设-验证-更新”的闭环,与真实临床推理对齐。
- MCTS 编排机制: 克服流程僵化,支持证据触发的自动回溯。
- 双存储器系统: 结合了用于状态跟踪的可变工作内存和用于知识检索的经验内存,减少信息丢失。
- SOTA 性能: 在多阶段临床工作流基准测试上证明了其稳健性和准确性。
Related work
1. 大语言模型在临床决策(CDM)中的应用
这部分回顾了 LLM 从早期的静态任务向动态推理的演进过程。
-
单模型增强: 早期工作主要通过高级提示工程(如 Med-PaLM 2 的集成精炼)或微调(如 HuaTuoGPT 的协议对齐)来提高模型在医疗考试(如 USMLE)上的表现。
-
缓解幻觉与检索: 为了解决长链推理中的幻觉问题,引入了验证机制(如 CoV)和工具调用(如 ReAct),尝试将静态知识与动态决策结合。
-
核心局限:
While these methods excel in single-turn QA, they fundamentally treat CDM as a static prediction task rather than a dynamic process. 作者认为,这些方法大多将临床决策视为对固定病例的脱机推理,缺乏主动发现证据和迭代获取信息的能力。
2. 医疗多智能体系统(MAS)
由于医疗实践具有多学科协作的性质,研究重心已从单模型转向多智能体系统。
-
角色扮演与协作: 基础框架(如 MedAgents)利用专门的智能体(如诊断专家、药理学家)共同协作。
-
自适应与共识机制:
- MDAgents: 根据医疗任务的复杂性动态调整团队规模。
- 辩论与投票: 像 ReConcile 这样的框架证明了辩论机制在达成推理共识方面优于简单的投票。
-
模拟与流程建模:
- Agent Hospital: 在虚拟环境中通过互动进化。
- MedChain: 提出了一个包含五个关键阶段的高度真实的端到端诊断流程。
-
核心局限:
Nevertheless, most MAS for CDM still rely on pre-scripted interaction protocols and window-bounded memory, offering limited replanning and backtracking under incomplete or evolving patient information. 现有的 MAS 大多依赖于预设的交互协议和受限的对话记忆,在面对不完整或不断变化的患者信息时,缺乏重新规划和回溯的能力。
总结:ClinicalAgents 的定位
通过相关工作的梳理,作者强调 ClinicalAgents 的不同之处在于:
- 非预设流程: 通过 MCTS 实现了灵活的动态路径搜索。
- 显式回溯: 能够识别证据缺口并主动回过头来补充。
- 双层存储: 解决了“窗口受限内存”导致的信息丢失问题,确保了多轮推理的一致性。
Methods
3.1 Framework Overview
1. 三大核心组件
框架的顶层设计由三个相互协作的部分组成:
-
智能体池(Agent Pool): 包含多种专业化的医生智能体,分别代表不同的医疗角色(如放射科医生、治疗专家等)和特定任务。
-
临床编排器(Clinical Orchestrator): 作为系统的“大脑”,负责任务分配、信息流转,并执行关键的“回溯”程序。
-
双存储器系统(Dual-Memory System): 负责在不同智能体之间同步状态。
- 工作存储(Working Memory ): 它是可变的,记录当前病例的动态进展。
- 经验存储(Experience Memory ): 它是静态的,提供外部指南支持。
The framework comprises three core components: Agent Pool... Clinical Orchestrator... Dual-Memory System.Architecture Components
2. 标准工作流循环
ClinicalAgents 遵循一个严谨的四步循环:
- 感知(Perceive): 收集和理解患者的初始症状及体征。
- 假设(Hypothesize): 编排器激活特定智能体生成候选的诊断假设。
- 验证(Verify): 根据临床指南对假设进行验证。
- 更新(Update): 根据验证结果更新患者状态和诊断结论。
3. 主动回溯机制(Backtracking Mechanism)
这是该框架最具特色的逻辑。在“验证”阶段,系统不仅检查假设是否成立,还会检查证据是否充足:
- 发现缺口: 如果验证步骤揭示关键信息缺失(例如:缺少某项血液检查或影像资料)。
- 触发回溯: 系统会自动返回“感知”阶段,从病历中提取、检查或请求缺失的信息。
- 标记未知: 如果信息确实不可用,系统会将其标记为“未解析”,而不是强行进行推断。
3.2 Clinical Orchestrator
临床协调器作为 ClinicalAgents 框架中的核心控制单元,负责协调各个专用智能体之间的交互与任务执行。总体而言,我们将智能体的协调过程视为一种基于记忆的蒙特卡洛树搜索算法(MCTS)(Silver 等人,2016 年;Browne 等人,2012 年)。该算法采用基于假设的扩展策略,并通过回溯机制来补充缺失的信息,从而得出最终诊断结果。在 MCTS 的每个扩展步骤中,我们都会在马尔可夫决策过程框架内选择合适的智能体来执行任务(Puterman,1990 年)。临床协调器会根据患者的当前状况以及不断变化的诊断需求,动态选择并激活最合适的智能体。具体来说,我们对问题的定义如下:
定义 3.1(基于存储的 MCTS 问题): 在每个步骤 中,给定一个由五元组 定义的马尔可夫决策过程(MDP),其中:
-
是步骤 的工作存储,包含证据集 、假设集 和行动轨迹 :
-
是动作空间。
-
代表奖励函数。
-
是终止状态(例如:通过确认诊断达成临床闭合)。
-
是最大编排步数。
我们的 MCTS 目标是从步骤 开始,逼近最优策略 ,并通过奖励函数 (公式 4)使期望的信息增益最大化。当达到终止状态 或最大编排步数 时,MDP 过程结束。
在每个步骤 中,给定工作存储 ,大语言模型(LLM)编排器 估计采取特定动作 以推进诊断并获得奖励 的概率。在 MDP 过程中,动作空间 包括:
- :调用特定智能体(如影像诊断智能体、治疗智能体等)按需执行任务。
- :从经验存储 中调用知识检索动作,提供新证据或指导。
- :调用编排器 执行回溯,并决定轨迹 中的回溯点。
- :当达成临床闭合时终止编排过程。
通过启用回溯,我们的编排被建模为一个可搜索的决策过程,而非硬编码的规则,这允许系统在当前证据不足以验证假设时,返回到感知阶段。
奖励函数与搜索策略
接下来,我们介绍奖励函数 ,它基于引入每项证据和提出每个假设后的信息增益。令 为步骤 的缺失关键证据集, 为 LLM 生成的顶级假设 的置信度。定义如下:
1. 缺失证据的识别 ()
- 含义: 在步骤 ,编排器调用 LLM 来审查当前已有的证据集 。
- : 这是一个专门的指令(Prompt),要求模型思考:“基于目前的病例,为了确诊,还有哪些关键的医学证据(如某项化验、某种体征)是缺失的?”
- 结果: 代表当前缺失的关键证据集合。
2. 诊断置信度的评估 ()
- 含义: 在步骤 ,针对当前排在第一位的诊断假设 ,模型给出一个置信度评分。
- : 这是一个指令,要求模型定量评估:“基于现有证据,你对这个诊断结论有多大把握?”
- 结果: 是一个 到 之间的数值,代表诊断的确定性。
3. 进度的量化 ( 和 )
这两个“”(德尔塔)代表了系统在这一步行动中取得的净收益:
-
(证据缺口的减少):
- 它比较了前一步和这一步缺失证据的数量(或重要性)。
- 如果 ,说明这一步行动填补了关键的证据缺口(缺失的东西变少了)。
-
(确定性的增长):
- 它比较了前一步和这一步的诊断信心。
- 如果 ,说明这一步行动让模型对诊断结论更加确信了。
这些值会被带入到后续的奖励函数 中:
其中 和 分别表示缺失证据检测和置信度评分指令。为了引导搜索达成经过验证的结论,我们的奖励函数 反映了缩小鉴别诊断范围的临床目标。对于任何非终止动作(),奖励为:
其中 分别是减少缺失证据、提高置信度和无信息动作惩罚的权重系数。
MCTS 扩展与回溯策略
给定当前 ,编排器模型 输出所有动作 的动作选择评分分布 。我们通过取前 个动作构建候选集 。对于每个候选动作,我们运行 次独立的模拟(rollouts),并通过平均模拟回报来估计其在步骤 的动作价值 :
其中 是第 次模拟的终止步, 是折现因子。在树遍历期间,节点选择由受 LLM 先验引导的**预测器与树的上置信度界限(PUCT)**控制,选择步骤 的动作 :
受到 MCTS 反向传播的启发,我们设计了一种新颖的回溯机制,作为处理证据不足导致的诊断不确定性的动态纠正措施。通过决策函数 机械地驱动:
如果关键证据缺失(即 ),编排器 会根据缺失证据的类型决定回退到哪个目标阶段和动作。
3.3 双存储器系统
为了支持一致的多轮推理,ClinicalAgents 采用了双存储器架构 。其中,工作存储 在整个推理过程中维护不断演变的证据集和假设集,而经验存储 则提供对外部医疗指南和历史诊断病例的访问。这种设计使 ClinicalAgents 能够将实时的患者上下文与已有的医学知识相结合,确保跨多个推理步骤的逻辑连贯性。我们将在下文详细介绍每个存储模块的结构和功能。
3.3.1 工作存储(Working Memory)
工作存储 作为整个 ClinicalAgents 系统的中央状态板,同步所有智能体对当前患者上下文和诊断进度的理解。通过汇总和共享最新的证据及假设,它确保了所有智能体的行动在多轮推理中保持一致且信息充分。
从形式上定义,步骤 的工作存储为:
其中:
- 是累积的证据集(如症状和检查结果);
- 是不断演变的诊断假设集;
- 记录了截至步骤 所采取的行动序列。
在每个步骤 ,编排器通过整合从智能体交互中收集到的新证据 和新假设 来更新工作存储:
这种设计实现了所有智能体之间的实时、多轮同步,为连贯的临床推理和决策提供了全面且持续更新的上下文。
3.3.2 Experience Memory,经验存储
如果说工作存储(Working Memory)是医生的临时病历本,那么经验存储(Experience Memory)就是医生的专业参考书和过往行医案例集。
以下是该模块的两个核心功能:
1. 结构化指南检索(Guideline Retrieval)
系统会从一个权威的医学指南数据库 中检索相关知识。
- 如何检索: 利用作者之前提出的 AGRAG(高级图检索增强生成)模型。
- 检索内容: 输入当前的证据 和假设 ,获取针对性的医疗建议、诊疗协议和路径指导。
- 价值: 确保模型的决策不是盲目生成的,而是有据可依的“证据医学”实践。
2. 基于历史案例的“缺失证据”预测(Proactive Evidence Seeking)
这是该框架最聪明的地方。它不仅仅是被动地查书,还会根据历史病例 (即“因果诊断链”)主动预测当前可能遗漏的信息。
- 因果诊断链(CDC): 每个历史病例都存储为
证据 -> 诊断 -> 治疗计划的因果链。 - 寻找相似: 系统会找回最相似的历史病例集。
- 计算重要性分数 : 系统会查看在类似的病人身上,医生通常还会检查哪些项目。如果某个项目(如“某项血液指标”)在类似案例中频繁出现,但在当前病人身上却缺失了,它就会获得很高的分数。
- 主动出击: 如果分数超过阈值 ,该项目会被标记为“潜在缺失证据” 。