智能体系统与AUC评估:从二元决策到连续评分

31 阅读12分钟

TLDR

医疗领域的智能体AI系统通常输出二元决策(例如患病/未患病),这种输出本身无法产生有意义的AUC值。AUC仍然是医学中比较风险和检测模型的标准方法,它要求使用连续评分来对患者进行风险排序。本文描述了几种实用的策略,用于将智能体输出转换为连续评分,从而使基于AUC的与传统模型的比较保持有效和公平。

智能体与AUC评估的脱节

智能体AI系统正变得越来越普遍,因为它们降低了AI解决方案的准入门槛。它们通过利用基础模型来实现这一点,这样就不总是需要从头开始训练定制模型或进行多轮微调。我注意到NeurIPS 2025上大约20-25%的论文都集中在智能体解决方案上。医疗应用的智能体也在同步兴起并日益流行。这些系统包括由LLM驱动的流程、检索增强智能体以及多步骤决策框架。它们能够综合异构数据、进行逐步推理,并产生情境化的建议或决策。

这些系统大多旨在回答诸如“该患者是否患有此疾病”或“我们是否应该安排此检测”这类问题,而不是“该患者患此疾病的概率是多少”。换句话说,它们倾向于产生硬性决策和解释,而非校准后的概率。

相比之下,传统的医疗风险和检测模型通常使用受试者工作特征曲线下面积(AUC)进行评估。AUC深深植根于临床预测工作,是许多影像学、风险和筛查研究中比较模型的默认指标。

这就造成了差距。如果我们的新模型是智能体且以决策为中心,但我们的评估标准是基于概率的,我们就需要将两者联系起来的方法。本文的其余部分将重点阐述AUC实际需要什么、为什么二元输出不够,以及如何从智能体框架中导出连续评分以使AUC仍然可用。

为什么AUC重要以及二元输出为何失败

AUC通常被认为是医疗应用中的黄金标准指标,因为它比简单的准确率能更好地处理病例与对照组之间的不平衡问题,尤其是在反映真实世界患病率的数据集中。

当疾病患病率较低时,准确率可能是一个误导性的指标。例如,筛查人群中乳腺癌的患病率约为千分之五。一个对所有病例都预测“无癌”的模型仍然会有很高的准确率,但假阴性率会高得令人无法接受。在真实的临床背景下,这显然是一个糟糕的模型,尽管它的准确率很高。

AUC衡量的是模型将阳性病例与阴性病例区分开来的能力。它通过查看每个个体的连续评分并询问这些评分将阳性病例排在阴性病例之上的程度来实现这一点。这种基于排序的视角是AUC即使在类别高度不平衡时仍然有用的原因。

尽管我在NeurIPS上看到了智能体与健康交叉领域的许多创新性工作,但我没有看到很多论文报告AUC。我也没看到很多论文使用标准指标将新的智能体方法与现有的或已建立的传统机器学习或深度学习模型进行比较。没有这一点,就很难校准和理解这些智能体解决方案(如果确实更好的话)究竟好了多少。

目前大多数智能体输出本身并不容易获得AUC。本文的目标是提出为智能体系统获取AUC的方法,以便我们能够就新方案与以往和现有解决方案相比的性能提升展开具体讨论。

AUC如何计算

为了充分理解差距并理解解决方案的尝试,我们应该回顾一下AUC是如何计算的。

  • y ∈ {0, 1} 为真实标签
  • s ∈ ℝ 为每个个体的模型评分

ROC曲线是通过在评分范围内扫描阈值t并计算:

  • 每个阈值下的灵敏度
  • 每个阈值下的特异度

来构建的。AUC随后可以解释为:

  • 一个随机选择的阳性病例的评分高于一个随机选择的阴性病例的概率。

这种解释只有在评分包含足够的粒度以在个体间诱导出排序时才成立。实际上,这意味着我们需要连续的或至少是精细排序的值,而不仅仅是0和1。

为什么二元智能体输出会破坏AUC

智能体系统通常只输出二元决策。例如:

  • “患病”映射为1
  • “未患病”映射为0

如果这些是唯一可能的输出,那么只有两个独特的评分。当我们在这个集合上扫描阈值时,ROC曲线最多会坍缩为一个非平凡点加上平凡的端点。没有丰富的阈值集合,也没有有意义的排序。

在这种情况下,AUC要么变得未定义,要么是退化的。它也无法与输出连续概率的传统模型的AUC值进行公平比较。

为了使用AUC评估智能体解决方案,我们必须创建一个连续评分,用以捕捉智能体认为某个病例为阳性的确信程度。

我们需要什么

为了计算智能体系统的AUC,我们需要一个反映其内在风险评估、置信度或排序的连续评分。该评分不必是完美校准的概率。它只需要提供跨患者的一致性排序,且这种排序与智能体内部的风险概念一致。

以下是几种将智能体输出转换为此类评分的实用策略。

从智能体系统导出连续评分的方法

  1. 提取内部模型对数概率。
  2. 要求智能体输出明确的概率。
  3. 使用蒙特卡洛重复抽样来估计概率。
  4. 将检索相似度评分转换为风险评分。
  5. 在智能体输出之上训练一个校准模型。
  6. 在智能体内部扫描可调阈值或配置以近似ROC曲线。

比较表

方法优点缺点
对数概率连续、稳定的信号,与模型推理和排序一致需要访问Logits,对提示格式敏感
显式概率输出简单、直观,易于向临床医生和评审人员传达校准质量取决于提示设计和模型行为
蒙特卡洛抽样无需内部访问即可捕捉智能体真实的决策不确定性计算成本更高,每个患者需要多次运行
检索相似度非常适合基于检索的系统,易于计算可能无法完全反映下游决策逻辑或整体推理
校准模型将结构化或分类输出转换为平滑的风险评分,可以改进校准需要标注数据,并向流程中添加了次级模型
阈值扫描即使智能体仅暴露二元输出和一个可调参数也有效产生近似AUC,取决于参数如何影响决策

下一节将更详细地描述每种方法,包括其工作原理、最适用的场景以及需要牢记的局限性。

方法 2. 要求智能体输出概率

这是我在实践中最常使用的方法,也是我在应用的智能体系统中看到最常被采用的方法。它适用于标准API,且不需要访问模型内部。然而,我反复遇到校准问题。即使指示智能体输出0到1(或0到100)之间的概率,得到的值往往仍然是伪二元的,集中在极端值附近(如高于90%或低于10%),中间值很少。有意义的校准通常需要提供明确的参考示例,例如说明0%、10%或20%的风险看起来是什么样子。然而,这会增加额外的提示复杂性,并使该方法稍微更脆弱。

概念 如果智能体已经产生逐步推理,我们可以扩展最后一步以包含一个估计概率。例如,你可以指示系统:

在完成推理后,输出一行形式如下的内容:risk_probability: <0到1之间的值>,代表该患者患有或将患上该疾病的概率。

此行中的数值即成为连续评分。

为什么这有效

  • 它为每个患者生成直接的连续标量输出。
  • 它不需要低级访问Logits或内部层。
  • 它易于向期望得到数值概率的临床医生、合作者或评审人员解释。

最适用于

  • 可解释性和沟通很重要的评估流程。
  • 可以修改提示但不能修改底层模型内部的环境。
  • 早期实验和原型。

注意事项

  • 返回的概率在没有进一步调整的情况下可能校准不佳。
  • 微小的提示更改可能会改变概率分布,因此在进行严肃评估之前应固定提示设计。

方法 4. 将检索相似度评分转换为风险评分

概念 检索增强智能体通常会查询包含过去患者、临床记录或影像嵌入的向量数据库。检索阶段会产生当前患者与存储的示例之间的相似度评分。

如果你有一组高风险或阳性示例,你可以定义一个评分,例如s = max_j similarity(x, e_j),其中e_j索引来自已知阳性病例的嵌入,相似度可以是余弦相似度等。

患者与先前看到的阳性病例越相似,评分越高。

为什么这有效

  • 相似度评分天生是连续的,并且通常结构良好。
  • 如果示例集选择得当,检索质量往往能追踪疾病模式。
  • 即使下游智能体逻辑只做出二元决策,评分步骤仍然存在。

最适用于

  • 检索增强生成(RAG)智能体。
  • 明确基于原型的系统。
  • 嵌入和检索组件已经得到良好调优的情况。

注意事项

  • 检索相似度可能只捕捉到导致最终决策的部分推理。
  • 嵌入空间中的偏差可能会扭曲评分分布,应予以监控。

方法 6. 在智能体内部扫描可调阈值或配置

概念 一些智能体系统暴露了控制其激进或保守程度的配置参数。例如包括:

  • 灵敏度或风险容忍度设置。
  • 检索的文档数量。
  • 做出决定前执行的推理步骤数量。

如果智能体在每个设置下仍然严格输出二元结果,你可以将配置参数视为一个伪阈值:

  1. 选择几个参数值,范围从保守到激进。
  2. 对每个值,在所有患者上运行智能体并记录灵敏度和特异度。
  3. 绘制这些操作点以形成近似的ROC曲线。
  4. 计算该曲线下的面积作为近似AUC。

为什么这有效

  • 它将僵化的二元决策系统转换为一系列操作点的集合。
  • 产生的曲线可以类似于传统的ROC曲线进行解释,尽管x轴是通过配置参数间接控制的,而不是直接的评分阈值。
  • 这让人想起决策曲线分析,后者也检查不同操作模式下的性能权衡。

最适用于

  • 具有可调配置参数的基于规则或确定性的智能体。
  • 概率和Logits无法访问的系统。
  • 关心不同操作模式下灵敏度与特异度权衡的场景。

注意事项

  • 产生的AUC是近似的,基于参数扫描而非直接的评分阈值。
  • 解释取决于理解参数如何影响底层决策逻辑。

总结

智能体系统正逐渐成为AI(包括医疗用例)的核心,但它们输出硬性决策的倾向与我们传统评估风险和检测模型的方式相冲突。AUC在许多临床和研究环境中仍然是标准参考点,而AUC要求连续评分以实现有意义的患者排序。

本文中的方法提供了弥合这一差距的实用途径。通过提取对数概率、要求智能体输出显式概率、使用重复抽样、利用检索相似度、训练小型校准模型或扫描配置阈值,我们可以构建尊重智能体内部行为、同时仍支持基于AUC的严格比较的连续评分。

这使新的智能体解决方案能够基于已建立的基线进行评估,并允许我们使用临床医生、统计学家和评审人员已经熟悉的相同语言和方法来评估它们。有了AUC,我们才能真正评估智能体系统是否增加了价值。