评审会上,医疗 Agent 的演示通常很顺:读一段病程记录,检索 EHR,调用药物知识库,生成病历摘要,再给出随访提醒。屏幕上看起来很能干。
院方的问题会很快落到系统细节:它能写回 EHR 吗?写入的是草稿、提醒、医嘱申请,还是正式病历?谁批准?如果它把 A 患者的检查结果带进 B 患者病历,怎么撤销?谁收到告警?三个月后还能不能还原当时的证据链?
医疗 Agent 的上线审查,准确率只占一部分。医院还会看权限、工具调用、人工接管、日志留存和责任边界。模型答得像医生,不能自动获得进入临床系统的通行证。

图1:医院评审会上,Agent demo 旁边摆着权限矩阵和审计日志表
先按危险程度拆开
过去一年,海外科研和医疗相关 Agent 的方向很清楚:系统从问答框走向可执行流程。Google AI co-scientist 把 Agent 放进科研假设生成和实验设计;PaperQA、FutureHouse 这类系统把文献检索、证据提取、任务分解连起来;Deep Research 和 AI slop 的争议,则把可复核性推到台前。
医疗场景更窄,也更硬。一个只读检索 Agent,和一个能写入病历、触发检查申请、修改随访计划的 Agent,不能用同一套上线材料。
| 能力等级 | 允许操作 | 上线前材料 | 人工接管要求 | 日志重点 |
|---|---|---|---|---|
| 只读检索 | 查 EHR、指南、文献 | 数据范围说明、来源追溯 | 可随时停止查询 | actor、source_id、query |
| 生成草稿 | 病历摘要、随访话术 | 草稿标识、禁止自动提交 | 医生确认后使用 | output、reviewer、timestamp |
| 建议提醒 | 药物相互作用、检查遗漏提醒 | 知识库版本、误报处理 | 可忽略并记录原因 | decision、override |
| 触发任务 | 创建待办、申请单草稿 | 工具白名单、风险分层 | 二次确认 | tool、permission |
| 写入系统 | 写回 EHR 字段 | 字段级权限、回滚方案 | 双签或科室授权 | before/after、approver |
| 自主执行 | 自动完成流程动作 | 严格准入、沙箱验证 | 中止按钮、异常队列 | full_trace、incident_id |
这张表的价值在于把“Agent 很聪明”拆成可审查的问题:碰了哪个系统、哪个字段、哪个人;输出进入草稿区,还是进入正式记录;失败后谁接手。
权限、红队和日志要落到工作流
权限设计要做到字段级。同样是 EHR,“读取既往诊断”和“读取精神心理记录”风险不同;“生成出院小结草稿”和“提交正式出院小结”也不是同一种动作。最小权限、分角色授权、环境隔离、敏感字段脱敏、工具调用白名单,听起来普通,却决定事故发生时能不能快速收住。

图2:Agent 工具调用流程——请求工具、权限校验、风险分层、人工确认、写入或拒绝、记录审计日志
red-team 也不能只测提示词越狱。医疗 Agent 的红队用例要覆盖错误患者、过期知识、提示注入、越权调用、证据断裂、转人工失败。近期被讨论的 HAARF(可理解为面向 Healthcare AI Agent 的风险框架提案或预印本信号)把 red-team、风险分层、中间件治理和责任边界放到一起讨论。它还不是确定法规结论,但已经提醒产品团队:上线材料要经得起审计,不能只给性能截图。
最小审计记录可以长这样:
{
"task_id": "med-agent-2026-001",
"actor": "agent_v0.9",
"patient_scope": "de_id_case_023",
"tool": ["ehr_read", "drug_kb_search"],
"permission": "read_only,draft_alert",
"input_scope": {
"ehr_fields": ["medication_history", "allergy"],
"time_range": "last_12_months"
},
"source_id": ["EHR_NOTE:2026-05-01", "PMID:xxxx"],
"output": {
"type": "draft_alert",
"claim": "possible drug interaction, needs review"
},
"decision": "pending_human_review",
"human_reviewer": "attending_physician",
"override": null,
"timestamp": "2026-05-17T10:30:00Z"
}
这类日志不能替代责任划分,也不能消除医疗风险。它的用途很具体:出事后能定位 Agent 看了什么、调用了什么、输出了什么、谁接手、哪里被拒绝。
文献入口也要可追溯
医疗 Agent 常被要求接入药物安全、指南、临床试验和影像研究。这里最容易出现“看似有出处”的证据拼接:成人研究被塞进青少年问题,糖尿病队列被拿来回答减重问题,动物实验被混进临床建议。
例如“GLP-1 药物和青少年减重安全性”这个问题,合格的研究入口应先拆任务:人群限定 adolescents;干预限定 semaglutide、liraglutide 等 GLP-1 receptor agonists;结局包含 BMI、胃肠道不良事件、停药率、心理相关不良事件;文献类型优先 RCT、系统评价、真实世界研究;排除成人肥胖研究、成人糖尿病队列、动物实验。随后导出候选文献池,标注纳入理由、排除理由、PMID/DOI、研究设计和样本量。
在这个节点,可以把 超能文献 放进工作流:用中文问题检索 PubMed/OpenAlex,并整理可追溯的候选文献,适合做文献检索、翻译和研究审计入口。它不提供医疗服务,也不能替代医生判断或临床决策。

图3:红队清单图——错误患者、过期知识、越权写入、证据缺失、转人工失败
回到开头那场评审,矛盾并不在病历摘要写得是否流畅,而在写回状态没有交代清楚:草稿如何变成正式记录,正式记录如何撤回,撤回后通知谁,失败任务进入哪个队列,超时后由谁接管。Agent 越会调用工具,医院越会追问停止键在哪里。
下一步先别加演示动画。做 50 条模拟审计集,覆盖错误患者、过期指南、药物相互作用误报、越权写入、人工接管失败;同时画出 EHR 写回状态机,列出每个字段的读写权限、二次签名规则、回滚路径和日志留存周期。交清这些材料,医疗 Agent 才能进入医院工作流的下一轮评审。