Agent 出问题时,只看几条轨迹已经不够了,你得会看“整片尸检报告”!

1 阅读6分钟

论文:Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents 原文:arxiv.org/abs/2605.21… 一句话先看懂:这篇论文做的不是更强 agent,而是更强的 agent 诊断系统,重点是从一大堆轨迹里自动找系统性问题。

做 agent 的人都知道,debug 这件事很容易把人磨疯。

你看一条轨迹,觉得是工具调用错了。再看一条,又像是记忆没接上。看着看着,你会发现自己根本不是在做系统诊断,而是在靠感觉抓典型样本。

Insights Generator 这篇论文,干的就是把这种“人工看几条轨迹拍脑袋”的诊断方式,往系统化推进。

论文速读

这篇 paper 不是那种又造了一个更强 agent 的论文,它更像 agent 时代的观测与诊断论文,重点不在执行,而在看清执行。

开头先指出一个行业里很真实的问题,大家现在调 agent,还是在抽样看几条轨迹,然后靠经验猜问题在哪。这个方法在 demo 阶段还能撑一撑,一到 production,轨迹量上来,人就会很快被日志淹没。

所以论文中段先定义了一个新任务,叫 corpus-level trace diagnostics。别再盯单条 trace,而是让系统回答,一整批轨迹共同在暴露什么问题。这个问题一换,诊断就从人工翻日志,变成了模式发现和证据归纳。

再往后就是方法本体。作者用 scout 去扫模式,用 investigator 去验假设,最后把证据链拼成一份报告。后面的实验也不是只看报告写得漂不漂亮,而是继续追问,这些报告到底能不能帮助人类和 agent 把系统改好。

所以它最后落下来的结论很务实,没有这种群体级诊断层,production 里的 agent 轨迹根本消化不完。你不是缺日志,你是缺把日志变成结构化洞察的那一层。

它到底在解决什么问题

agent 失败诊断现在有个很大的现实问题,不是没数据,而是数据太多。

生产环境里,一条执行轨迹动不动就上万 token。你人工抽几条看,当然能看到一些问题,但很多真正有价值的模式,只有放到轨迹群体里才会显形。单条轨迹告诉你的,往往只是一次事故长什么样,告诉不了你这是不是一种反复发生的系统性毛病。

这也是为什么很多团队 debug agent 会越调越乱。今天觉得是工具调用错了,明天又觉得是记忆没接上,后天怀疑 prompt 漏了约束。看起来每次都抓到了一个具体问题,实际上并没有建立对失败分布的整体认识。

所以这篇论文抓住的不是单次失败,而是“整批失败是不是反复在同一类地方栽跟头”。这个视角一换,问题级别就变了。你不是在看个案,你是在找模式;不是在做 case study,而是在做系统诊断。

这件事对 agent 工程特别关键,因为 agent 规模一上来,真正值钱的从来不是看到一条日志,而是能不能从一堆日志里快速提炼出下一轮改系统最该改哪几件事。


它的方法,为什么值得看

作者把这个问题定义成 corpus-level trace diagnostics,这个定义本身就很重要,因为它把诊断对象从单条轨迹,换成了一整个轨迹语料。

输入不再是一条失败过程,输出也不只是“这里可能有 bug”这种模糊猜测,而是带证据支撑的自然语言诊断结论。它用的是一个多智能体结构,有 scout 去扫模式,有 investigator 去验证假设,最后生成一份带证据链的 insights report。

我觉得这套东西最妙的地方,不是多智能体这四个字本身,而是它终于承认,agent 诊断这件事本来就不该靠人肉翻日志。它更像一次系统尸检,需要聚类、假设、证据和结论,缺一层都很容易掉进拍脑袋。

而且它不是把报告写出来就算完。论文后面的评估继续追问,这些 insight 到底有没有可操作性,能不能指导 scaffold 修改,能不能让后续 agent 也受益。这样一来,诊断系统就不只是看上去聪明,而是真正进入工程闭环。

这就是为什么这篇 paper 值得看。它讨论的不是又一个花哨 agent,而是 agent 工程最容易被忽略、但迟早要补齐的一块地基。


对开发者和企业来说,这意味着什么

论文里提到,人类专家基于这些报告去改 scaffold,性能能拉高 30.4 个百分点左右,编码 agent 用这些 insights 也有稳定收益。这说明它不是只会写一份好看的分析报告,而是真能推动后续系统修正。

对开发者来说,这个启发非常现实。以后做 agent,光有 trace 不够,你还得有 trace intelligence。否则日志越多,只会让人越麻,最后团队花大量时间在看材料,却没有形成真正能指导改动的结论。

对平台侧来说,这篇论文其实也在提醒一个方向,观测层不能只停在埋点和回放。你还需要聚类、版本比对、失败模式归纳、证据回链这些能力。能不能把海量轨迹压成少量高价值洞察,会直接决定你的调试速度。

对企业来说,这件事尤其重要。因为一旦 agent 真上规模,问题不再是会不会偶尔错,而是出了系统性问题你能不能尽快定位并修正。谁能更快把失败模式变成结构化改进,谁迭代速度就更快。

所以我会把 Insights Generator 看成 agent 工程开始成熟的一个信号。大家终于不只在卷能力,也开始卷诊断和观测。后面这条路继续往下走,trace store、故障聚类、自动修复建议这些更完整的平台层能力,都会慢慢长出来。

如果你觉得多模型切换Q、工具订阅的流程太繁琐,也可以试试我们的「胜算云」平台,一站式搞定AI创作与开发相关需求。官网:www.shengsuanyun.com/?from=CH_5V…