在 Agent 能力快速膨胀的今天,一个残酷现实正在浮现:很多“研究型 Agent”其实只是高级幻觉生成器——它们能写出结构漂亮的报告,却从未真正验证过任何一个事实。
2025 年 12 月,Google 开源的 DeepSearchQA 直指这一痛点,提出了一套全新的评估哲学:不看答案是否华丽,而看思考是否可信。
本文将从工程视角,深度解析 DeepSearchQA 的设计逻辑、任务结构与评估挑战,并探讨它对下一代 Agent 架构的启示。
一、传统评测为何失效?
主流多跳问答数据集(如 HotpotQA)假设“问题 → 答案”是线性映射。但真实研究场景是非线性的探索过程:
- 需先确认基础事实是否存在;
- 再对比历史或竞品;
- 然后归因分析;
- 最后推演影响。
如果 Agent 跳过第一步直接归因,即使结论碰巧正确,其过程不可信、不可复现、不可干预——这在金融、医疗等高风险领域是致命的。
DeepSearchQA 的核心突破,正是通过问题设计编码“隐式因果链”,迫使 Agent 展现真实研究能力。
二、“隐式因果链”如何工作?
以 DSQA 中一个典型任务为例:
用户问题:根据 CDC 和 World Population Review 数据,哪些州在 2022 年凶杀死亡人数少于 1000 人,且包含 2020 年人口超百万的城市?
要答对此题,Agent 必须完成:
- 从 CDC 获取各州 2022 凶杀死亡数;
- 从 World Population Review 获取 2020 城市人口;
- 交叉筛选同时满足两个条件的州。
任何跳步(如假设某州符合条件)都极可能导致错误。然而,DSQA 并不显式列出这些步骤,也不在评估时检查执行顺序——它只看最终答案是否为 "Arizona, New York"。
🔍 关键洞见:
DSQA 通过“问题复杂度”间接评估过程可靠性。只有具备多工具协同、中间验证、上下文保留能力的 Agent,才能稳定答对。
三、DSQA 的真实评估维度
| 维度 | 说明 | 技术挑战 |
|---|---|---|
| 答案完整性 | Set Answer 是否完全匹配(忽略顺序) | 需精确实体抽取与标准化 |
| 单值准确性 | Single Answer 是否严格一致 | 需消除 LLM 幻觉 |
| 隐式多跳能力 | 能否完成问题所需的多源交叉验证 | 需可靠工具调用与状态管理 |
💡 注意:DSQA 官方评估不依赖执行日志或子问题覆盖,仅比对最终输出与标准答案。
四、对工程架构的启示
尽管 DSQA 不强制过程审计,但高分 Agent 往往具备以下能力:
- 多工具协同:无缝调用不同 API(如 CDC + WPR);
- 中间结果缓存:避免重复搜索,支持回溯;
- 引用溯源:为每个实体绑定来源(便于调试);
- 结构化输出:确保答案可被自动解析为 Set/Single。
这推动 Agent 架构从 “Prompt + LLM” 向 “状态机 + 工具链 + 可观测性” 演进——即使评估不看过程,过程能力仍是得分的关键。
五、一点实践思考
受 DSQA 启发,我也在探索如何构建支持深度研究的 Agent 基础设施。在开源项目 Deep Research Agent 中,我尝试基于 LangGraph 实现:
- 多步 plan-search-reflect 循环;
- 细粒度引用生成;
- Human-in-the-Loop 干预。
目前项目仍在重构中(feat/multi-agent-v1 分支),尚未集成 DSQA 评估模块,但已预留中间件扩展点。欢迎关注,未来计划贡献一套轻量级 DSQA 评估工具链。
🔗 GitHub: github.com/changflow/d…
结语
DeepSearchQA 不仅是一个 benchmark,更是一面镜子——照出哪些 Agent 是“真研究”,哪些只是“高级复读机”。作为工程师,我们应当构建即使不被审计也值得信赖的系统,让 AI 真正成为可靠的研究协作者。