引言
在多步骤任务逐渐成为大模型落地主流场景的背景下,业界相继提出了两条技术路径:深度研究与规划-执行。前者聚焦于“自动化研读-综合-成文”,后者强调“先全局规划、再模块化执行”。本文面向普通 AI 爱好者,用精炼语言梳理二者的实现原理、系统架构与应用边界,并给出权威参考来源。
1 概念速览
| 机制 | 目标 | 典型平台 | 核心特点 |
|---|---|---|---|
| 深度研究 | 像研究员一样在公网收集、分析并生成引用完备的长篇报告 | OpenAI ChatGPT Deep Research、Google Gemini Deep Research | 长时运行、可插入浏览器与 Python 工具、生成结构化报告 |
| 规划-执行 | 将“思考-规划”与“行动-工具调用”解耦,提高多步任务效率 | LangChain PlanAndExecute、Adept (BabyAGI) 等 | 先用大模型输出完整任务清单,再用轻量工具/子模型并行或串行执行 |
2 深度研究机制
2.1 OpenAI Deep Research
- 定位:ChatGPT 中新增的独立模式,专为复杂知识工作设计,可在 5–30 分钟内完成多步骤网络调研并输出带引用的专业报告。[1]
- 模型:基于即将发布的 o3 reasoning model 专向微调,具备阅读网页、图片、PDF 的多模态能力。[2]
- 使用限制:Plus/Team/Enterprise/Edu 每月 25 次,Pro 250 次;达到上限后自动切换到更经济的 o4-mini 轻量版本。[2]
2.2 Google Gemini Deep Research
-
演进:2024 年底首发时采用 Gemini 1.5 Pro,现已升级至 Gemini 2.5,在规划、检索与报告环节全面提质。[3]
-
技术亮点
2.3 系统架构与训练范式
- 端到端 RLHF:在真实浏览+Python 任务上训练,让模型学会生成多步轨迹并动态重规划。[2]
- 迭代式规划器:先产出草案计划供用户审核,再并行执行子任务;新发现可回写规划器形成闭环。[3]
- 分布式执行层:浏览器、向量检索、可视化组件均以微服务方式异步协同,支持分钟级长任务与失败重试。[3]
3 规划-执行机制
3.1 核心思想
- Planner:大型 LLM 一次性输出有序任务列表。
- Executor:读取列表,按步调用搜索、代码、数据库等工具;若检测到偏差,可触发再规划。该架构减少昂贵 LLM 调用次数,提升吞吐与成本效率。[4]
3.2 LangChain 实现示例
python
复制编辑
from langchain_experimental.plan_and_execute import load_chat_planner, load_agent_executor, PlanAndExecute
planner = load_chat_planner(llm_big)
executor = load_agent_executor(llm_small, tools, verbose=True)
agent = PlanAndExecute(planner=planner, executor=executor)
LangChain 在 Python/JS 均提供同名模块,封装回调、内存与重规划逻辑,让开发者开箱即用。[5]
3.3 高阶变体
| 方案 | 关键改进 | 效果 |
|---|---|---|
| ReWOO | Planner 可给变量赋值,Executor 复用前步结果,降低重复推理 | Token 消耗 ↓5×,HotpotQA 准确率 ↑4 pp arXiv |
| LLMCompiler | Planner 输出 DAG,调度器并行执行无依赖任务 | 延迟 ↓3.6×,同时节省成本 GitHub |
4 两种机制差异对照
| 维度 | 深度研究 | 规划-执行 |
|---|---|---|
| 侧重点 | 信息密集型检索与综合 | 高效工具编排与流程控制 |
| 上下文规模 | 10^6 token(Gemini) | 依规划粒度而定,通常短上下文 |
| 模型调用 | 同一大模型多次推理 + 工具 | 大模型规划 1 次 + 轻量模型/工具多次 |
| 运行时 | 5–30 min,可后台执行 | 秒级-数十秒,实时反馈 |
| 典型场景 | 市场/科研调研、法律梳理 | 自动表单填写、网页操作、数据管道 |
5 选型建议
- 需要精确引用、信息跨度大的调研 → 选 深度研究。等待时间可接受,报告质量与可验证性优先。
- 拆解清晰、以 API/脚本为主的多步骤自动化 → 选 规划-执行;通过轻量模型并行执行可大幅降低延迟和成本。
- 混合场景:先用规划-执行获取结构化数据,再交给深度研究生成长篇洞察,也是常见组合模式。
结语
深度研究与规划-执行分别代表“信息综合型”与“流程执行型”两条智能体路线,解决的痛点不同、工程权衡也不同。理解其原理与局限,才能在实际项目中精准落位、发挥所长。
参考来源
- [1] OpenAI Deep Research FAQ OpenAI 帮助中心
- [2] OpenAI “Introducing Deep Research” OpenAI
- [3] Google Gemini Deep Research Gemini
- [4] LangChain Plan-and-Execute Blog LangChain Blog
- [5] LangChain PlanAndExecute Docs LangChain
- [6] ReWOO 论文 arXiv
- [7] LLMCompiler 项目