深度研究(Deep Research)与规划-执行(Plan-and-Execute)机制详解

719 阅读4分钟

引言

在多步骤任务逐渐成为大模型落地主流场景的背景下,业界相继提出了两条技术路径:深度研究规划-执行。前者聚焦于“自动化研读-综合-成文”,后者强调“先全局规划、再模块化执行”。本文面向普通 AI 爱好者,用精炼语言梳理二者的实现原理、系统架构与应用边界,并给出权威参考来源。


1 概念速览

机制目标典型平台核心特点
深度研究像研究员一样在公网收集、分析并生成引用完备的长篇报告OpenAI ChatGPT Deep Research、Google Gemini Deep Research长时运行、可插入浏览器与 Python 工具、生成结构化报告
规划-执行将“思考-规划”与“行动-工具调用”解耦,提高多步任务效率LangChain PlanAndExecute、Adept (BabyAGI) 等先用大模型输出完整任务清单,再用轻量工具/子模型并行或串行执行

2 深度研究机制

2.1 OpenAI Deep Research

  • 定位:ChatGPT 中新增的独立模式,专为复杂知识工作设计,可在 5–30 分钟内完成多步骤网络调研并输出带引用的专业报告。[1]
  • 模型:基于即将发布的 o3 reasoning model 专向微调,具备阅读网页、图片、PDF 的多模态能力。[2]
  • 使用限制:Plus/Team/Enterprise/Edu 每月 25 次,Pro 250 次;达到上限后自动切换到更经济的 o4-mini 轻量版本。[2]

2.2 Google Gemini Deep Research

  • 演进:2024 年底首发时采用 Gemini 1.5 Pro,现已升级至 Gemini 2.5,在规划、检索与报告环节全面提质。[3]

  • 技术亮点

    1. 异步任务调度:支持用户中断后自动恢复,单点失败可局部重跑。[3]
    2. 超长上下文:1 百万 token 窗口结合 RAG 索引,确保长周期推理不丢信息。[3]

2.3 系统架构与训练范式

  1. 端到端 RLHF:在真实浏览+Python 任务上训练,让模型学会生成多步轨迹并动态重规划。[2]
  2. 迭代式规划器:先产出草案计划供用户审核,再并行执行子任务;新发现可回写规划器形成闭环。[3]
  3. 分布式执行层:浏览器、向量检索、可视化组件均以微服务方式异步协同,支持分钟级长任务与失败重试。[3]

3 规划-执行机制

3.1 核心思想

  • Planner:大型 LLM 一次性输出有序任务列表。
  • Executor:读取列表,按步调用搜索、代码、数据库等工具;若检测到偏差,可触发再规划。该架构减少昂贵 LLM 调用次数,提升吞吐与成本效率。[4]

3.2 LangChain 实现示例

python
复制编辑
from langchain_experimental.plan_and_execute import load_chat_planner, load_agent_executor, PlanAndExecute
planner   = load_chat_planner(llm_big)
executor  = load_agent_executor(llm_small, tools, verbose=True)
agent     = PlanAndExecute(planner=planner, executor=executor)

LangChain 在 Python/JS 均提供同名模块,封装回调、内存与重规划逻辑,让开发者开箱即用。[5]

3.3 高阶变体

方案关键改进效果
ReWOOPlanner 可给变量赋值,Executor 复用前步结果,降低重复推理Token 消耗 ↓5×,HotpotQA 准确率 ↑4 pp arXiv
LLMCompilerPlanner 输出 DAG,调度器并行执行无依赖任务延迟 ↓3.6×,同时节省成本 GitHub

4 两种机制差异对照

维度深度研究规划-执行
侧重点信息密集型检索与综合高效工具编排与流程控制
上下文规模10^6 token(Gemini)依规划粒度而定,通常短上下文
模型调用同一大模型多次推理 + 工具大模型规划 1 次 + 轻量模型/工具多次
运行时5–30 min,可后台执行秒级-数十秒,实时反馈
典型场景市场/科研调研、法律梳理自动表单填写、网页操作、数据管道

5 选型建议

  • 需要精确引用、信息跨度大的调研 → 选 深度研究。等待时间可接受,报告质量与可验证性优先。
  • 拆解清晰、以 API/脚本为主的多步骤自动化 → 选 规划-执行;通过轻量模型并行执行可大幅降低延迟和成本。
  • 混合场景:先用规划-执行获取结构化数据,再交给深度研究生成长篇洞察,也是常见组合模式。

结语

深度研究与规划-执行分别代表“信息综合型”与“流程执行型”两条智能体路线,解决的痛点不同、工程权衡也不同。理解其原理与局限,才能在实际项目中精准落位、发挥所长。


参考来源