智能体设计模式-CH17：推理技术（Reasoning Techniques）现代人工智能正从被动工具演进为能够通过结构

英文原地址：Chapter 17: Reasoning Techniques

本章深入探讨智能体的高级推理方法，重点关注多步逻辑推断与问题求解。这些技术超越了简单的顺序操作，使智能体的内部推理变得显性化。由此，智能体能够拆解问题、考虑中间步骤，并达成更稳健、准确的结论。此类高级方法的核心原则之一是在推理过程中分配更多的计算资源。这意味着赋予智能体或底层的 LLM 更多处理时间或步骤来处理查询并生成响应。智能体不再是快速的一次性处理，而是可以进行迭代优化、探索多条解题路径，或调用外部工具。推理阶段延长的处理时间往往能显著提升准确性、一致性与稳健性，尤其在需要更深入分析与权衡的复杂问题上效果显著。

实际应用与使用场景

复杂问答： 支持多跳查询的解决，需要整合多元数据源并执行逻辑推断，可能涉及审视多条推理路径，并凭借更长的推理时间来综合信息。
数学问题求解： 将数学问题拆分为更小、可解的组件，展示逐步过程，并通过代码执行实现精确计算；延长推理时间有助于生成与校验更复杂的代码。
代码调试与生成： 支持智能体解释其生成或修正代码的理由，按序定位潜在问题，并基于测试结果进行迭代优化（自我纠错），利用更长的推理时间完成更彻底的调试周期。
战略规划： 通过权衡多种选项、后果与前提条件来辅助制定完整方案，并基于实时反馈进行调整（ReAct）；更长的审慎思考可带来更有效、更可靠的计划。
医疗诊断： 帮助智能体系统性评估症状、检验结果与病史以达成诊断，在各阶段阐明其推理，并可使用外部工具进行数据检索（ReAct）。增加推理时间有助于更全面的鉴别诊断。
法律分析： 支持对法律文件与判例的分析以构建论点或提供指导，细致说明逻辑步骤，并通过自我纠错确保逻辑一致。增加推理时间可开展更深入的法律检索与论证构建。

推理技术

首先，让我们深入探讨用于增强 AI 模型问题解决能力的核心推理技术。

**Chain-of-Thought（CoT，思维链）**提示通过模拟逐步思考过程（见图 1），显著增强了 LLMs 的复杂推理能力。CoT 提示并非直接给出答案，而是引导模型生成一系列中间推理步骤。这种显式拆解让 LLMs 可以将复杂问题分解为更小、更易处理的子问题。该技术显著提升了模型在需要多步推理的任务（如算术、常识推理与符号操作）上的表现。CoT 的主要优势在于，它能将困难的单步问题转化为一连串更简单的步骤，从而提升 LLM 推理过程的透明度。这种方法不仅提高准确性，还为理解模型的决策过程提供有价值的洞见，便于调试与理解。CoT 可通过多种策略实现，包括提供展示逐步推理的 few-shot 示例，或仅仅指示模型“逐步思考”。其有效性源于它能引导模型的内部处理朝向更审慎、逻辑性的推进。因此，Chain-of-Thought 已成为当代 LLMs 中实现高级推理能力的基石技术。将复杂问题拆解为可管理子问题所带来的透明度增强，对自主智能体尤为重要，因为这使它们能够在复杂环境中执行更可靠、可审计的行动。

图 1：CoT 提示与智能体生成的详细、逐步响应并列展示。

让我们看一个示例。它以一组指令开头，这些指令告诉 AI 如何思考，定义其角色，并给出一个清晰的五步流程可遵循。这是启动结构化思考的提示。

接下来，示例展示了 CoT 过程的实际运作。标记为“Agent's Thought Process”的部分是模型执行所受指令步骤的内部独白。这就是字面意义上的“思维链”。最后，“Agent's Final Answer”是由这种谨慎、逐步推理过程产出的精炼、完整的结果。

You are an Information Retrieval Agent. Your goal is to answer the user's question comprehensively and accurately by thinking step-by-step.

Here's the process you must follow:

1.  **Analyze the Query:** Understand the core subject and specific requirements of the user's question. Identify key entities, keywords, and the type of information being sought.
2.  **Formulate Search Queries (for Knowledge Base):** Based on your analysis, generate a list of precise search queries that you would use to retrieve relevant information from a knowledge base or external tools.
3.  **Simulate Information Retrieval (Self-Correction/Reasoning):** For each search query, mentally consider what kind of information you expect to find. If you were to retrieve the content, what would be the most relevant snippets? Think about potential ambiguities or missing pieces.
4.  **Synthesize Information:** Based on the simulated retrieval and your understanding of the user's original query, synthesize the gathered information into a coherent and complete answer. Ensure all aspects of the query are addressed.
5.  **Review and Refine:** Before finalizing, critically evaluate your answer. Is it accurate? Is it comprehensive? Is it easy to understand? Is it concise? If not, identify what needs to be improved and how.

**User Query:** "Explain the main differences between classical computers and quantum computers, and briefly describe a potential application of quantum computing."

**Agent's Thought Process (Internal CoT Output - encouraged by the prompt):**

**Thought 1 (Analyze Query):**
The user wants two things:
1.  Main differences between classical and quantum computers.
2.  One potential application of quantum computing.
Keywords: classical computers, quantum computers, differences, potential application.

**Thought 2 (Formulate Search Queries):**
- "differences classical vs quantum computers"
- "how quantum computers work"
- "how classical computers work"
- "applications of quantum computing"

**Thought 3 (Simulate Information Retrieval & Identify Key Concepts):**
- From "differences": Expect concepts like bits vs. qubits, superposition, entanglement, probabilistic nature, computational power for specific problems.
- From "how they work": Classical uses transistors/binary. Quantum uses quantum mechanics.
- From "applications": Expect drug discovery, material science, cryptography, optimization.

**Thought 4 (Synthesize Information):**
Classical computers use bits (0 or 1), processing information sequentially. Quantum computers use qubits, which can be 0, 1, or both simultaneously (superposition), and can be entangled, allowing for vastly different computational approaches. This enables them to solve certain problems (like factoring large numbers or simulating complex molecules) far more efficiently than classical computers. A potential application is in drug discovery, where quantum computers could simulate molecular interactions with unprecedented accuracy, accelerating the development of new medicines.

**Thought 5 (Review and Refine):**
- Differences are covered (bits vs qubits, superposition, entanglement, processing).
- Application is given (drug discovery).
- Is it brief? Yes.
- Is it clear? Yes.
- Looks good.

**Agent's Final Answer (Output to User):**

Classical computers process information using bits, which can be either a 0 or a 1 at any given time, performing operations sequentially. In contrast, quantum computers utilize qubits, which can exist in multiple states simultaneously through superposition and can be linked through entanglement, allowing for exponentially more complex computations. This fundamental difference enables quantum machines to tackle certain problems, such as simulating molecular structures or breaking complex encryption, that are intractable for even the most powerful classical supercomputers. A significant potential application of quantum computing lies in drug discovery, where its ability to precisely model molecular behavior could revolutionize the development of new pharmaceuticals.

**Tree-of-Thought（ToT，思维树）**是一种在 Chain-of-Thought（CoT）基础上构建的推理技术。它允许大型语言模型通过分叉进入不同的中间步骤来探索多条推理路径，形成树状结构（见图 2）。这种方法通过支持回溯、自我纠错以及替代方案的探索，来支撑复杂问题求解。维持一个可能性的树，使模型能在最终作答前评估多种推理轨迹。这一迭代过程增强了模型处理需要战略规划与决策的挑战性任务的能力。

图 2：思维树示例 unknown 2.png

**自我纠错（亦称自我精炼）**是智能体推理过程中的关键环节，尤其是在 Chain-of-Thought 提示中。它涉及智能体对自身生成内容与中间思考过程的内部评估。此类批判性审视使智能体能识别其理解或解答中的模糊点、信息缺口或不准确之处。通过这一反复的审查与精炼循环，智能体可以调整方法、提升响应质量，并在给出最终输出前确保准确与全面。此种内部批判增强了智能体产出可靠且高质量结果的能力，这在专章第 4 章中的示例有所展示。

该示例展示了自我纠错的系统化流程，这对于精炼 AI 生成内容至关重要。它包含起草、对照原始需求进行审查以及落实具体改进的迭代循环。示例首先将 AI 定位为“Self-Correction Agent”，并规定一个包含五个步骤的分析与修订工作流。随后呈现一份质量欠佳的社交媒体帖“Initial Draft”。“Self-Correction Agent's Thought Process”构成演示的核心。在此，智能体依照其指令对草稿进行批判性评估，指出参与度低、号召性用语模糊等弱点。然后提出具体改进建议，包括使用更有冲击力的动词与表情符号。流程最终以“Final Revised Content”收尾，即一份融合了自我识别调整后的精炼、显著改进版本。

You are a highly critical and detail-oriented Self-Correction Agent. Your task is to review a previously generated piece of content against its original requirements and identify areas for improvement. Your goal is to refine the content to be more accurate, comprehensive, engaging, and aligned with the prompt.

Here's the process you must follow for self-correction:

1.  **Understand Original Requirements:** Review the initial prompt/requirements that led to the content's creation. What was the *original intent*? What were the key constraints or goals?
2.  **Analyze Current Content:** Read the provided content carefully.
3.  **Identify Discrepancies/Weaknesses:** Compare the current content against the original requirements. Look for:
   * **Accuracy Issues:** Are there any factual errors or misleading statements?
   * **Completeness Gaps:** Does it fully address all aspects of the original prompt? Is anything missing?
   * **Clarity & Coherence:** Is the language clear, concise, and easy to understand? Does it flow logically?
   * **Tone & Style:** Does it match the desired tone and style (e.g., professional, engaging, concise)?
   * **Engagement:** Is it captivating? Does it hold the reader's attention?
   * **Redundancy/Verbosity:** Can any parts be condensed or removed without losing meaning?
4.  **Propose Specific Improvements:** For each identified weakness, suggest concrete and actionable changes. Do not just state the problem; propose a solution.
5.  **Generate Revised Content:** Based on your proposed improvements, rewrite the original content to incorporate all the necessary changes. Ensure the revised content is polished and ready for final use.

**Original Prompt/Requirements:** "Write a short, engaging social media post (max 150 characters) announcing a new eco-friendly product line: 'GreenTech Gadgets'."

**Initial Draft (Content to be corrected):**

"We have new products. They are green and techy. Buy GreenTech Gadgets now!"

**Self-Correction Agent's Thought Process (Internal CoT Output - encouraged by the prompt):**

**Thought 1 (Understand Original Requirements):**
- Short, engaging social media post.
- Max 150 characters.
- Announce "GreenTech Gadgets" - a new eco-friendly product line.

**Thought 2 (Analyze Current Content):**
"We have new products. They are green and techy. Buy GreenTech Gadgets now!" (64 characters)

**Thought 3 (Identify Discrepancies/Weaknesses):**
- **Engaging:** Not very engaging. Sounds generic.
- **Eco-friendly:** Implied by "green," but not explicitly highlighted as a benefit.
- **Call to Action:** "Buy now!" is okay, but could be more compelling.
- **Conciseness:** It's short, but could use stronger verbs/phrasing.
- **Impact:** Lacks excitement for a new product launch.

**Thought 4 (Propose Specific Improvements):**
- Make it more dynamic and exciting.
- Emphasize "eco-friendly" and "innovation."
- Use stronger verbs and more active voice.
- Add a clear, engaging call to action.
- Ensure it stays under 150 characters.

**Thought 5 (Generate Revised Content):**
Original: "We have new products. They are green and techy. Buy GreenTech Gadgets now!"
Revised idea 1: "🌱 Discover GreenTech Gadgets! Our new eco-friendly line blends innovation with sustainability. Go green, go smart! Shop now! #EcoFriendly #GreenTech" (148 characters)
This revision directly addresses eco-friendliness, uses emojis for engagement, adds a stronger call to action, and includes relevant hashtags while staying within the character limit.

**Self-Correction Agent's Final Revised Content (Output to User):**

🌱 Discover GreenTech Gadgets! Our new eco-friendly line blends innovation with sustainability. Go green, go smart! Shop now! #EcoFriendly #GreenTech

从根本上说，这项技术将质量控制措施直接融入智能体的内容生成之中，从而产出更精致、准确、优质的结果，更有效地满足复杂的用户需求。

**Program-Aided Language Models（PALMs，程序辅助语言模型）**将 LLMs 与符号推理能力相结合。此种集成允许 LLM 在其问题求解过程中生成并执行代码（如 Python）。PALMs 将复杂计算、逻辑操作与数据处理卸载到确定性的编程环境中。在 LLMs 可能在准确性或一致性上存在局限的任务中，这种方法利用传统编程的优势。当面对符号类挑战时，模型可以生成代码、执行代码，并将结果转化为自然语言。这种混合方法将 LLM 的理解与生成能力与精确计算结合，使模型能以潜在更高的可靠性与准确性处理更广泛的复杂问题。对智能体而言，这很重要，因为它使其能够在理解与生成能力的同时，借助精确计算来执行更准确、更可靠的行动。一个例子是在 Google 的 ADK 中使用外部工具生成代码。

from google.adk.tools import agent_tool
from google.adk.agents import Agent
from google.adk.tools import google_search
from google.adk.code_executors import BuiltInCodeExecutor

search_agent = Agent(
   model='gemini-2.0-flash',
   name='SearchAgent',
   instruction="""
   You're a specialist in Google Search
   """,
   tools=[google_search],
)
coding_agent = Agent(
   model='gemini-2.0-flash',
   name='CodeAgent',
   instruction="""
   You're a specialist in Code Execution
   """,
   code_executor=[BuiltInCodeExecutor],
)
root_agent = Agent(
   name="RootAgent",
   model="gemini-2.0-flash",
   description="Root Agent",
   tools=[agent_tool.AgentTool(agent=search_agent), agent_tool.AgentTool(agent=coding_agent)],
)

Reinforcement Learning with Verifiable Rewards（RLVR，可验证奖励的强化学习）： 尽管有效，许多 LLMs 使用的标准 Chain-of-Thought（CoT）提示在推理上仍较为基础。它仅生成单一、预设的思考路径，无法适应问题复杂度。为克服这些限制，一类新的专用“推理模型”被开发出来。这些模型的运作方式不同：它们在给出答案前会投入可变数量的“思考”时间。这一“思考”过程会产生更长、更动态的思维链，长度可达数千个 token。延展的推理允许更复杂的行为，如自我纠错与回溯，并在更难的问题上投入更多努力。支撑这些模型的关键创新是一种称为 Reinforcement Learning from Verifiable Rewards（RLVR，可验证奖励强化学习）的训练策略。通过在有已知正确答案（如数学或代码）的问题上训练，模型通过试错学习生成有效的长篇推理。这使模型无需直接的人类监督即可进化其问题求解能力。最终，这些推理模型不仅给出答案，还会生成展示规划、监控与评估等高级技能的“推理轨迹”。这种增强的推理与策略能力对于自主智能体的发展至关重要，它们能以最少的人类干预来分解并解决复杂任务。

ReAct（Reasoning and Acting，推理与行动，见图 3，其中 KB 代表知识库）是一种将 Chain-of-Thought（CoT）提示与智能体通过工具与外部环境交互的能力相结合的范式。不同于直接生成最终答案的生成式模型，ReAct 智能体会先推理应采取哪些行动。该推理阶段包含类似于 CoT 的内部规划过程，智能体会确定下一步、考虑可用工具并预判结果。随后，智能体通过执行工具或函数调用来行动，例如查询数据库、执行计算，或与 API 交互。

图 3：推理与行动 unknown 3.png

ReAct 以交织的方式运行：智能体执行一个动作，观察结果，并将该观察融入后续的推理中。这个“思考、行动、观察、思考……”的迭代循环使智能体能够动态调整计划、纠正错误，并实现那些需要与环境多次交互的目标。与线性的 CoT 相比，这种方法在智能体响应实时反馈时提供了更稳健、更灵活的解决问题方式。通过将语言模型的理解与生成能力与使用工具的能力相结合，ReAct 使智能体能够执行既需要推理又需要实际操作的复杂任务。这一方法对智能体至关重要，因为它不仅允许其进行推理，还能切实执行步骤并与动态环境交互。

**CoD（Chain of Debates）**是微软提出的一个正式 AI 框架，多个多样化的模型协作并进行辩论来解决问题，超越单一 AI 的“思维链”。该系统类似于一次 AI 委员会会议，不同模型提出初步想法、相互批判对方的推理并交换反驳。其主要目标是通过利用群体智能提升准确性、降低偏差并改善最终答案的整体质量。作为 AI 版的同行评审，这种方法为推理过程创建了透明且可信的记录。最终，它代表着一种转变：从单一智能体提供答案，转向多个智能体协作以找到更稳健、经过验证的解决方案。

**GoD（Graph of Debates）**是一种先进的智能体框架，将讨论重新构想为一个动态的、非线性的网络，而非简单的链式结构。在该模型中，论点是独立的节点，通过边连接以表示“支持”或“反驳”等关系，反映真实辩论的多线程本质。该结构允许新的探究方向动态分叉、独立演化，甚至随着时间融合。结论并非在序列末尾得出，而是通过在整个图中识别最稳健且支持最充分的论点簇来形成。在此语境中，“支持充分”指的是坚实且可验证的知识。这可以包括被视为 ground truth 的信息，即本质上正确且被广泛接受为事实的内容。此外，它还涵盖通过 search grounding 获得的事实证据，即将信息与外部来源和现实世界数据进行验证。最后，它也涉及多个模型在辩论中达成的一致，表明对所呈现信息具有高度一致性与信心。这种全面的方法确保所讨论信息拥有更稳固、更可靠的基础。这一方法为复杂、协作式的 AI 推理提供了更全面且更贴近现实的模型。

MASS（optional advanced topic）： 对多智能体系统设计的深入分析表明，其有效性在很大程度上取决于为单个智能体编写的提示质量以及决定其交互方式的拓扑结构。设计这些系统的复杂性巨大，因为它涉及庞大而精细的搜索空间。为应对这一挑战，提出了一种名为 Multi-Agent System Search（MASS）的新框架，用于自动化并优化 MAS 的设计

MASS 采用多阶段优化策略，通过交替进行提示与拓扑优化（见图 4），系统性地探索复杂的设计空间。

1. 模块级提示优化： 流程始于对单个智能体类型（或“模块”）提示的局部优化，以确保各组件在集成到更大系统之前能有效履行自身角色。此初始步骤至关重要，因为它确保后续的拓扑优化建立在性能良好的智能体之上，而不是承受配置不佳所带来的连锁影响。例如，在针对 HotpotQA 数据集进行优化时，“Debator” 智能体的提示被创造性地设定为“某大型出版物的专家事实核查员”。其优化后的任务是严谨审阅其他智能体提出的答案，将其与提供的上下文段落交叉核对，并识别任何不一致或缺乏依据的主张。此在模块级优化中发现的角色扮演式提示，旨在使 Debator 智能体在被置入更大工作流之前就能高效综合信息。

2. 工作流拓扑优化： 在完成局部优化后，MASS 通过从可定制的设计空间中选择并编排不同的智能体交互来优化工作流拓扑。为提高搜索效率，MASS 采用影响加权的方法。该方法通过测量每个拓扑相对于基线智能体的性能增益来计算其“增量影响”，并利用这些分数引导搜索朝更有前景的组合前进。例如，在针对 MBPP 编码任务进行优化时，拓扑搜索发现某种特定的混合工作流最为有效。最佳拓扑并非简单结构，而是将迭代优化过程与外部工具使用相结合。具体而言，它由一个预测器智能体进行多轮反思，其代码由一个执行器智能体通过针对测试用例运行代码来进行验证。该发现的工作流表明，对于编码任务，将迭代自我纠错与外部验证相结合的结构优于更简单的 MAS 设计。

图 4：Multi-Agent System Search（MASS）框架是一个三阶段的优化过程，探索包含可优化提示（指令与示例）以及可配置智能体构件（Aggregate、Reflect、Debate、Summarize 和 Tool-use）的搜索空间。第一阶段，模块级提示优化，独立地为每个智能体模块优化提示。第二阶段，工作流拓扑优化，从影响加权的设计空间中采样有效的系统配置，并整合优化后的提示。最后阶段，工作流级提示优化，在确定第二阶段的最优工作流后，对整个多智能体系统进行第二轮提示优化。 unknown 4.png

3. 工作流级提示优化： 最后阶段对整个系统的提示进行全局优化。在识别出性能最佳的拓扑后，将提示作为一个单一的、集成的整体进行微调，以确保其适配编排需求，并优化智能体之间的相互依赖关系。举例而言，在为 DROP 数据集找到最佳拓扑后，最终优化阶段进一步精炼“Predictor” 智能体的提示。最终的优化提示非常详尽，首先为智能体提供数据集本身的概述，指出其聚焦于“extractive question answering”和“numerical information”。随后包含少样本的正确问答示例，并将核心指令设定为一个高风险场景：“You are a highly specialized AI tasked with extracting critical numerical information for an urgent news report. A live broadcast is relying on your accuracy and speed”。这种融合元知识、示例与角色扮演的多层提示，针对最终工作流进行调优以最大化准确性。

关键发现与原则：实验表明，经 MASS 优化的 MAS 在多种任务上显著优于现有的人工设计系统和其他自动化设计方法。根据本研究得出的高效 MAS 设计关键原则有三点：

在组合之前，先用高质量提示优化单个智能体。
通过组合有影响力的拓扑结构来构建 MAS，而不是在不受约束的搜索空间中探索。
通过最终的工作流级联合优化，对智能体之间的相互依赖进行建模和优化。

基于我们对关键推理技术的讨论，先来考察一个核心性能原理：LLMs 的推理扩展定律（Scaling Inference Law）。该定律指出，随着分配给模型的计算资源增加，其性能会可预测地提升。我们可以在像 Deep Research 这样的复杂系统中看到这一原理的实际运作：智能体通过将主题拆解为子问题、将 Web 搜索作为工具并综合其发现，来自主地开展研究。

Deep Research： “Deep Research”一词描述了一类旨在充当不知疲倦、方法论严谨的研究助理的智能体工具。该领域的主要平台包括 Perplexity AI、Google 的 Gemini 研究能力，以及 OpenAI 在 ChatGPT 中的高级功能（见图 5）。

图 5：Google Deep Research 用于信息收集 unknown 5.png

这些工具带来的根本转变是搜索过程本身的改变。标准搜索会立即提供链接，将综合工作的任务留给你。Deep Research 采用不同的模式：你向 AI 提出一个复杂查询，并为其设定一个“时间预算”——通常为几分钟。作为耐心的回报，你会收到一份详细的报告。

在这段时间里，AI 以智能体的方式代表你工作。它自主执行一系列对人类来说极其耗时的复杂步骤：

初步探索：基于你的初始提示运行多次、针对性的搜索。
推理与精炼：阅读并分析第一轮结果，综合发现，并批判性地识别出空白、矛盾或需要更多细节的领域。
推理与精炼：阅读并分析第一轮结果，综合发现，并批判性地识别出空白、矛盾或需要更多细节的领域。
最终综合：经过数轮迭代搜索与推理后，将所有经验证的信息汇编成一份单一、连贯且结构化的摘要。

这种系统化的方法确保了全面而有据的回应，显著提升了信息收集的效率与深度，从而促进更加智能体的决策制定。

推理规模定律（Scaling Inference Law）

这一关键原则规定了 LLM 在推理（inference）这一运行阶段中，其性能与所分配计算资源之间的关系。Inference Scaling Law（推理规模定律）不同于更为人熟知的训练规模定律，后者关注的是在模型创建阶段，随着数据量与计算力的增加，模型质量如何提升。相反，推理规模定律专门考察的是当 LLM 实际生成输出或答案时所发生的动态权衡。

该定律的基石在于揭示：通过在推理时增加计算投入，较小的 LLM 也常常能够取得更优结果。这并不一定意味着使用更强大的 GPU，而是采用更复杂或更耗资源的推理策略。此类策略的一个典型例子，是指示模型生成多个潜在答案——例如通过多样化束搜索（diverse beam search）或自一致性方法（self-consistency）等技术——然后借助选择机制挑选最优输出。此类迭代式精炼或多候选生成过程需要更多计算周期，但能显著提升最终响应的质量。

这一原则为部署智能体系统中的明智且经济理性的决策提供了关键框架。它挑战了“更大模型必然更好”的直觉。该定律指出，在推理阶段为较小模型提供更充裕的“思考预算”时，它有时能超越依赖更简单、计算开销更低生成过程的大模型。“思考预算”在此指推理过程中额外的计算步骤或更复杂的算法，使较小模型在得出答案前能探索更广的可能性或进行更严格的内部检查。

因此，推理规模定律成为构建高效、具性价比的智能体系统的基础。它提供了一种方法论来精细平衡若干相互关联的因素：

模型规模： 较小模型在内存与存储方面的需求天然更低。
响应时延： 尽管增加推理时的计算会带来额外时延，但该定律有助于识别性能增益超过时延增量的拐点，或指导如何策略性地使用计算以避免过度延迟。
运营成本： 部署与运行更大模型往往因更高的能耗与基础设施需求而产生更高的持续运营成本。该定律展示了如何在不不必要增加这些成本的情况下优化性能。

通过理解并应用推理规模定律，开发者与组织可以为特定的 agentic 应用做出策略性选择，在确保计算资源被用在对 LLM 输出质量与效用影响最大的地方的同时，实现最优性能。这使 AI 部署能够采用更细致、经济可行的路径，而非停留在“越大越好”的简单范式之上。

实战代码示例

Google 开源的 DeepSearch 代码可在 gemini-fullstack-langgraph-quickstart 仓库（图 6）中获取。该仓库为开发者提供了使用 Gemini 2.5 与 LangGraph 编排框架构建全栈智能体的模板。这一开源栈便于对基于智能体的架构进行实验，并可与本地 LLLMs（如 Gemma）集成。它使用 Docker 与模块化项目脚手架实现快速原型开发。需注意，该版本作为结构良好的演示发布，并非面向生产环境的后端。

图 6：DeepSearch 在多次 Reflection 步骤下的示例 unknown 6.png

该项目提供了一个包含 React 前端与 LangGraph 后端的全栈应用，面向高级研究与对话式 AI。LangGraph 智能体使用 Google Gemini 模型动态生成搜索查询，并通过 Google Search API 整合网页研究。系统采用反思式推理识别知识缺口、迭代优化搜索，并合成带引文的答案。前后端均支持热重载。项目结构包含独立的 frontend/与 backend/目录。环境要求包括 Node.js、npm、Python 3.8+以及 Google Gemini API 密钥。在将 API 密钥配置至后端的.env 文件后，可安装后端依赖（pip install .）与前端依赖（npm install）。可使用 make dev 并行运行开发服务器，或分别单独运行。后端智能体在 backend/src/agent/graph.py 中定义，会生成初始搜索查询、执行网页研究、进行知识缺口分析、迭代优化查询，并使用 Gemini 模型合成带引文的答案。生产部署时，后端服务器将交付静态前端构建，并需要 Redis 以流式传输实时输出，以及 Postgres 数据库以管理数据。可使用 docker-compose up 构建并运行 Docker 镜像；该 docker-compose.yml 示例还需要 LangSmith API 密钥。应用采用 React（Vite）、Tailwind CSS、Shadcn UI、LangGraph 与 Google Gemini。项目遵循 Apache License 2.0 许可。

# Create our Agent Graph
builder = StateGraph(OverallState, config_schema=Configuration)

# Define the nodes we will cycle between
builder.add_node("generate_query", generate_query)
builder.add_node("web_research", web_research)
builder.add_node("reflection", reflection)
builder.add_node("finalize_answer", finalize_answer)

# Set the entrypoint as `generate_query`
# This means that this node is the first one called
builder.add_edge(START, "generate_query")
# Add conditional edge to continue with search queries in a parallel branch
builder.add_conditional_edges(
   "generate_query", continue_to_web_research, ["web_research"]
)
# Reflect on the web research
builder.add_edge("web_research", "reflection")
# Evaluate the research
builder.add_conditional_edges(
   "reflection", evaluate_research, ["web_research", "finalize_answer"]
)
# Finalize the answer
builder.add_edge("finalize_answer", END)

graph = builder.compile(name="pro-search-agent")

那么，智能体在思考什么？

总而言之，智能体的思考过程是一种将推理与行动结合以解决问题的结构化方法。该方法使智能体能够明确规划步骤、监控进度，并与外部工具交互以收集信息。

从根本上说，智能体的“思考”由强大的 LLM 促成。这个 LLM 会生成一系列思考，引导智能体后续的行动。该过程通常遵循“思考-行动-观测”的循环：

思考： 智能体首先生成一段文本化的思考，将问题拆解、制定计划或分析当前情境。这种内部独白使智能体的推理过程透明且可引导。
行动： 基于思考，智能体从预定义的、离散的选项集中选择一个行动。例如，在问答场景中，行动空间可能包括在线搜索、从特定网页检索信息，或给出最终答案。
观测： 智能体随后根据所采取的行动从环境中接收反馈。这可能是网页搜索的结果或某个网页的内容。

该循环不断重复，每次观测都会为下一次思考提供信息，直至智能体判断已得到最终解决方案并执行“完成”动作。

这种方法的有效性依赖于底层 LLM 的高级推理与规划能力。为引导智能体，ReAct 框架常采用少样本学习，即向 LLM 提供类人问题求解轨迹的示例。这些示例展示了如何有效结合思考与行动来解决相似任务。

智能体思考的频率可以根据任务进行调整。对于事实核查等知识密集型推理任务，通常在每次行动之间穿插思考，以确保信息收集与推理的逻辑连贯。相反，对于需要执行大量行动的决策任务（如在模拟环境中导航），思考可能更为节制，允许智能体自行决定何时需要思考。

回顾

是什么（What）

复杂问题求解往往不止需要一个直接答案，这对 AI 构成重大挑战。核心问题在于使智能体能够处理需要逻辑推断、分解与战略规划的多步骤任务。缺乏结构化方法时，智能体可能无法应对细节复杂性，导致结论不准确或不完整。这些高级推理方法旨在将智能体的内部“思考”过程显性化，使其能系统性地逐步攻克难题。

为什么（Why）

标准化的解决方案是一套为智能体问题求解提供结构化框架的推理技术。诸如 Chain-of-Thought (CoT) 与 Tree-of-Thought (ToT) 等方法引导 LLMs 分解问题并探索多条解题路径。Self-Correction 允许对答案进行迭代式改进，从而提升准确性。像 ReAct 这样的智能体框架将推理与行动整合，使智能体能够与外部工具和环境交互以收集信息并调整计划。这种将显式推理、探索、改进与工具使用相结合的方式，打造出更稳健、透明且能力更强的 AI 系统。

经验法则（Rule of Thumb）

当问题过于复杂无法一次性给出答案、且需要分解、多步逻辑、与外部数据源或工具交互，或需要战略规划与适应时，使用这些推理技术。它们非常适用于那些“展示过程”或思考轨迹与最终答案同等重要的任务。

图示摘要

unknown 7.png

关键点

通过将其推理过程显性化，智能体可以制定透明的多步计划，这是实现自主行动与建立用户信任的基础能力。
ReAct 框架为智能体提供核心的运行循环，使其超越仅仅推理，能够与外部工具交互，在环境中动态地行动与适应。
Scaling Inference Law（推理扩展定律）表明，智能体的性能不仅取决于其底层模型规模，还取决于其分配的“思考时间”，从而实现更深思熟虑、更高质量的自主行动。
Chain-of-Thought（CoT，思维链）充当智能体的内部独白，通过将复杂目标分解为一系列可管理的行动，提供一种结构化的规划方式。
Tree-of-Thought 和 Self-Correction 为智能体提供关键的深思能力，使其能够评估多种策略、从错误中回溯，并在执行前改进自身计划。
像 Chain of Debates（CoD）这样的协作框架标志着从单体智能体向多智能体系统的转变，在这种系统中，智能体团队可以共同推理，以应对更复杂的问题并减少个体偏差。
像 Deep Research 这样的应用展示了这些技术如何最终促成智能体代表用户完全自主地执行复杂、长时间运行的任务，例如深入调研。
为了构建高效的智能体团队，像 MASS 这样的框架会自动化优化单个智能体的指令设计及其交互方式，确保整个多智能体系统的最优表现。
通过整合这些推理技术，我们构建的智能体不仅是自动化的，更是真正的自主体，能够在无直接监督的情况下被信任去规划、行动并解决复杂问题。

总结

现代人工智能正从被动工具演进为能够通过结构化推理应对复杂目标的自主智能体。这种智能体行为始于内部独白，由 Chain-of-Thought（CoT）等技术驱动，使智能体在行动前先制定连贯计划。真正的自主性需要深思熟虑，智能体通过 Self-Correction 和 Tree-of-Thought（ToT）来实现，评估多种策略并自主改进其工作。迈向完全智能体系统的关键跃迁来自 ReAct 框架，它使智能体超越思考而开始行动，借助外部工具执行任务。这确立了思考—行动—观察的核心智能体循环，使智能体能够依据环境反馈动态调整策略。

智能体的深度思考能力由 Scaling Inference Law 驱动，更多的计算“思考时间”直接转化为更稳健的自主行动。下一个前沿是多智能体系统，其中像 Chain of Debates（CoD）这样的框架构建协作的智能体社会，共同推理以达成共同目标。这并非理论；像 Deep Research 这样的智能体应用已经展示了自主智能体如何代表用户执行复杂的多步骤调研。总体目标是工程化可靠且透明的自主智能体，使其可被信任去独立管理并解决复杂问题。最终，通过将显性推理与行动能力相结合，这些方法学正在完成 AI 向真正智能体问题求解者的转变。

参考资料

"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" by Wei et al. (2022)
"Tree of Thoughts: Deliberate Problem Solving with Large Language Models" by Yao et al. (2023)
"Program-Aided Language Models" by Gao et al. (2023)
"ReAct: Synergizing Reasoning and Acting in Language Models" by Yao et al. (2023)
Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for LLM Problem-Solving, 2024
Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies, arxiv.org/abs/2502.02…