第 18 章：Debate （多角色辩论）模式：真理是“吵”出来的第18章：Debate 模式：真理是“吵”出来的你问

第18章：Debate 模式：真理是“吵”出来的

单 Agent 往往是一个圆滑的“老好人”，为了讨好你而隐藏锋芒。Debate（辩论）模式则是引入了“红蓝军对抗”，通过激烈的互怼，逼出最客观的真相。

0001页.png

你问 Agent： “AI 会导致人类大规模失业吗？”

普通的单 Agent 会给你一个滴水不漏的、正确的废话：

“这是一个复杂的问题。一方面，AI 会提高效率，创造新岗位；另一方面，确实会替代重复性劳动。我们需要保持乐观，同时加强教育……”

听起来没毛病，但也毫无洞察。为什么？因为 LLM 的训练数据里充满了这种“两边不得罪”的文本。它在预测下一个字时，倾向于选择概率最高、最安全、最平庸的路径。这叫 “平庸之恶” 。

0002页.png

但是，如果你启动 Debate 模式，情况就不一样了：

正方（激进派） ：“别自欺欺人了！这次不一样。AI 取代的是认知劳动，白领阶层的崩溃就在眼前！”
反方（保守派） ：“你太悲观了。工业革命当年也引发了恐慌，但最终就业率不降反升。人类的需求是无限的。”
裁判（总结者） ：“双方争论的焦点在于‘替代速度’与‘再就业速度’的时间差。短期阵痛不可避免，长期看……”

看到了吗？通过对抗，观点的颗粒度瞬间变细了。 Debate 模式的核心逻辑是：引入冲突，暴露弱点，达成更高维度的共识。

01. 为什么要让 Agent 吵架？

单 Agent 思考有三个致命弱点，统称为 “思维盲区” ：

确认偏差（Confirmation Bias） ：一旦它生成了第一句话（比如倾向于乐观），后面的几百个字都会为了证明这句话而服务，完全无视反面证据。
过度自信（Overconfidence） ：即使是胡说八道，它也说得斩钉截铁。没人反驳它，它就以为自己是对的。
视角单一（Single Perspective） ：它只能扮演一个角色。但复杂问题往往需要多视角（如：技术可行性 vs 商业变现 vs 法律合规）。

Debate 模式就是为了打破这种回声室效应。

02. 架构设计：法庭模型

一个标准的 Debate 系统，就是把 法庭审判 的流程搬到了代码里。我们需要三个核心角色：

辩手（The Debaters） ：
- 必须有鲜明的立场（Persona）。
- 比如：正方（Pro）、反方（Con）、中立第三方（Neutral）。
法官（The Judge / Moderator） ：
- 负责控场。
- “第一轮发言结束，请反方针对正方的第二点论据进行反驳。”
陪审团（The Jury / Voting） ：
- 负责最终决策。
- 当辩论陷入僵局时，通过投票（Voting）或综合（Synthesis）来定胜负。

流程图解（三阶段论）

graph TD
    Start[问题输入] --> Phase1[Phase 1: 初始立论]
    Phase1 -->|各抒己见| Phase2[Phase 2: 交叉辩论]
    Phase2 -->|互相攻击/修正| Phase2
    Phase2 -->|达到轮次上限| Phase3[Phase 3: 最终裁决]
    Phase3 -->|综合/投票| End[输出结论]

03. 关键实现细节：如何设计一场高质量的辩论？

第一步：人设注入（Prompt Engineering）

如果你只是让两个 Agent 辩论，它们可能会互相客气。你必须在 System Prompt 里 “拱火” ：

# 正方 Agent 的 Prompt
你是一个激进的技术乐观主义者。
你的目标：证明 AI 将带来乌托邦。
风格：犀利、引用数据、攻击对方逻辑漏洞。
注意：不要寻求共识，你的任务就是赢。

# 反方 Agent 的 Prompt
你是一个审慎的风险控制专家。
你的目标：揭示 AI 带来的伦理危机和社会动荡。
风格：冷静、批判性思维、强调最坏情况。

架构师经验： 必须强制要求 Agent “不要寻求共识” 。因为 LLM 本性是爱和解的，如果不强制对抗，辩论两轮就变成互夸了。

第二步：多轮交互（Round-Robin）

辩论不能自说自话。在第 N 轮时，必须把对手在 N-1 轮说的话塞进 Context。

# 伪代码：辩论循环
for round in range(MAX_ROUNDS):
    for agent in agents:
        # 【关键】要把别人的观点喂给它
        context = get_other_agents_opinions(round - 1)
        
        prompt = f"""
        这是第 {round} 轮辩论。
        对手的观点是：{context}
        请指出他们逻辑中的谬误，并加强你的论点。
        """
        response = agent.generate(prompt)

第三步：共识检测与终止

什么时候停？

硬终止：吵了 3 轮了，够了，强制结束。
软终止（共识达成） ：如果检测到反方说“我觉得正方说得有道理”，说明真理越辩越明了，提前结束。

04. 最终收口：怎么得出结论？

吵完了，用户需要一个答案。我们有三种收口策略：

策略 A：法官独裁（Moderator Summary）

用一个更高智商的模型（如 GPT-4）阅读全程辩论记录，写一份 “判决书” 。

优点：逻辑连贯，可读性好。
缺点：如果法官模型本身有偏见，结论也会偏。

策略 B：民主投票（Voting）

引入 5 个低成本模型（如 GPT-3.5 或 Llama）充当陪审团，给辩论双方打分，少数服从多数。

场景：适合有明确对错的问题（如“这个方案可行吗？”）。

策略 C：盲测聚合（Blind Aggregation）

不告诉总结模型谁是正方谁是反方，只给论据，让它提取最有价值的信息点。

0008页.png

05. 适用场景与成本警告

Debate 是所有 Agent 模式里最贵的。 因为它不仅涉及多 Agent，还涉及多轮次。Token 消耗是单次问答的 N（人数） × M（轮次） 倍。

决策矩阵：

场景	推荐指数	理由
投资决策	⭐⭐⭐⭐⭐	需要多空双方博弈，错判代价极大，值得花钱。
政策制定	⭐⭐⭐⭐⭐	需要平衡各方利益，避免单一视角。
代码 Review	⭐⭐⭐	可以让一个 Agent 写，一个 Agent 找茬（Reviewer）。
数学题	⭐	没必要吵，算错就是算错，用 CoT 就行。
事实查询	❌	“珠穆朗玛峰多高？”不需要辩论。

总结

Debate 模式本质上是一种 对抗性防御（Adversarial Defense） 。

它利用 Agent A 去攻击 Agent B，从而在系统内部提前引爆潜在的逻辑地雷，而不是等到交付给用户时才爆炸。
它是 “兼听则明” 这一古老智慧的数字化实现。

通过 Debate，我们不再追求 Agent 的“绝对正确”（因为这不可能），而是追求 “经过充分检验的可靠性” 。

下一章预告

Debate 解决的是“观点冲突”的问题。但更多时候，我们需要的是 “海量信息的综合” 。比如：“帮我研究一下这家公司，写一份 50 页的深度报告。” 这不仅需要辩论，还需要大规模的并行搜索、阅读、整理。

下一章，我们将介绍 Part 6 的终章 —— Research Synthesis（综合研究）模式：如何让 Agent 像一个顶级分析师团队一样，处理海量数据并输出高质量报告。

0015页.png