打破 LLM 长任务瓶颈：MAKER 如何实现百万步零错误执行近几年，大语言模型（LLM）在推理、代码生成、工具调用等任

近几年，大语言模型（LLM）在推理、代码生成、工具调用等任务上取得了巨大进展。但当任务变得极长，需要上千甚至上百万步（例如 Towers of Hanoi 20 个盘，需要 1,048,575 步），LLM 出错几乎不可避免。

这篇论文提出了MAKER —— 第一个能让语言模型在超过百万步流程中保持零错误的系统。

它不仅证明了 “LLM 能持续推理”，更可能改变我们设计 AI 系统的方式。

🧠 论文 PDF: /mnt/data/2511.09030v1.pdf

📌 一句话总结

LLM 不是做不到长任务，只是我们以前让它“一次做太多”；

MAKER 让 LLM 每次只做一步、多 Agent 投票纠错——从而实现百万步零失误运行！

📖 论文核心内容

问题	MAKER 的解决方案
LLM 执行长任务一定会出错	把任务拆到只有一个动作
错误会逐步传递并放大	每一步都并行采样 → 投票纠错
格式/结构异常的输出很危险	Red-Flag：直接丢弃可疑输出
大模型是否必须？	❌ 小模型也能完成！关键是流程设计

🔑 论文提出的创新点与关键技术

1️⃣

极限任务分解（MAD）

只让 LLM 在每次调用中执行一步任务（如：“将盘 1 从 A 移到 B”）。

这避免了复杂上下文，使语言模型几乎不会迷失或遗忘。

2️⃣

微代理投票机制（First-to-ahead-by-k Voting）

让多个 agent 解决同一个任务：

➡ 谁的答案连续领先 k 票，就采纳谁的输出。

多个 agent → 并行执行一步 → 投票纠错 → 状态推进

3️⃣

Red-Flagging：格式异常 = 高风险错误

只要输出结构太长、格式异常、超出规则范围 → 直接丢弃

不进入投票，提升系统稳定性。

4️⃣

错误去相关（Decorrelation）

为了避免 agent 都犯同一种错，需要：

多温度采样
agent 使用不同的提问风格
甚至 paraphrasing prompt

这样才能保证“错误不会集中在同一方向”。

🧠 实际应用场景

领域	为什么适合
软件工程 / AutoDev	每一步生成/审查一段代码，可持续推进项目
医疗诊断流程	🏥 多步骤推理，必须零错误
供应链 / 制造业	📦 每个 agent 各自处理一个子流程
教育 / AI 私人教师	🧪 自动识别知识点 → 出题 → 练习循环
金融交易系统	🧾 风控、止损设置、交易策略执行
AI 自动科研（Auto-Research）	📄 从论文 → 提炼问题 → 设计实验 → 汇总结果

📌 模式统一：多阶段推理 → 一步步拆解 → 投票纠错 → 状态更新

这就是可扩展、可审计、可控的 AI 生产力基础设施。

🧪 最小可运行 Demo（可直接运行）

👉 复现 MAKER 核心机制：单步任务执行 + 多 agent 投票纠错

import openai
import collections

openai.api_key = "YOUR_API_KEY"

# 只做“一步”的任务
def solve_task(task_prompt, temperature=0.7):
    response = openai.ChatCompletion.create(
        model="gpt-4o-mini",       # 小模型即可
        messages=[{"role": "user", "content": task_prompt}],
        temperature=temperature,
    )
    return response.choices[0].message.content.strip()

# 投票机制
def run_voting(task_prompt, k=2, n_agents=5):
    votes = collections.Counter()
    
    for i in range(n_agents):
        answer = solve_task(task_prompt)
        votes[answer] += 1

        if votes[answer] >= k:   # 达到领先 k 票
            return answer, votes

    # 如果没有明显领先者
    return votes.most_common(1)[0][0], votes


task_prompt = "Move only ONE disk from pole A to pole B in Towers of Hanoi."

best_answer, votes = run_voting(task_prompt)

print("🧠 最终答案：", best_answer)
print("📊 投票统计：", votes)

输出示例：

🧠 最终答案： Move disk 1 from A to B.
📊 投票统计： Counter({'Move disk 1 from A to B.': 3, 'Move disk 1 from A to C.': 2})

🔄 如何扩展为真正的 “百万步 AI 系统”

只要将“一步任务”变为循环，就能构造完整流程：

state = initial_state

while not finished(state):
    task_prompt = build_prompt_from_state(state)  # ⬅ 当前状态转成任务
    best_step, _ = run_voting(task_prompt)        # ⬅ 投票纠错
    state = update_state(state, best_step)        # ⬅ 状态推进

➡ 可复用在：

✔️ 数学推理

✔️ 复杂 API 调度

✔️ AIGC 内容生成链

✔️ 自动化编程 / 审计系统

✔️ 多 agent 协作机器人

🧭 结语：LLM 的未来可能不是“大模型”，而是“组织结构”

这篇论文提出一个非常大胆的观点：

与其继续堆大模型，不如把模型变成社会结构——

让大量微 agent 协作，就像微服务架构一样。

这意味着：

LLM 不只是文本生成器
它可以是“语言形式的计算系统”
AI 不一定越来越大，也可以越来越结构化
未来 AI 可能像公司 / 工厂 / 组织一样运作