近几年,大语言模型(LLM)在推理、代码生成、工具调用等任务上取得了巨大进展。但当任务变得极长,需要上千甚至上百万步(例如 Towers of Hanoi 20 个盘,需要 1,048,575 步),LLM 出错几乎不可避免。
这篇论文提出了MAKER —— 第一个能让语言模型在超过百万步流程中保持零错误的系统。
它不仅证明了 “LLM 能持续推理”,更可能改变我们设计 AI 系统的方式。
🧠 论文 PDF: /mnt/data/2511.09030v1.pdf
📌 一句话总结
LLM 不是做不到长任务,只是我们以前让它“一次做太多”;
MAKER 让 LLM 每次只做一步、多 Agent 投票纠错——从而实现百万步零失误运行!
📖 论文核心内容
| 问题 | MAKER 的解决方案 |
|---|---|
| LLM 执行长任务一定会出错 | 把任务拆到只有一个动作 |
| 错误会逐步传递并放大 | 每一步都并行采样 → 投票纠错 |
| 格式/结构异常的输出很危险 | Red-Flag:直接丢弃可疑输出 |
| 大模型是否必须? | ❌ 小模型也能完成!关键是流程设计 |
🔑 论文提出的创新点与关键技术
1️⃣
极限任务分解(MAD)
只让 LLM 在每次调用中执行一步任务(如:“将盘 1 从 A 移到 B”)。
这避免了复杂上下文,使语言模型几乎不会迷失或遗忘。
2️⃣
微代理投票机制(First-to-ahead-by-k Voting)
让多个 agent 解决同一个任务:
➡ 谁的答案连续领先 k 票,就采纳谁的输出。
多个 agent → 并行执行一步 → 投票纠错 → 状态推进
3️⃣
Red-Flagging:格式异常 = 高风险错误
只要输出结构太长、格式异常、超出规则范围 → 直接丢弃
不进入投票,提升系统稳定性。
4️⃣
错误去相关(Decorrelation)
为了避免 agent 都犯同一种错,需要:
-
多温度采样
-
agent 使用不同的提问风格
-
甚至 paraphrasing prompt
这样才能保证“错误不会集中在同一方向”。
🧠 实际应用场景
| 领域 | 为什么适合 |
|---|---|
| 软件工程 / AutoDev | 每一步生成/审查一段代码,可持续推进项目 |
| 医疗诊断流程 | 🏥 多步骤推理,必须零错误 |
| 供应链 / 制造业 | 📦 每个 agent 各自处理一个子流程 |
| 教育 / AI 私人教师 | 🧪 自动识别知识点 → 出题 → 练习循环 |
| 金融交易系统 | 🧾 风控、止损设置、交易策略执行 |
| AI 自动科研(Auto-Research) | 📄 从论文 → 提炼问题 → 设计实验 → 汇总结果 |
📌 模式统一:多阶段推理 → 一步步拆解 → 投票纠错 → 状态更新
这就是可扩展、可审计、可控的 AI 生产力基础设施。
🧪 最小可运行 Demo(可直接运行)
👉 复现 MAKER 核心机制:单步任务执行 + 多 agent 投票纠错
import openai
import collections
openai.api_key = "YOUR_API_KEY"
# 只做“一步”的任务
def solve_task(task_prompt, temperature=0.7):
response = openai.ChatCompletion.create(
model="gpt-4o-mini", # 小模型即可
messages=[{"role": "user", "content": task_prompt}],
temperature=temperature,
)
return response.choices[0].message.content.strip()
# 投票机制
def run_voting(task_prompt, k=2, n_agents=5):
votes = collections.Counter()
for i in range(n_agents):
answer = solve_task(task_prompt)
votes[answer] += 1
if votes[answer] >= k: # 达到领先 k 票
return answer, votes
# 如果没有明显领先者
return votes.most_common(1)[0][0], votes
task_prompt = "Move only ONE disk from pole A to pole B in Towers of Hanoi."
best_answer, votes = run_voting(task_prompt)
print("🧠 最终答案:", best_answer)
print("📊 投票统计:", votes)
输出示例:
🧠 最终答案: Move disk 1 from A to B.
📊 投票统计: Counter({'Move disk 1 from A to B.': 3, 'Move disk 1 from A to C.': 2})
🔄 如何扩展为真正的 “百万步 AI 系统”
只要将“一步任务”变为循环,就能构造完整流程:
state = initial_state
while not finished(state):
task_prompt = build_prompt_from_state(state) # ⬅ 当前状态转成任务
best_step, _ = run_voting(task_prompt) # ⬅ 投票纠错
state = update_state(state, best_step) # ⬅ 状态推进
➡ 可复用在:
✔️ 数学推理
✔️ 复杂 API 调度
✔️ AIGC 内容生成链
✔️ 自动化编程 / 审计系统
✔️ 多 agent 协作机器人
🧭 结语:LLM 的未来可能不是“大模型”,而是“组织结构”
这篇论文提出一个非常大胆的观点:
与其继续堆大模型,不如把模型变成社会结构——
让大量微 agent 协作,就像微服务架构一样。
这意味着:
- LLM 不只是文本生成器
- 它可以是“语言形式的计算系统”
- AI 不一定越来越大,也可以越来越结构化
- 未来 AI 可能像公司 / 工厂 / 组织一样运作