看完热榜「4个AI组队写代码」,我拿5个模型跑了同一道题,差距真的大

9 阅读5分钟

昨天刷掘金热榜,看到一篇「用Claude Code搭了4个AI的团队协作开发」,热度直接冲到1300+。评论区炸了,都在问:这玩意儿真能用?其他模型行不行?

作为一个搞了半年 AI Agent 开发的独立开发者,我手痒了。

与其看别人吹,不如自己跑一遍。 我拿了同一道实际开发任务,丢给 5 个主流大模型,看看谁能真正"写出能跑的代码"。

测试任务:不是刷题,是真实需求

我没用那种 LeetCode 算法题来测——那玩意儿模型都刷烂了,测不出真实水平。

我的测试任务是一个真实业务场景

写一个 Node.js 中间件,实现 API 请求的速率限制(Rate Limiter),要求:

  • 滑动窗口算法(不是简单的固定窗口)
  • 支持按 IP 和按 API Key 两种维度限流
  • Redis 存储(分布式场景)
  • 超限后返回标准的 429 + Retry-After 头
  • 包含单元测试

这个需求不算特别难,但足够考验模型的工程化能力——不是能写算法就行,得考虑错误处理、边界情况、代码组织。

参赛选手 🏁

模型厂商定位
Claude Opus 4.6Anthropic当前最强编码
GPT-5.1OpenAI最新旗舰
Minimax M2.5MiniMax国产新锐
DeepSeek V3.2DeepSeek开源之光
GLM-5智谱国产全能

为了公平,我用的都是同一个 API 格式调用,提示词完全相同,temperature 都设 0。

调用代码长这样:

import openai

client = openai.OpenAI(
    api_key="your-key",
    base_url="https://api.ofox.ai/v1"  # 聚合API,一个key调所有模型
)

response = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",  # 换模型只改这一行
    messages=[{"role": "user", "content": prompt}],
    temperature=0
)

对,没看错,换模型只需要改 model 参数,base_url 和 key 都不用动。我用的是 ofox.ai,国内直连不用梯子,而且所有模型都走 OpenAI 格式,代码只用写一套。之前想同时测 5 个模型得注册 5 家 API 配 5 套 SDK,光环境就折腾一下午 😭

测试结果:有人惊艳,有人翻车

🥇 Claude Opus 4.6 — 工程化天花板

不愧是热榜那篇文章用的模型。Opus 一次生成了完整的项目结构:

├── src/
│   ├── rateLimiter.js          # 核心中间件
│   ├── slidingWindow.js        # 滑动窗口算法
│   └── redisStore.js           # Redis 存储层
├── tests/
│   ├── rateLimiter.test.js     # 中间件测试
│   └── slidingWindow.test.js   # 算法测试
└── package.json

亮点:

  • 自动把算法和存储层解耦了,不是一坨全塞在一个文件里
  • Redis 连接失败有优雅降级(fallback 到内存限流)
  • 测试覆盖了分布式竞争条件(race condition)
  • Retry-After 计算精确到毫秒

能直接跑,0 报错。 我 review 了一遍,说实话比我自己写的还规范... 😤

🥈 GPT-5.1 — 稳,但保守

GPT-5.1 给的方案也能跑,代码质量中上。但有个明显特点:太保守了

  • 没有做 Redis 降级,连接失败直接 throw
  • 所有逻辑塞在一个文件里,300 行的大单体
  • 测试只覆盖了正常路径,没测边界

感觉像一个经验丰富但赶 deadline 的程序员写的——能用,但 code review 的时候你会提一堆 comment 🤣

🥉 Minimax M2.5 — 有惊喜

热榜另一篇说 Minimax 对标 Opus 4.6,我带着怀疑测的。

结果它直接给了 TypeScript 版本(虽然我没要求),代码结构清晰,还加了详细的 JSDoc 注释。滑动窗口用的 Redis Sorted Set,时间复杂度比 Opus 的方案还优

但也有问题:

  • 测试文件 2 个语法错误(少了 await)
  • Redis Key 没设 TTL,跑久了内存泄漏

思路在靠近头部模型,但工程化细节差距还是明显的

第4名:DeepSeek V3.2 — 得催

DeepSeek 的问题不是写不好,是你得催它。第一轮只给核心算法,没测试,没错误处理。追问了 3 轮才拿到完整代码。

代码本身质量还行,但在 Agent 协作场景这是致命的——你总不能让 AI 团队里有个成员每次都得催三遍才干活吧 😅

第5名:GLM-5 — 有想法,跑不起来

GLM-5 最有"创意"——考虑了限流规则的动态配置(从 Redis 读取阈值),这个设计思路我是没想到的。

但:跑不起来。

用了一个不存在的 npm 包名,滑动窗口时间戳有 off-by-one 错误。修了两处之后才能跑。

数据汇总

模型一次通过代码分层测试覆盖工程化综合
Claude Opus 4.6全面⭐⭐⭐⭐⭐95
GPT-5.1基础⭐⭐⭐⭐82
Minimax M2.5❌(2个bug)中等⭐⭐⭐⭐78
DeepSeek V3.2❌(需追问)基础⭐⭐⭐70
GLM-5❌(跑不起来)有但报错⭐⭐⭐62

几个感悟

1. "能写代码"和"能工程化"是两回事

5 个模型都会写滑动窗口算法,但真正考虑了错误处理、代码分层、测试覆盖的只有 Opus。这也解释了热榜那篇为什么用 Claude Code 搭 AI 团队——你需要的不是会写代码的 AI,是会做工程的 AI

2. 国产模型进步真的快

Minimax 用 Sorted Set 实现滑动窗口的思路让我眼前一亮,核心算法甚至比 GPT-5.1 更优。GLM-5 考虑动态配置也是加分项。差的主要是细节打磨。

3. 搞 Agent 开发,统一 API 是刚需

这次如果挨个注册 5 家 API、配 5 套 SDK,光环境就得折腾一天。用聚合 API 的好处是换 model 参数就切模型,5 个模型用同一套代码测,省了大量时间。

Claude和GPT选哪个?我的建议是别选,都用。不同任务不同模型,这才是 AI Agent 时代的正确姿势。

4. 为什么 AI 团队需要"一次通过"

看完测试结果再回头看热榜那篇——在 Agent 协作场景,一次通过率直接决定团队效率。如果每个 AI 成员的产出都需要人工 debug,那"AI 团队"和"AI 拖油瓶"就没区别了。


你在搞 AI Agent 开发吗?用的什么大模型API?评论区聊聊 👇

本文测试基于 2026年2月各模型最新版本,更新很快,结论仅供参考。