2026 年 2 月 AI 编程三巨头实战横评 | 附代码和踩坑记录

0 阅读4分钟

Opus 4.6 / GPT-5.3-Codex / Gemini 3.1 Pro,前端仔的真实体验。

TL;DR

场景推荐模型原因
组件设计 & 架构Claude Opus 4.6思考深度碾压,重构准确率最高
写工具链 / CLI / CIGPT-5.3-Codex终端执行能力拉满,自己跑自己改
读源码 / 查文档 / RAGGemini 3.1 Pro1M 上下文 + 价格便宜 = 性价比无敌

模型速览

三个模型都在 2 月发布,先列个参数卡:

Claude Opus 4.6
├── 上下文: 1M (Beta) / 200K (标准)
├── 输入: $5/M  输出: $25/M
├── SWE-bench Verified: 80.8%
└── 思考模式: 4档 (low/medium/high/max)

GPT-5.3-Codex
├── 上下文: 400K (输入可用 ~272K)
├── 输入: $3.5/M  输出: $28/M
├── Terminal-Bench 2.0: 77.3%
└── 推理速度: 比上代快 25%

Gemini 3.1 Pro
├── 上下文: 1M
├── 输入: $2/M  输出: $12/M (≤200K)
├── GPQA Diamond: 94.3%
└── LiveCodeBench Pro: 2,887 Elo

实战一:React 组件重构

我手头有一个 400 行的 DataTable 组件,Props 有 20 多个,内部状态管理混乱,排序/筛选/分页的逻辑全揉在一起。

Opus 4.6 的做法

开 high 模式后,它先用了大概 15 秒"思考",然后输出了一段分析:

// Opus 的思考输出(摘要):
// 1. DataTable 存在三类职责混合:数据获取、状态管理、UI 渲染
// 2. useSorting / useFiltering / usePagination 应拆为独立 hooks
// 3. 建议引入 compound component 模式处理 Header/Body/Footer
// 4. 风险点:现有的 onRowClick 回调依赖内部排序状态,需要提升

然后分步给出了重构代码。每个 hook 都写得很规范,命名清晰,边界情况处理到位。

最终输出大概 600 行(拆成了 5 个文件),我只改了两处 TypeScript 类型就合了 PR。

GPT-5.3 的做法

它 8 秒出了结果。也拆了 hooks,但只拆了两个(把筛选和排序合在一起了),而且 usePagination 里有个 off-by-one error。

指出来之后它改得很快,但第一版不如 Opus 完整。

Gemini 的做法

表现中规中矩。拆分方案合理,但有些地方不够"React"——比如用 useEffect 做了不必要的状态同步。不过考虑到价格只有 Opus 的零头,可以接受。

结论:重构选 Opus,没争议。

实战二:写一个 Vite 插件

需求:自动扫描 src/pages 目录,生成路由配置文件。

GPT-5.3-Codex 在这种场景下太猛了。

我在 Cursor 里给了它需求描述,它做了这些事:

  1. 写了插件的主体代码
  2. 自己创建了一个测试目录结构
  3. 跑了 vite build,报错了
  4. 读了错误信息,发现 glob 的用法有问题
  5. 改了,再跑,通了
  6. 又加了个 watch 模式下的增量更新

全程我没碰键盘。从需求到能用,大概两分钟。

Opus 能写出同样质量的代码,但它不会自己去"跑"。它会停在"我建议你这样测试..."那一步。

Gemini 写的代码能用,但 watch 模式的实现有 bug。

结论:工具链 / 脚手架 / CLI 这些活,GPT-5.3 效率最高。

实战三:阅读 Next.js 14 源码

我想搞懂 Next.js 的 Server Actions 底层是怎么处理 form data 的。

next/src/servernext/src/client 的相关代码一股脑丢给 Gemini 3.1 Pro(大概 40 万 token),直接问:"Server Action 从浏览器到服务端的完整调用链是什么?"

它给了一个从 <form action={...}> 开始、经过 flight response 编码、到服务端 action handler 解析的完整链路,还标出了关键的函数名和文件路径。

同样的量丢给 Opus,表现类似但费用翻倍。GPT-5.3 的 400K 窗口不够用,得手动裁剪。

结论:读大型代码库,Gemini 的 1M 上下文 + 低价格是压倒性优势。

我的日常搭配

需求评审 / 架构设计 → Opus 4.6 (high 模式)
                          ↓
编码 / 测试 / CI 配置  → GPT-5.3-Codex
                          ↓
查文档 / 读源码 / 上下文补充 → Gemini 3.1 Pro

三个 API Key 一起用,月成本大概 $80-120,比只用 Opus 省了一半以上。

踩过的坑

  1. Opus 的长上下文 Beta 不稳定:超过 500K token 后,偶尔会出现回答截断的情况。重要任务建议控制在 200K 以内。
  2. GPT-5.3 太"自信":它有时候会在你没同意的情况下直接改文件。如果用在生产环境,一定要开 dry-run 或者套一层确认。
  3. Gemini 的输出偏短:最大输出 16K-64K token,比另外两家的 128K 少。如果需要一次性生成大文件,可能需要分段。