Opus 4.6 / GPT-5.3-Codex / Gemini 3.1 Pro,前端仔的真实体验。
TL;DR
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 组件设计 & 架构 | Claude Opus 4.6 | 思考深度碾压,重构准确率最高 |
| 写工具链 / CLI / CI | GPT-5.3-Codex | 终端执行能力拉满,自己跑自己改 |
| 读源码 / 查文档 / RAG | Gemini 3.1 Pro | 1M 上下文 + 价格便宜 = 性价比无敌 |
模型速览
三个模型都在 2 月发布,先列个参数卡:
Claude Opus 4.6
├── 上下文: 1M (Beta) / 200K (标准)
├── 输入: $5/M 输出: $25/M
├── SWE-bench Verified: 80.8%
└── 思考模式: 4档 (low/medium/high/max)
GPT-5.3-Codex
├── 上下文: 400K (输入可用 ~272K)
├── 输入: $3.5/M 输出: $28/M
├── Terminal-Bench 2.0: 77.3%
└── 推理速度: 比上代快 25%
Gemini 3.1 Pro
├── 上下文: 1M
├── 输入: $2/M 输出: $12/M (≤200K)
├── GPQA Diamond: 94.3%
└── LiveCodeBench Pro: 2,887 Elo
实战一:React 组件重构
我手头有一个 400 行的 DataTable 组件,Props 有 20 多个,内部状态管理混乱,排序/筛选/分页的逻辑全揉在一起。
Opus 4.6 的做法
开 high 模式后,它先用了大概 15 秒"思考",然后输出了一段分析:
// Opus 的思考输出(摘要):
// 1. DataTable 存在三类职责混合:数据获取、状态管理、UI 渲染
// 2. useSorting / useFiltering / usePagination 应拆为独立 hooks
// 3. 建议引入 compound component 模式处理 Header/Body/Footer
// 4. 风险点:现有的 onRowClick 回调依赖内部排序状态,需要提升
然后分步给出了重构代码。每个 hook 都写得很规范,命名清晰,边界情况处理到位。
最终输出大概 600 行(拆成了 5 个文件),我只改了两处 TypeScript 类型就合了 PR。
GPT-5.3 的做法
它 8 秒出了结果。也拆了 hooks,但只拆了两个(把筛选和排序合在一起了),而且 usePagination 里有个 off-by-one error。
指出来之后它改得很快,但第一版不如 Opus 完整。
Gemini 的做法
表现中规中矩。拆分方案合理,但有些地方不够"React"——比如用 useEffect 做了不必要的状态同步。不过考虑到价格只有 Opus 的零头,可以接受。
结论:重构选 Opus,没争议。
实战二:写一个 Vite 插件
需求:自动扫描 src/pages 目录,生成路由配置文件。
GPT-5.3-Codex 在这种场景下太猛了。
我在 Cursor 里给了它需求描述,它做了这些事:
- 写了插件的主体代码
- 自己创建了一个测试目录结构
- 跑了
vite build,报错了 - 读了错误信息,发现
glob的用法有问题 - 改了,再跑,通了
- 又加了个 watch 模式下的增量更新
全程我没碰键盘。从需求到能用,大概两分钟。
Opus 能写出同样质量的代码,但它不会自己去"跑"。它会停在"我建议你这样测试..."那一步。
Gemini 写的代码能用,但 watch 模式的实现有 bug。
结论:工具链 / 脚手架 / CLI 这些活,GPT-5.3 效率最高。
实战三:阅读 Next.js 14 源码
我想搞懂 Next.js 的 Server Actions 底层是怎么处理 form data 的。
把 next/src/server 和 next/src/client 的相关代码一股脑丢给 Gemini 3.1 Pro(大概 40 万 token),直接问:"Server Action 从浏览器到服务端的完整调用链是什么?"
它给了一个从 <form action={...}> 开始、经过 flight response 编码、到服务端 action handler 解析的完整链路,还标出了关键的函数名和文件路径。
同样的量丢给 Opus,表现类似但费用翻倍。GPT-5.3 的 400K 窗口不够用,得手动裁剪。
结论:读大型代码库,Gemini 的 1M 上下文 + 低价格是压倒性优势。
我的日常搭配
需求评审 / 架构设计 → Opus 4.6 (high 模式)
↓
编码 / 测试 / CI 配置 → GPT-5.3-Codex
↓
查文档 / 读源码 / 上下文补充 → Gemini 3.1 Pro
三个 API Key 一起用,月成本大概 $80-120,比只用 Opus 省了一半以上。
踩过的坑
- Opus 的长上下文 Beta 不稳定:超过 500K token 后,偶尔会出现回答截断的情况。重要任务建议控制在 200K 以内。
- GPT-5.3 太"自信":它有时候会在你没同意的情况下直接改文件。如果用在生产环境,一定要开 dry-run 或者套一层确认。
- Gemini 的输出偏短:最大输出 16K-64K token,比另外两家的 128K 少。如果需要一次性生成大文件,可能需要分段。