Claude Opus 4.8 刚发布，被实锤蒸馏 DeepSeek 和千问？！附一手实测，夯还是拉？Cursor 多模

大家好，我是程序员鱼皮。

刚刚 Anthropic 又发布了新模型 Claude Opus 4.8，从 2 月的 Opus 4.6 到 4 月的 Opus 4.7，短短 3 个月就迭代了 3 版！

每次大模型一更新，全网都在搬官方的跑分数据、翻译一下更新日志就完事了。

但跑分高不代表实际好用，我还是更想亲自测一测，哪怕已经发如雨下……

正好最新的 Claude Opus 4.8 已经能在 Cursor 里用了，我干脆把 Opus 最近三代（4.6、4.7、4.8）和当红的 GPT-5.5 放到一起，用同一个提示词开发同一个全栈项目，看看到底谁最能打。

开始之前，先介绍一下本次 Opus 4.8 的更新，也请大家预测一下最终的测试结果~

Opus 4.8 更新了什么？

Opus 4.8 的定价和 Opus 4.7 一样，每百万 token 输入 5 美元、输出 25 美元，上下文依然是 100 万 tokens。

跑分这块本来我都懒得看了，反正 Opus 每次更新都是往上涨。不过和 GPT-5.5 的对比还是值得关注的，编程能力方面，SWE-bench Pro（Agent 编程能力）从 4.7 的 64.3% 提升到 69.2%，大幅领先 GPT-5.5 的 58.6%。不过在 Terminal-Bench 2.1（终端编程能力）上，GPT-5.5 以 78.2% 仍然领先 Opus 4.8 的 74.6%。

这次更新我觉得最值得关注的有 3 点：

1）动态工作流：Claude Code 里可以一次性派出几百个并行子 Agent，最多 16 个同时跑、单次上限 1000 个 Agent。适合大规模代码迁移这种硬骨头活儿。

不过大多数用户应该用不上这个功能，就好比你开了个公司，也没必要一次性雇几百个人，日常开发哪来这么大的迁移需求。

2）代码自查能力暴涨：官方说 Opus 4.8 漏检代码缺陷的概率比 4.7 降低了 4 倍。也就是说 AI 写完代码之后，自己就能发现更多 Bug，一把梭跑通的成功率更高了。

3）Fast Mode 大降价：Fast 模式可以让同样的模型处理速度翻倍，而且比之前的 Fast Mode 便宜 3 倍。

看数据是一方面，AI 编程模型好不好用，还是得拿真实项目来检验。

不过正式开测之前，先说个最近跟 Claude 有关的乐子。

有人发现用 Anthropic 官方 API（注意是 官方 API，不是中转站）直接调 Claude，中文问它「你是什么模型？」，它竟然一本正经地回答「我是通义千问」。据说换个问法，它还会说自己是 DeepSeek。

我盲猜一个原因，API 调用没有像网页端那样的系统提示词来锚定身份，而中文互联网上「我是通义千问 / DeepSeek」的训练数据远比「我是 Claude」多得多。模型在没有身份提示的情况下，自然就输出了概率最高的那个回答。

不过也有可能，Claude 就是蒸馏了国产模型，好一个回旋镖~

好了说回正题，这些顶级模型在实际编程中表现到底如何呢？

让 Cursor 自动并行测试

如果让你来做 4 个模型的编程能力对比，你会怎么做呢？手动一个一个跑么？

那也太累了，我选择直接让 AI 帮我测。

现在 Cursor 这类 AI 编程工具已经内置了「子 Agent」能力，可以并行启动多个独立的 AI 任务，而且每个任务可以指定用不同的模型。

相当于 Cursor 是一个包工头，我下一个指令，它就帮我同时调度 4 个不同的「工人」干活。

我只需要发一段提示词，Cursor 就自动帮我同时启动 4 个子 Agent，分别用 Opus 4.6、4.7、4.8 和 GPT-5.5，全部开到 High thinking 档位，用同一段提示词在各自的目录里开发同一个项目。

我让 AI 开发的项目是一个「TaskFlow 任务管理看板」全栈应用，类似简化版飞书看板，包含 7 个功能需求：用户注册登录、三列看板拖拽、任务增删改查、数据图表面板、搜索筛选、暗色 / 亮色主题切换、响应式设计。技术栈是 React + TypeScript 前端 + Python FastAPI 后端 + SQLite 数据库，前后端分离。

再次强调，4 个模型用的是完全一样的提示词，而且全程不做任何人工干预。我主要关注这几个指标：UI 设计水平、功能完成度、代码质量和架构合理性。

前端界面对比

先看登录页。

Opus 4.6 和 Opus 4.7 类似，都做了一个很干净的居中卡片式登录：

Opus 4.7 登录页

Opus 4.8 也差不多，但多了注册 / 登录 Tab 切换，还贴心地把演示账号密码直接标在了页面底部：

Opus 4.8 登录页

GPT-5.5 的风格就完全变了，而且一看就是 GPT 的风格，左边一大块全是文案宣传，右边才是登录表单。符合我对 GPT 的刻板印象 —— 喜欢在页面上堆信息：

GPT-5.5 登录页

登录之后，再来看任务看板页面。

Opus 4.6 的排版整齐，但没什么背景色，中规中矩吧：

Opus 4.6 看板页

Opus 4.7 加了渐变背景色，列头有颜色区分，整体更优雅：

Opus 4.7 看板页

Opus 4.8 的看板跟 4.6 效果差不多，有点素：

Opus 4.8 看板页

GPT-5.5 则直接把看板和数据面板合到了一个页面，上面是图表，下面是三列任务看板，用最少的页面完成最多的事。但是任务列的标题直接用了英文，细节上差了点儿意思。

GPT-5.5 看板+数据面板

再来看看数据面板页面。

Opus 4.6 的数据面板比较简洁，三张图表排成一排，没有多余的装饰：

Opus 4.6 数据面板

Opus 4.7 的汇总卡片做了圆角渐变色图标，更生动了：

Opus 4.7 数据面板

Opus 4.8 的数据面板风格和 4.6 类似，不对，比 4.6 更朴素了：

Opus 4.8 数据面板

再来看看深色模式，4 个模型的差距就更明显了。

Opus 4.6 的深色模式切换过来之后整体颜色还算协调，但背景和卡片的对比度偏低，看起来有点灰蒙蒙的：

Opus 4.6 深色模式

Opus 4.7 的深色模式大不相同，渐变背景色在深色底色下显得更高级，卡片和图表的配色也很统一：

Opus 4.7 深色模式

Opus 4.8 的深色模式中规中矩，没有什么惊喜，也没什么硬伤，和 4.6 比较接近：

Opus 4.8 深色模式

GPT-5.5 的深色模式风格有点儿像 Opus 4.6，也是一大片灰色，差点儿意思。。。

GPT-5.5 深色模式

你们觉得谁最好看呢？

我个人投 Opus 4.7 一票，深色模式下那个渐变背景色真的很舒服。

功能实现对比

功能方面就不一一展示了，4 个模型全部实现了 7 个功能需求：注册登录、看板拖拽、任务管理、图表、搜索、主题切换、响应式，都能正常使用。

毕竟主流模型一把梭全栈项目已经不是什么新鲜事了，这些功能都不复杂，很难拉开区分度。

代码质量对比

既然功能都一样、UI 差异也是见仁见智，那真正能拉开差距的就是代码质量了。

我让 AI 帮我分析了 4 个项目的代码结构，还是能发现明显的区别的。

首先，4 个模型的项目结构出奇地一致，甚至连文件名都几乎一模一样。一方面应该是我提示词限定技术框架的原因，另一方面看来这些顶级模型的编程思路已经高度趋同了，大家都在往同一套最佳实践上靠拢。

看看生成的代码规模：

模型	源码文件数	代码行数
Opus 4.6	25	1,865
Opus 4.7	32	2,259
Opus 4.8	33	2,701
GPT-5.5	13	1,221

显然，Opus 4.8 代码量最大，GPT-5.5 最精简。

但代码多不一定是好事，少也不代表差。关键还是看架构是否清晰、有没有明显的 Bug。下面逐个来看。

1）Opus 4.7 的架构是最清晰的

后端拆了 3 个 router（auth、tasks、stats），前端状态管理用独立的 store 文件，注册和登录分页面，有专门的 AppLayout 布局组件，axios 请求也做了集中封装。分层非常规整，拿去做团队项目也没问题。

2）Opus 4.8 拆得最细

有独立的 context 目录、FilterBar 组件、工具模块，代码量最大。另外 CORS 跨域配置直接配了 allow_origins=["*"]，安全意识差了点。

3）GPT-5.5 走的是极简路线

只用了 Opus 4.8 一半行数的代码就搞定了全部功能，但缺点是后端所有路由都写在 main.py 一个文件里，300 多行挤在一起。能跑是能跑，就是后面要改的话会比较头疼。

4）Opus 4.6 功能完整，但有 2 个 Bug

一个是缺少 React import 导致白屏，另一个是 Tailwind v4 的 CSS 层级冲突，说明 4.6 对最新框架版本的适配还不够。

综合排名

最终，这次测试下来 4 个模型的排名如下：

排名	模型	一句话评价
🏅 1	Opus 4.7	架构最清晰，UI 最精致，代码零缺陷，开箱即用
🥈 2	Opus 4.8	代码量最大最详尽，但有文件遗漏和 CORS 问题
🥉 3	GPT-5.5	1221 行极简通关，但后端单文件堆砌不利于维护
4	Opus 4.6	功能完整但有 2 个白屏 Bug，对新框架适配不足

看到这个结果，是不是有点意外？

最新的 Opus 4.8 竟然没拿第一，怕不是更新了个寂寞嘛？

我的理解是，4.8 这次更新的重心不在「写更美观的代码」，而在 Agent 可靠性和长时间无人监督的任务执行上。动态工作流、代码自查能力这些特性，在大型项目和企业级场景里可能更有价值，但在「一把梭做个全栈项目」这种场景下，4.7 反而表现更稳。

所以大家不要盲目追新，还是按自己的实际需求来选模型。

时间有限，就先给大家分享这次测试。结合我自己的使用体感，我的建议是：

日常开发、一把梭小项目：选择 Opus 4.7 或 4.8 都行，4.7 的 UI 更好看，4.8 更省心（自查能力强）
终端操作、命令行自动化：选择 GPT-5.5，之前我做 Codex 教程的时候拿 GPT-5.5 用作办公 AI 还是很香的
大规模代码迁移重构：选择 Opus 4.8，它的动态工作流是杀手锏

而且我发现一个趋势，Opus 4.8 越来越像 GPT-5.5 了，都在朝着「用最务实的方式把活干完」的方向走，对 UI 美感之类的「额外加分项」反而不太上心。

不过我是真的不希望 Claude 继续朝着这个方向发展下去，大模型之间多搞些差异化，往不同的方向去强化各自的优势，给用户更多选择，我觉得才更好。

OK 就分享到这里，本文会收录到我免费开源的《AI 编程零基础入门教程》，上千张图、几十万字，带你从 0 开始快速学会 AI 编程，做出自己的产品、跑通变现全流程，一次拿捏。

开源指路：github.com/liyupi/ai-g…

我是鱼皮，持续分享 AI 编程干货。觉得有用的话记得点赞收藏和关注~

也欢迎在评论区聊聊：你现在主力用哪个 AI 编程模型？有没有试过 Opus 4.8？