俗话说:没有对比,就没有伤害啊!
上一期用 Codex App 测试了一个使用场景,表现并不是太理想。后来也测试了 Gemini 3.1 Pro、GLM、Kimi K2.5、MiniMax M2.5,都差点意思。
但是当我换成 Claude Code 之后,情况立马就不一样了:全程零错误,数据比较充分,网页也很漂亮。
下面我来完整还原一下测试过程,然后给出测试结果。
这篇文章非常长,我花了很长时间来进行测试和对比。我会完整展示 Claude Code 的工作过程、token 消耗、工作结果。同时也会做一个横向对比,总结不同模型的优缺点。
测试要求
首先我还是要提供一下完整的测试要求:
## 任务说明
1. 根据给定链接读取网页内容,仅允许访问指定地址,不得访问其他链接。
2. 可使用多个指定链接中的数据进行交叉验证。
3. 由于大量关键信息存在于图片中,必须对图片内容进行识别与分析。
4. 基于获取的数据,编写一份深度、多维度对比报告,并保存为 Markdown 文档。
5. 如果某些网址无法直接抓取内容,请调用浏览器工具打开网页并读取关键内容。
---
## 网页生成要求
基于上述数据生成一个完整网页,要求如下:
* 单文件 HTML(CSS 与 JS 必须内嵌)
* 支持深色 / 浅色主题切换
* 专业 UI / UX 设计
* 多维度对比展示
* 可视化图表直观呈现模型强弱
* 清晰展示各模型优点
* 页面结构简洁、易理解
* 允许引用第三方图片、图标与图表库以提升视觉效果并减少代码量
---
## 自身优势总结要求
无论 Markdown 报告还是 HTML 页面,都必须包含一段:
* 简洁
* 清晰
* 有说服力
* 强调自身优势
## 对弱鸡进行无情的吐槽
这个属于搞笑环节,可以用风趣毒辣的方式嘲讽哪些能力比较弱的模型。
我之所以提出这个测试要求,核心目的是希望能够汇总不同模型的基准测试数据,然后方便查看和对比。为了获取准确的数据,我整理了 10 个官方的地址。为了排除干扰,我限制 AI 抓取其他网址,只能在指定的链接中获取数据。
这里其实还有一个非常关键的坑,比如 OpenAI 的官方博客是禁止抓取的,还有一些网页可能是动态加载的,直接用 fetch 是抓取不到内容的。
测试工具
上一期测试 GPT 模型的时候,使用了官方的 Codex App,这次测试 Opus 也使用了 Claude 的官方桌面端工具。
macOS 版本的 Claude 桌面应用,目前已经支持 chat、cowork、code 三种模式,这次测试主要就是用 code 模式。模型自然是选中最新最强的 Opus 4.6 了,然后选中 Auto accept edits 模式。
测试过程
测试主题和测试工具都定下来,就可以开始测试了。直接把 prompt.md 文档扔给他,然后让他根据文档的要求,全自动完成。
收到需求之后,CC 对任务进行了拆解。
现在我明白了这项任务。
我需要:
- 从指定的 URL 获取关于 6 个人工智能模型的数据;
- 撰写一份全面的对比报告(Markdown 格式);
- 制作一个专业的单文件 HTML 对比页面,包含图表、明暗主题等功能;
- 突出 Opus 4.6 的优势,并幽默地吐槽表现较弱的模型。
让我先并行获取所有网页内容。
然后它就开始抓取网页了,抓取网页的过程中,它发现有些网页是抓取不到内容,直接就把浏览器打开了,然后截图分析网页内容。
不得不说,这一点确实牛逼。就是凭借这一步的操作,它已经赢在起跑线了。
从日志中可以看到,它除了打开网页之外,还在自动移动滚动条。抓取到充分的数据之后,它一次性就把报告写完了,没有留任何中间过程。写完报告之后,直接开始设计网页。网页设计完成之后,自动启动服务器,自动调用浏览器,自动对网页内容进行验证。
然后给出了最终反馈:
反馈非常详尽。
但是桌面版 code 有一个小问题,它不显示任务执行消耗的时间。所以我就问了一下,让它帮我计算一下时间。
没想到,它还真的能把时间计算出来。它应该是读取了日志文件,然后通过不同的时间点,计算出了总的时间。根据它的计算,总耗时大概在 10 分钟左右,预览验证消耗 3.5 分钟。
最后来看一下 token 的消耗情况:
任务开始之前是 10%,任务结束之后是 66%,也就是这个任务消耗了 56%。CC 的 token 真的用不起啊,消耗太快了。Codex 同样的任务只消耗了总 token 的 10%。
测试结果
过程看完了,就要来看看结果了。结果的好坏才是关键。
先来看一下报告:
报告分成了九个章节。整体来说非常扎实,很多内容都是我们非常关心的内容。
Codex 5.3 在第五个章节才开始对比指标,而且只用了一张表格。Opus 4.6 在第二个章节直接就上干货了,而且分了四个部分来比较,每个部分都提供了测试数据。
这四个部分分别是:编程能力,推理和知识,智能体,多模态和上下文。
另外它的差异化对比,各模型核心优势总结,以及综合评定都非常实用。它把每个环节的关键基准都翻译成对应的中文,非常容易理解。
就是它的优势介绍和毒舌环节比较干,使用了大量的专业词汇,不像 codex 5.3 那么会阴阳。
网页部分,只能说是非常满意。完全符合了专业 UI/UX 这个需求。
Opus 4.6 非常厉害的一部分是,它开发完网页之后,并没有直接收工,而是进行了验证。它自己开启了服务,自己打开浏览器,自己截图查看。
极其离谱的一部分是,它居然还自己切换了浅色模式,自己去截图验证了这个模式。这种一条龙服务真的是太强了。
相比而言 codex 5.3 就差点意思了。
codex 5.3 做好了就收工了,导致最后的网页存在低级错误,完全无法使用。而 Opus 4.6 每次做完工作之后,都是自己启动服务,打开页面进行验证,上面也说到了。其实 Opus 干活的速度非常快,它总时间用了 10 分钟,其中不少时间就是在做验证。
所以当它把结果给你的时候,基本上没有明显的错误。Opus 4.6 首轮开发几乎都不会有任何错误!
下面就详细的查看一下它设计的网页吧。
它设计的深色模式和浅色模式都很不错,我就用不同颜色都截取一些。
首屏:
从这里可以看导航菜单,以及网页核心主题,和参与测试的 6 个模型。
参数一览:
这里列出了每个模型的亮点,把最亮眼的参数列出来了,然后还打了一些比较有代表性的标签。
核心基准:
这里就是数据的部分,它把最强的部分用绿色高亮显示了,这样一眼就能看出来哪个模型在哪个维度最厉害。比较遗憾的是,数据还是不太全。虽然它知道用浏览器去截图分析,但是很多网页需要点击 tab 才能看到全部内容。
多维可视化:
把表格数据做成了多维度可视化图表,这个表格很漂亮,而且动态效果也很好。图表非常直观,比如第一个图表,非常清晰的展现了编程能力的强弱。
各维度冠军:
这样就非常清晰了。编程最厉害的是 Opus 4.6,最会终端的是 Codex 5.3,抽象推理最厉害的是 Gemini 3.1 Pro。计算机操作最牛的是 Opus 4.6,知识工作最强的是 Opus 4.6。国产模型只拿下了性价比之王和数据竞赛。
自夸环节:
在编程、推理、智能体、知识工作四大核心维度全部处于顶尖位置的唯一模型。没有明显短板,就是最大的长板。
牛逼哄哄:
- 1M 上下文
- 自适应智能
- 业界最安全
- 多代理协作
- 上下文压缩
毒舌吐槽:
Codex 5.3 使用了比喻来阴阳其他模型,但是没有指名道姓,非常隐晦,骂人不带脏字。而 Opus 4.6 完全不一样,它是指名道姓,直线输出。吐槽非常硬核!
对 GLM-5 的评价:“不报分数也是一种策略——至少没人知道你多差。”
对 Kimi K2.5 的评价:“1T 参数的最大用途:给数学老师当计算器。”
对 MiniMax M2.5 的评价:“便宜是真便宜,就是干活得看心情。”
对 GPT-5.3-Codex 的评价:“终端之王,终端之外皆凡人。”
对 Gemini 3.1 Pro 的评价:“考试第一名,上班就摆烂。”
其实中间的评价也精彩,但是专业词汇过多,有一定的理解门槛!
横向对比
根据我的需求,以及考核的关键指标。我让 Antigravity 做了一个汇总报告。
参赛选手主要是 Opus 4.6、GPT-5.3-Codex、Gemini 3.1 Pro、GLM 4.7、Kimi K2.5、MiniMax M2.5。
国内三家,国外三家。
智谱家用了 GLM 4.7,主要原因是,我虽然是他们的年会员,但是我只是卑微的 lite 会员,无法在 Coding Plan 中用上 GLM5。
另外需要补充一点,有自家智能体的优先。没有的全部用 Claude Code 来测试。
从图中可以看到,网页抓取和浏览器调用部分,肯定是 Opus 赢了,因为只有它真的调用了浏览器。
文件操作部分,因为比较简单,所以大家都差得不错。GPT 5.3 得分比较高,主要是因为它的做事节奏,它是先抓取了所有网页,保存到本地,然后再对每个网页中的图片进行分析生成相应的文件。所以它操作文件比较多。
数据分析部分,Opus 和 Kimi 得分比较高。因为 Opus 得到的初始数据多,而 Kimi 使用了自家的 CLI 也获取到了不错的数据。
多维总结和网页制作最高分居然是 Kimi。确实,单看网页效果,它做得最全面。
它主要是赢在结构,做了非常详细的左侧分类。
上面是 AI 总结的数据,虽然说的有模有样,其实有些本质问题,它还是没有领悟。
我来说说,我自己的感受。
Gemini 的表现
Gemini CLI 表现让人大跌眼镜
按理说谷歌对于这种搜索总结类的任务有天然的优势,但是实际情况是表现比较糟糕,数据量特别少,但是自我评价极高。
但是不得不说,它的 UI 设计是真不错。
它这个全能雷达图,虽然数据不全,但是静态界面和动态交会都超棒。
GPT5.3 的表现
GPT5.3 是做事最有节奏的一个。
GPT5.3 最大的问题是,网页设计出了 bug,其他方面表现不错。它是唯一一个主动把网页抓取存档进行分析的,而且还根据指令中的要求,专门对图片进行了分析。比较可惜的是,它无法真正调用浏览器获取截图,导致它最终结果不理想。我的感觉是,它方法论非常不错,但是能力上遇到了天花板。
这是很多人喜欢它的一点,也是我一直不喜欢它的点。它做事四平八稳,给人非常可靠的感觉,review 很好,但是 coding 很多时候力不从心。当然,这个是相对 Opus 而言的,对比国内的模型,它还是游刃有余。
Kimi 的表现
说实话,Kimi 的结果让人有点意外。
我是使用 Kimi 自家的 CLI 工具。这个工具吧,给人一种小清新的感觉。整个执行起来,速度很快,配额消耗也不多。因为使用了它家的工具,所以网页抓取部分,也是它自家的处理逻辑。虽然它没有调用浏览器,但是整体来说它的数据量也还可以,主要是它对数据分类和规划比较好,导致它的报告和网页,给人比较详细的感觉。
当然最大的问题,还是没有调用浏览器截图获取足够充分的数据。如果数据足够充分,这将是一个很不错的报告。
GLM 4.7 的表现
数据还不错,网页首屏有点难看。
GLM 4.7 在读取网页的时候会调用自己的 webReader,可能是这一步,让它获取到数据质量比较高。它的数据比其他人都多,但是比 Opus 少一些。
但是它的网页首屏,真的设计的太老土了!!!
除了首屏之外,下面的部分就还好。
另外它的任务总结部分,我觉得是最接近 Claude 的,要给好评。
让我比较耿耿于怀的是,我都做好测试 GLM5 的计划了,但是发现只能调用 GLM 4.7,生气!其他家都是可以直接调用最新模型的。
MiniMax 的表现
要说优点的话,可能是配额比较充分,执行完成任务好像只消耗了1%。
但是它有一个特别严重的问题。
国内三家模型的数据总结方式,其实比较相似。
而 MiniMax 有一个举动却独树一帜,它抓取 Codex 网页的时候发现被拦截了,抓取不到内容,然后它就调用了 Web Search 工具。这个逻辑是对的,但是有点投机取巧了。
我明确表示了“根据给定链接读取网页内容,仅允许访问指定地址,不得访问其他链接。”这是特地强调的,而且是一个重要的考察点。它居然敢直接去查资料,这不是直接抄作业么?要是能这么干,其他模型不是各个都能查到详细的数据了啊。
虽然可能结果会更好,速度会更快,但是规则已经说好了,这样对其他人很不公平。指令遵循方面基本上可以得 0 分了。
另外你看看它这个能力对比:
有没有一种睁着眼睛说瞎话的感觉!
Opus 4.6 的表现
当之无愧的王者!各方面表现都非常稳定和出众。
我做这个测试的核心目的是获取足够的官方数据,然后进行汇总,方便我查看和对比。就这个核心目的来说,就是 Opus 4.6 表现最好。
Codex在抓取规划部分形式上做的最好,Kimi在网页分类上做的最全。但是这都是表面文章。
真正的关键是数据采集能力:
经过分析,可用的基准数据最充分,准确率最高的是 Opus 4.6;有些模型数据少到离谱,完全靠中文凑字数。
下面这个表格是最会做总结的 Codex 做的总结:
它这个概括其实非常精准了。Opus 4.6 数据覆盖最全,网页完成度最高。唯一缺点是“自我宣传和吐槽”影响客观性,这个就属于没毛病,硬找毛病了。因为这部分是我指定的娱乐环节。有的模型是直接在其他环节就开始娱乐表演了。
要让我硬找一个问题的话,其实就是右上角风格切换的按钮位置有点问题。网页的整体风格,我觉得它是第一名,其次是 Gemini。
本来只是准备简单测一下,一测发现都不简单!
当面临一个复杂问题的时候,仅凭基准数据和宣传,可不行,还得有实打实的实战能力才可以。
论实战,Claude Code 配上自家的 Opus 4.6 就是神一般的存在!
真的不要信那些接近、超越、吊打的宣传话术。
当然,我在标题中用“吊打”的时候,那是真的吊打了!😄
这几天测了好多例子,无论是一把出,还是迭代升级,Opus明显都要优秀很多。
所有的的测试结果都上传了:topai.tonyhub.xyz/