Qwen 3.6-Plus 上线一周,我拿它和 Claude Opus 4.6、GPT-5.4 做了一轮 Agent 实战对决

0 阅读5分钟

上周 Qwen 3.6-Plus 发布的时候,我朋友圈被刷了整整两天。"国产最强编程模型""Terminal-Bench 干翻 Claude",这种标题我已经免疫了,毕竟每个月都有人号称"最强"。

但这次我还是上手试了。手里正好有个 Agent 项目要交付,需要模型自己拆解任务、调工具、写代码、跑测试。与其看别人跑分,不如自己拿真实业务跑一轮。

这篇不是跑分报告,是我这几天拿 Qwen 3.6-Plus、Claude Opus 4.6、GPT-5.4 三个模型做同一组 Agent 任务的真实记录。

测试场景

我选了三个工作中常碰到的 Agent 任务:

  1. 多步骤数据处理:从三个不同格式的数据源(CSV、JSON API、网页表格)抓数据,清洗合并后生成可视化报告。模型得自己决定用什么工具、怎么处理脏数据。

  2. 仓库级 Bug 修复:一个 200+ 文件的中型项目,丢个 GitHub Issue 进去,让模型自己定位、改代码、跑测试,直到 CI 过。

  3. 多轮对话式工具编排:客服 Agent 原型,用户丢来一个模糊需求,模型要追问、确认、调多个外部 API(搜索、数据库、邮件),最后给出结构化回复。

数据处理:Qwen 快但毛糙,Claude 慢但靠谱

三个模型都完成了任务,过程差别不小。

Qwen 3.6-Plus 速度确实猛,大概 3 分钟出了完整报告。但它处理网页表格的时候翻了车:把一列百分比数据当字符串直接拼进去,后面图表的 Y 轴全是乱的。这种粗心挺典型的,快是真快,就是不太检查自己的活。

Claude Opus 4.6 花了 7 分钟,差不多是 Qwen 的两倍。不过它在动手之前先检查了每个数据源的 schema,发现百分比那列需要类型转换,在清洗阶段就处理好了。报告拿到手基本能直接用。

GPT-5.4 居中,5 分钟左右。每一步都输出了很详细的思考过程,数据处理本身没出错,但生成的 HTML 报告样式太朴素,得自己补 CSS。

我的体感:要"一次跑通直接用",选 Claude;能接受"快速出草稿自己微调",Qwen 速度优势太大了。

仓库级 Bug 修复:差距最明显的一轮

这轮 Claude Opus 4.6 基本是碾压。它先 grep 了关键错误信息,定位到两个可疑文件,然后去读了相关的测试用例来理解预期行为,最后改了 3 个文件共 12 行代码,跑测试一次过。整个过程像看一个有经验的同事 debug。

GPT-5.4 定位问题也挺快,但改代码的时候有点手痒,除了核心 bug 还顺手重构了两个函数。改动一大,测试多挂了两个 case,又花了两轮才修好。过度修复这个毛病在 Agent 场景里其实很致命,你让它修一个 bug,它给你引入两个。

Qwen 3.6-Plus 在这个场景明显吃力,理解跨文件依赖关系时卡了好几次。第一次修改只处理了表面症状,根因没碰到,反复了四轮才通过。Terminal-Bench 2.0 的高分没体现出来,那个测试更偏命令行操作,仓库级 debug 考验的是长上下文下的代码理解,不太一样。

当然 Qwen 才上线一周,后续优化空间还很大。但目前复杂项目级任务上,和 Claude 确实有代差。

多轮对话编排:GPT 的主场

这轮 GPT-5.4 赢了。它追问的逻辑很自然,不像填表单,更像在真的跟你聊。工具调用时机也好,用户还没说完它就开始预取可能要用的数据了。

Claude 的工具编排依然精准,但对话风格偏正式,追问方式有点像在走流程。准确度没问题,就是聊起来有距离感。

Qwen 中规中矩。偶尔会忘记前几轮的约束条件导致重复追问,但调中文 API 的时候明显更顺,不需要额外处理编码。这个优势在做国内业务的时候挺实在的。

钱的问题

指标Qwen 3.6-PlusClaude Opus 4.6GPT-5.4
输入价格~$0.9/M tokens~$15/M tokens~$7.5/M tokens
输出价格~$3.5/M tokens~$75/M tokens~$30/M tokens
推理速度极快(约 3x Claude)中等
上下文窗口1M1M1M
三轮测试总花费~$0.4~$8.5~$3.2

同样的测试跑下来,Claude 的花费是 Qwen 的 20 多倍。效果最好的模型价格也最离谱,这事没什么意外的。

所以实际项目里我不会只绑一个模型。简单任务丢给 Qwen 或者 GPT-5.4-mini,复杂的才上 Claude Opus。我现在的做法是通过 API 聚合平台统一接入,一个 Key 切换所有模型,按任务复杂度动态路由。不用每家单独注册充值,管理成本低很多。

总结

Claude Opus 4.6 在代码理解和复杂推理上是目前天花板,大型代码库和多文件修改的场景值那个价。GPT-5.4 最全面,对话能力突出,GUI 操作能力(OSWorld 75% 超过人类专家基线)是独家的。Qwen 3.6-Plus 的性价比太猛了,速度快 3 倍价格低 17 倍,中等复杂度以下的 Agent 任务拿它跑完全没问题,国内开发者用阿里云百炼直接调用也不折腾。

做 Agent 开发别押宝单一模型,按任务分级、按成本路由才是正经思路。


做 Agent 相关项目的同学评论区聊聊,你实际用下来觉得哪个模型最顺手?后面打算再测 Gemini 3.1 Pro 和 DeepSeek V4,有结果了来更新。