Qwen 3.6-Plus 上线一周，我拿它和 Claude Opus 4.6、GPT-5.4 做了一轮 Agent 实战对决

上周 Qwen 3.6-Plus 发布的时候，我朋友圈被刷了整整两天。"国产最强编程模型""Terminal-Bench 干翻 Claude"，这种标题我已经免疫了，毕竟每个月都有人号称"最强"。

但这次我还是上手试了。手里正好有个 Agent 项目要交付，需要模型自己拆解任务、调工具、写代码、跑测试。与其看别人跑分，不如自己拿真实业务跑一轮。

这篇不是跑分报告，是我这几天拿 Qwen 3.6-Plus、Claude Opus 4.6、GPT-5.4 三个模型做同一组 Agent 任务的真实记录。

测试场景

我选了三个工作中常碰到的 Agent 任务：

多步骤数据处理：从三个不同格式的数据源（CSV、JSON API、网页表格）抓数据，清洗合并后生成可视化报告。模型得自己决定用什么工具、怎么处理脏数据。
仓库级 Bug 修复：一个 200+ 文件的中型项目，丢个 GitHub Issue 进去，让模型自己定位、改代码、跑测试，直到 CI 过。
多轮对话式工具编排：客服 Agent 原型，用户丢来一个模糊需求，模型要追问、确认、调多个外部 API（搜索、数据库、邮件），最后给出结构化回复。

数据处理：Qwen 快但毛糙，Claude 慢但靠谱

三个模型都完成了任务，过程差别不小。

Qwen 3.6-Plus 速度确实猛，大概 3 分钟出了完整报告。但它处理网页表格的时候翻了车：把一列百分比数据当字符串直接拼进去，后面图表的 Y 轴全是乱的。这种粗心挺典型的，快是真快，就是不太检查自己的活。

Claude Opus 4.6 花了 7 分钟，差不多是 Qwen 的两倍。不过它在动手之前先检查了每个数据源的 schema，发现百分比那列需要类型转换，在清洗阶段就处理好了。报告拿到手基本能直接用。

GPT-5.4 居中，5 分钟左右。每一步都输出了很详细的思考过程，数据处理本身没出错，但生成的 HTML 报告样式太朴素，得自己补 CSS。

我的体感：要"一次跑通直接用"，选 Claude；能接受"快速出草稿自己微调"，Qwen 速度优势太大了。

仓库级 Bug 修复：差距最明显的一轮

这轮 Claude Opus 4.6 基本是碾压。它先 grep 了关键错误信息，定位到两个可疑文件，然后去读了相关的测试用例来理解预期行为，最后改了 3 个文件共 12 行代码，跑测试一次过。整个过程像看一个有经验的同事 debug。

GPT-5.4 定位问题也挺快，但改代码的时候有点手痒，除了核心 bug 还顺手重构了两个函数。改动一大，测试多挂了两个 case，又花了两轮才修好。过度修复这个毛病在 Agent 场景里其实很致命，你让它修一个 bug，它给你引入两个。

Qwen 3.6-Plus 在这个场景明显吃力，理解跨文件依赖关系时卡了好几次。第一次修改只处理了表面症状，根因没碰到，反复了四轮才通过。Terminal-Bench 2.0 的高分没体现出来，那个测试更偏命令行操作，仓库级 debug 考验的是长上下文下的代码理解，不太一样。

当然 Qwen 才上线一周，后续优化空间还很大。但目前复杂项目级任务上，和 Claude 确实有代差。

多轮对话编排：GPT 的主场

这轮 GPT-5.4 赢了。它追问的逻辑很自然，不像填表单，更像在真的跟你聊。工具调用时机也好，用户还没说完它就开始预取可能要用的数据了。

Claude 的工具编排依然精准，但对话风格偏正式，追问方式有点像在走流程。准确度没问题，就是聊起来有距离感。

Qwen 中规中矩。偶尔会忘记前几轮的约束条件导致重复追问，但调中文 API 的时候明显更顺，不需要额外处理编码。这个优势在做国内业务的时候挺实在的。

钱的问题

指标	Qwen 3.6-Plus	Claude Opus 4.6	GPT-5.4
输入价格	~$0.9/M tokens	~$15/M tokens	~$7.5/M tokens
输出价格	~$3.5/M tokens	~$75/M tokens	~$30/M tokens
推理速度	极快（约 3x Claude）	慢	中等
上下文窗口	1M	1M	1M
三轮测试总花费	~$0.4	~$8.5	~$3.2

同样的测试跑下来，Claude 的花费是 Qwen 的 20 多倍。效果最好的模型价格也最离谱，这事没什么意外的。

所以实际项目里我不会只绑一个模型。简单任务丢给 Qwen 或者 GPT-5.4-mini，复杂的才上 Claude Opus。我现在的做法是通过 API 聚合平台统一接入，一个 Key 切换所有模型，按任务复杂度动态路由。不用每家单独注册充值，管理成本低很多。

总结

Claude Opus 4.6 在代码理解和复杂推理上是目前天花板，大型代码库和多文件修改的场景值那个价。GPT-5.4 最全面，对话能力突出，GUI 操作能力（OSWorld 75% 超过人类专家基线）是独家的。Qwen 3.6-Plus 的性价比太猛了，速度快 3 倍价格低 17 倍，中等复杂度以下的 Agent 任务拿它跑完全没问题，国内开发者用阿里云百炼直接调用也不折腾。

做 Agent 开发别押宝单一模型，按任务分级、按成本路由才是正经思路。

做 Agent 相关项目的同学评论区聊聊，你实际用下来觉得哪个模型最顺手？后面打算再测 Gemini 3.1 Pro 和 DeepSeek V4，有结果了来更新。