阿里通义千问团队上周发布了 Qwen3.6-Max-Preview,定位为下一代旗舰模型的早期预览版。HN 上 566 分,评论区的讨论比模型本身还有意思。
数据先说话
Qwen3.6-Max-Preview 在六项编程基准上拿到了最高分:SWE-bench Pro(57.3)、Terminal-Bench 2.0(65.4)、SkillsBench、QwenClawBench、QwenWebBench 和 SciCode。相比前代 Qwen3.6-Plus,智能体编程能力提升显著 — SkillsBench +9.9、SciCode +6.3、NL2Repo +5.0。

世界知识方面也有进步:SuperGPQA +2.3、QwenChineseBench +5.3。指令遵循(ToolcallFormatIFBench +2.8)同样在提升。
有意思的是竞争格局
同一天,Kimi K2.6 也发布了。HN 评论区有人做了直接对比:
- Qwen3.6-Max-Preview:7.8/M output
- Kimi K2.6:4/M output
在 SWE-Bench Pro 和 Terminal-Bench 2.0 两个重叠基准上,Kimi 略胜(58.6 vs 57.3,66.8 vs 65.4)。价格还便宜近一半。
这说明什么?中国 AI 模型之间的竞争已经进入了"性价比"阶段。不再是"能不能做到"的问题,而是"同样的能力,谁更便宜、更快"。
真正值得关注的信号
HN 评论区有一条很有代表性的观点:
"Opus 4.7 is SOTA... but I have used GLM 5.1 for things Opus couldn't do and have seen it make better code."
这不是个例。2026 年的现实是:没有一个模型在所有任务上都是最优的。Opus 在深度推理上强,但 Qwen 在中文语境和特定编程任务上可能更好。GLM 在某些代码生成场景下表现出人意料。
这正是多模型策略的价值所在。像 OfoxAI(ofox.ai)这样的聚合平台,让你在 Qwen、Claude、GPT、Kimi 之间按任务切换,不用为每个模型单独管理 API key 和计费。当模型之间的差距从"代差"变成"偏好",灵活切换就是最大的竞争力。
几个值得思考的点
第一,Qwen 选择了"Preview"发布策略。不等完美,先放出来让社区测试。这和 OpenAI 的 Codex、Anthropic 的 Claude Design 是同一个节奏 — 快速迭代,用真实反馈驱动优化。
第二,API 兼容性做得很聪明。Qwen3.6-Max-Preview 同时支持 OpenAI 兼容协议和 Anthropic 兼容协议。这意味着现有的 Agent 框架几乎可以零成本接入。对开发者来说,切换成本趋近于零。
第三,preserve_thinking 功能值得关注。在智能体任务中保留所有前序轮次的思维内容,这对多步推理和长链任务很关键。不是所有模型都在这个方向上投入。
我的判断
Qwen3.6-Max-Preview 还是预览版,距离稳定版还有距离。但它传递的信号很清晰:中国 AI 模型已经不是在追赶,而是在特定赛道上领跑。
2026 年的 AI 开发者不应该忠于任何一个模型。最聪明的做法是保持灵活,按任务选模型,按成本选方案。前沿模型的竞争越激烈,开发者的选择就越多,成本就越低。
这是好事。