Qwen3.6-Max-Preview 发布：中国 AI 模型正式进入前沿竞争阿里通义千问团队上周发布了 Qwen3.6

阿里通义千问团队上周发布了 Qwen3.6-Max-Preview，定位为下一代旗舰模型的早期预览版。HN 上 566 分，评论区的讨论比模型本身还有意思。

数据先说话

Qwen3.6-Max-Preview 在六项编程基准上拿到了最高分：SWE-bench Pro（57.3）、Terminal-Bench 2.0（65.4）、SkillsBench、QwenClawBench、QwenWebBench 和 SciCode。相比前代 Qwen3.6-Plus，智能体编程能力提升显著 — SkillsBench +9.9、SciCode +6.3、NL2Repo +5.0。

Qwen3.6-Max-Preview 基准测试对比

世界知识方面也有进步：SuperGPQA +2.3、QwenChineseBench +5.3。指令遵循（ToolcallFormatIFBench +2.8）同样在提升。

有意思的是竞争格局

同一天，Kimi K2.6 也发布了。HN 评论区有人做了直接对比：

Qwen3.6-Max-Preview： $1.3/M input，$ 7.8/M output
Kimi K2.6： $0.95/M input，$ 4/M output

在 SWE-Bench Pro 和 Terminal-Bench 2.0 两个重叠基准上，Kimi 略胜（58.6 vs 57.3，66.8 vs 65.4）。价格还便宜近一半。

这说明什么？中国 AI 模型之间的竞争已经进入了"性价比"阶段。不再是"能不能做到"的问题，而是"同样的能力，谁更便宜、更快"。

真正值得关注的信号

HN 评论区有一条很有代表性的观点：

"Opus 4.7 is SOTA... but I have used GLM 5.1 for things Opus couldn't do and have seen it make better code."

这不是个例。2026 年的现实是：没有一个模型在所有任务上都是最优的。Opus 在深度推理上强，但 Qwen 在中文语境和特定编程任务上可能更好。GLM 在某些代码生成场景下表现出人意料。

这正是多模型策略的价值所在。像 OfoxAI（ofox.ai）这样的聚合平台，让你在 Qwen、Claude、GPT、Kimi 之间按任务切换，不用为每个模型单独管理 API key 和计费。当模型之间的差距从"代差"变成"偏好"，灵活切换就是最大的竞争力。

几个值得思考的点

第一，Qwen 选择了"Preview"发布策略。不等完美，先放出来让社区测试。这和 OpenAI 的 Codex、Anthropic 的 Claude Design 是同一个节奏 — 快速迭代，用真实反馈驱动优化。

第二，API 兼容性做得很聪明。Qwen3.6-Max-Preview 同时支持 OpenAI 兼容协议和 Anthropic 兼容协议。这意味着现有的 Agent 框架几乎可以零成本接入。对开发者来说，切换成本趋近于零。

第三，preserve_thinking 功能值得关注。在智能体任务中保留所有前序轮次的思维内容，这对多步推理和长链任务很关键。不是所有模型都在这个方向上投入。

我的判断

Qwen3.6-Max-Preview 还是预览版，距离稳定版还有距离。但它传递的信号很清晰：中国 AI 模型已经不是在追赶，而是在特定赛道上领跑。

2026 年的 AI 开发者不应该忠于任何一个模型。最聪明的做法是保持灵活，按任务选模型，按成本选方案。前沿模型的竞争越激烈，开发者的选择就越多，成本就越低。

这是好事。