厉害了！阿里Qwen3-Max编程69.6分进第一梯队，综合能力全球第三阿里云栖大会发布Qwen3-Max，在SWE-b

大家好，我是子昕，一个干了10年的后端开发，现在在AI编程这条路上边冲边摸索，每天都被新技术追着跑。

先说个小插曲。

之前我写了篇关于阿里Qoder的文章，没想到竟然得到了官方的认可，还邀请我去云栖大会当Qoder分论坛的分享嘉宾。

虽然因为个人原因最终没能到现场，但真的很遗憾错过了这次盛会。

不过今天看到云栖大会阿里一口气发了7个模型，特别是Qwen3-Max的表现，我还是很激动的。

这次真的不一样了。

一口气发布七个顶级模型

这次云栖大会确实震撼，阿里同时发布了：

对于其他模型，大家感兴趣的可以自行了解，这里我们重点介绍下Qwen3-Max。

需要说明的是，Qwen3-Max分为Instruct和Thinking两个版本，目前发布的是Qwen3-Max-Instruct版本，专注于指令理解和执行。

而Thinking版本还在训练中，主要针对复杂推理任务。

先说最让我激动的数据：Qwen3-Max-Instruct在SWE-bench Verified测试中拿到了69.6分。

SWE-bench Verified是检验AI编程能力的金标准，包含500个来自GitHub真实项目的软件工程问题。69.6分意味着什么？就是500个问题，Qwen3-Max能解决约350个！

这已经是全球第一梯队的水平了，和Claude 4 Opus、GPT-5基本一个档次。

一年前，你敢想象是中国的模型拿到这个成绩吗？

另一个值得关注的成绩是，Qwen3-Max-Thinking版本在AIME 25和HMMT这种顶级数学竞赛测试中，取得了100%的准确率。

AIME和HMMT都是世界知名的高中数学竞赛，对逻辑推理能力要求很高。

虽然这是结合了代码解释器和测试时计算技术的结果，但这种工具调用能力本身也很有价值。

需要注意的是，Thinking版本目前还在训练中，正式版本预计不久后发布。

在Chatbot Arena这个全球最权威的大模型盲测排名中，Qwen3-Max稳居第三，超越了GPT-5-Chat。

这不是数字游戏，而是真正的用户体验反馈。

全世界的用户在不知道模型身份的情况下，觉得Qwen3-Max比GPT-5-Chat更好用。

目前发布的是Qwen3-Max的常规版本，但更让人期待的是Qwen3-Max-Thinking。

这个推理增强版本集成了代码解释器，运用并行测试时计算技术，在需要深度思考的任务上表现更加出色。

前面提到的AIME 25、HMMT双满分，就是这个版本的成绩。

虽然还在训练中，但官方透露很快就会发布。

到时候，中国AI的推理能力可能会再上一个台阶。

看到这些成绩确实很感慨。

回看这两年的发展轨迹：从对标GPT、追赶OpenAI，到现在Qwen3-Max在编程能力、数学推理、用户体验等多个维度上跻身全球前三，这个变化是显著的。

从SWE-bench Verified的69.6分，到数学竞赛的双满分，再到LMArena的全球第三，每一个数字背后都是技术实力的体现。

需要注意的是，Qwen3-Max目前是闭源模型，想要本地部署的用户还需等待开源版本。

从Qoder到Qwen3-Max，阿里在AI编程这条路上确实走得很稳。这次虽然没能到云栖大会现场，但看到这样的技术突破，还是让人振奋的。

客观来说，这些成绩标志着中国AI在全球竞争中的地位发生了质的变化。SWE-bench Verified的69.6分、数学竞赛的双满分、LMArena的全球第三，每个数据都很有说服力。

更重要的是，这种技术突破对整个行业都有积极意义。 无论是推动AI编程工具的普及，还是降低开发门槛，都将让更多人受益。

期待Qwen3-Max-Thinking版本的正式发布，也期待这种良性竞争能推动整个AI行业更快发展。技术无国界，但技术突破确实值得为之骄傲。