厉害了!阿里Qwen3-Max编程69.6分进第一梯队,综合能力全球第三

265 阅读4分钟

大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。

先说个小插曲。

之前我写了篇关于阿里Qoder的文章,没想到竟然得到了官方的认可,还邀请我去云栖大会当Qoder分论坛的分享嘉宾。

虽然因为个人原因最终没能到现场,但真的很遗憾错过了这次盛会。

不过今天看到云栖大会阿里一口气发了7个模型,特别是Qwen3-Max的表现,我还是很激动的。

这次真的不一样了。

一口气发布七个顶级模型

这次云栖大会确实震撼,阿里同时发布了:

  • Qwen3-Max:超万亿参数旗舰模型
  • Qwen3-VL:能操作电脑和手机界面的视觉模型
  • Qwen3-Omni:真正的全模态模型,文本图像音频视频全覆盖
  • Qwen3-Next:80B参数只激活3B,性能却媲美235B旗舰版
  • Qwen3-Coder-Plus:编程能力大幅升级
  • 通义万相Wan2.5-preview:首次实现音画同步的视频生成
  • Qwen-Image-Edit-2509:开源图片编辑模型

对于其他模型,大家感兴趣的可以自行了解,这里我们重点介绍下Qwen3-Max。

那个让人震惊的69.6分

需要说明的是,Qwen3-Max分为InstructThinking两个版本,目前发布的是Qwen3-Max-Instruct版本,专注于指令理解和执行。

而Thinking版本还在训练中,主要针对复杂推理任务。

先说最让我激动的数据:Qwen3-Max-Instruct在SWE-bench Verified测试中拿到了69.6分

图片

SWE-bench Verified是检验AI编程能力的金标准,包含500个来自GitHub真实项目的软件工程问题。69.6分意味着什么?就是500个问题,Qwen3-Max能解决约350个!

这已经是全球第一梯队的水平了,和Claude 4 Opus、GPT-5基本一个档次。

一年前,你敢想象是中国的模型拿到这个成绩吗?

数学竞赛双满分,推理能力突破

另一个值得关注的成绩是,Qwen3-Max-Thinking版本在AIME 25和HMMT这种顶级数学竞赛测试中,取得了100%的准确率

图片

AIME和HMMT都是世界知名的高中数学竞赛,对逻辑推理能力要求很高。

虽然这是结合了代码解释器和测试时计算技术的结果,但这种工具调用能力本身也很有价值。

需要注意的是,Thinking版本目前还在训练中,正式版本预计不久后发布。

Chatbot Arena稳居全球前三

在Chatbot Arena这个全球最权威的大模型盲测排名中,Qwen3-Max稳居第三,超越了GPT-5-Chat。

图片

这不是数字游戏,而是真正的用户体验反馈。

全世界的用户在不知道模型身份的情况下,觉得Qwen3-Max比GPT-5-Chat更好用。

Qwen3-Max-Thinking:即将到来的王炸

目前发布的是Qwen3-Max的常规版本,但更让人期待的是Qwen3-Max-Thinking

这个推理增强版本集成了代码解释器,运用并行测试时计算技术,在需要深度思考的任务上表现更加出色。

前面提到的AIME 25、HMMT双满分,就是这个版本的成绩。

虽然还在训练中,但官方透露很快就会发布。

到时候,中国AI的推理能力可能会再上一个台阶。

如何使用Qwen3-Max

  1. 官方网站chat.qwen.ai

图片

  1. 阿里云百炼help.aliyun.com/zh/model-st…

图片

中国AI的重大突破

看到这些成绩确实很感慨。

回看这两年的发展轨迹:从对标GPT追赶OpenAI,到现在Qwen3-Max在编程能力、数学推理、用户体验等多个维度上跻身全球前三,这个变化是显著的。

从SWE-bench Verified的69.6分,到数学竞赛的双满分,再到LMArena的全球第三,每一个数字背后都是技术实力的体现。

需要注意的是,Qwen3-Max目前是闭源模型,想要本地部署的用户还需等待开源版本。

写在最后

从Qoder到Qwen3-Max,阿里在AI编程这条路上确实走得很稳。这次虽然没能到云栖大会现场,但看到这样的技术突破,还是让人振奋的。

客观来说,这些成绩标志着中国AI在全球竞争中的地位发生了质的变化。SWE-bench Verified的69.6分、数学竞赛的双满分、LMArena的全球第三,每个数据都很有说服力。

更重要的是,这种技术突破对整个行业都有积极意义。 无论是推动AI编程工具的普及,还是降低开发门槛,都将让更多人受益。

期待Qwen3-Max-Thinking版本的正式发布,也期待这种良性竞争能推动整个AI行业更快发展。技术无国界,但技术突破确实值得为之骄傲。