大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。
先说个小插曲。
之前我写了篇关于阿里Qoder的文章,没想到竟然得到了官方的认可,还邀请我去云栖大会当Qoder分论坛的分享嘉宾。
虽然因为个人原因最终没能到现场,但真的很遗憾错过了这次盛会。
不过今天看到云栖大会阿里一口气发了7个模型,特别是Qwen3-Max的表现,我还是很激动的。
这次真的不一样了。
一口气发布七个顶级模型
这次云栖大会确实震撼,阿里同时发布了:
- Qwen3-Max:超万亿参数旗舰模型
- Qwen3-VL:能操作电脑和手机界面的视觉模型
- Qwen3-Omni:真正的全模态模型,文本图像音频视频全覆盖
- Qwen3-Next:80B参数只激活3B,性能却媲美235B旗舰版
- Qwen3-Coder-Plus:编程能力大幅升级
- 通义万相Wan2.5-preview:首次实现音画同步的视频生成
- Qwen-Image-Edit-2509:开源图片编辑模型
对于其他模型,大家感兴趣的可以自行了解,这里我们重点介绍下Qwen3-Max。
那个让人震惊的69.6分
需要说明的是,Qwen3-Max分为Instruct和Thinking两个版本,目前发布的是Qwen3-Max-Instruct版本,专注于指令理解和执行。
而Thinking版本还在训练中,主要针对复杂推理任务。
先说最让我激动的数据:Qwen3-Max-Instruct在SWE-bench Verified测试中拿到了69.6分。
SWE-bench Verified是检验AI编程能力的金标准,包含500个来自GitHub真实项目的软件工程问题。69.6分意味着什么?就是500个问题,Qwen3-Max能解决约350个!
这已经是全球第一梯队的水平了,和Claude 4 Opus、GPT-5基本一个档次。
一年前,你敢想象是中国的模型拿到这个成绩吗?
数学竞赛双满分,推理能力突破
另一个值得关注的成绩是,Qwen3-Max-Thinking版本在AIME 25和HMMT这种顶级数学竞赛测试中,取得了100%的准确率。
AIME和HMMT都是世界知名的高中数学竞赛,对逻辑推理能力要求很高。
虽然这是结合了代码解释器和测试时计算技术的结果,但这种工具调用能力本身也很有价值。
需要注意的是,Thinking版本目前还在训练中,正式版本预计不久后发布。
Chatbot Arena稳居全球前三
在Chatbot Arena这个全球最权威的大模型盲测排名中,Qwen3-Max稳居第三,超越了GPT-5-Chat。
这不是数字游戏,而是真正的用户体验反馈。
全世界的用户在不知道模型身份的情况下,觉得Qwen3-Max比GPT-5-Chat更好用。
Qwen3-Max-Thinking:即将到来的王炸
目前发布的是Qwen3-Max的常规版本,但更让人期待的是Qwen3-Max-Thinking。
这个推理增强版本集成了代码解释器,运用并行测试时计算技术,在需要深度思考的任务上表现更加出色。
前面提到的AIME 25、HMMT双满分,就是这个版本的成绩。
虽然还在训练中,但官方透露很快就会发布。
到时候,中国AI的推理能力可能会再上一个台阶。
如何使用Qwen3-Max
- 官方网站:chat.qwen.ai
中国AI的重大突破
看到这些成绩确实很感慨。
回看这两年的发展轨迹:从对标GPT、追赶OpenAI,到现在Qwen3-Max在编程能力、数学推理、用户体验等多个维度上跻身全球前三,这个变化是显著的。
从SWE-bench Verified的69.6分,到数学竞赛的双满分,再到LMArena的全球第三,每一个数字背后都是技术实力的体现。
需要注意的是,Qwen3-Max目前是闭源模型,想要本地部署的用户还需等待开源版本。
写在最后
从Qoder到Qwen3-Max,阿里在AI编程这条路上确实走得很稳。这次虽然没能到云栖大会现场,但看到这样的技术突破,还是让人振奋的。
客观来说,这些成绩标志着中国AI在全球竞争中的地位发生了质的变化。SWE-bench Verified的69.6分、数学竞赛的双满分、LMArena的全球第三,每个数据都很有说服力。
更重要的是,这种技术突破对整个行业都有积极意义。 无论是推动AI编程工具的普及,还是降低开发门槛,都将让更多人受益。
期待Qwen3-Max-Thinking版本的正式发布,也期待这种良性竞争能推动整个AI行业更快发展。技术无国界,但技术突破确实值得为之骄傲。