别再迷信万亿参数!阿里用397亿,把GPT-5.2搜索能力打出了血

0 阅读1分钟

我有个习惯,每年大年三十,吃完年夜饭就刷手机。

2026年2月16日,除夕夜。

当所有人都在抢红包、看春晚时,阿里直接往AI圈扔了一颗“洲际导弹”:千问 Qwen3.5 系列首款模型——Qwen3.5-397B-A17B,全量开源!

这哪是发布会?

这简直是“不让同行过好年”。

先说说,这次到底发生了什么。

你可能听说过DeepSeek,也知道去年国产大模型一路追赶GPT的故事。

但说实话,在真正的顶级基准测试上,咱们和GPT-5.2之间,一直有一条清晰可见的缝。

这条缝,在今晚,第一次出现了松动的迹象。

MMLU-Pro综合认知测评:Qwen3.5拿了87.8,GPT-5.2是87.4。

IFBench指令遵循:Qwen3.5拿了76.5,刷新了全球所有模型的纪录。

BrowseComp搜索智能体:Qwen3.5拿了78.6,GPT-5.2是65.8,Claude Opus 4.5是67.8。

你没看错!

在搜索这个单项上,Qwen3.5,把所有顶级闭源模型,全部踩在了脚下。

觉醒:这头 397B 的“猛兽”到底强在哪?

Qwen3.5-397B-A17B,听名字很复杂,其实就看两个核心数:397B 总参数,17B 激活。

这就像是一个天才团队有 397 个顶尖专家,但每次处理问题,只需最精准的 17 个人出面。

这种**“极致稀疏 MoE 架构”**带来了三个直接后果:

  1. 快到飞起: 32K 上下文吞吐量是上一代的 8.6 倍;

  2. 省到惊人: 部署成本直接砍掉 60%;

  3. 猛到离谱: 性能直接干翻了上一代万亿参数的“巨无霸” Qwen3-Max;

突破:两个“原生”,让 AI 从“复读机”变成“观察员”

过去的大模型像是在玩“拼图”,先训语言,再外挂一个眼睛。

Qwen3.5 走了一条完全不同的路:原生全模态。

“什么是原生?
就是它从出生(预训练)的第一天起,看到的就是文字 + 图像的混合体。它不是“学会了说话再去学看图”,而是“边看边学”。

  • 1M Token 超长上下文: 你把一整部 2 小时的电影《当幸福来敲门》扔给它,它能一秒钟找出第 45 分钟男主角穿了什么颜色的袜子。

  • 空间定位之王: 别说找不同了,给它一张混乱的电路图或者 3D 室内图,它的定位精度甚至超过了专门的视觉模型。

  • 多 Token 预测: 以前是蹦豆子一样一个词一个词往外吐,现在是“成串”往外冒,速度直接翻倍。

核心方法论:为什么说它是“价格屠夫”+“开源标杆”?

最让我心动的,不是性能,是那个价格。

我做了一个简单计算。

模型

输入价格(每百万Token)

Qwen3.5-Plus

0.8元

GPT-5.2

约12.7元

Gemini 3 Pro

约14.4元

Claude Opus 4.5

约9.6元

Qwen3.5,是GPT-5.2的1/15,是Gemini的1/18。

我不知道该怎么形容这种定价,视频里那个博主说“价格蜜雪冰城”,我觉得挺准的。

一杯奶茶的钱,你可以调用一百万个Token的顶级大模型。

对于普通用户,千问App和PC端直接免费体验。

对于开发者,Apache 2.0完全开源,魔搭社区和HuggingFace都可以下载,商用不需要申请,没有隐藏门槛。

很多朋友可能会问,前天发布的豆包 2.0 也很强,怎么选?

我整理了一张对比表,看完你就懂了:

维度

Qwen3.5-Plus (API)

GPT-5.2

豆包 2.0 (Seed2)

定价 (百万Token)

0.8 元 (仅为GPT的1/15)

约 12.7 元

3.2 元 (Pro版输入)

开源协议

Apache 2.0 (完全自由商用)

严密封锁

闭源 (仅限API)

拿手好戏

原生多模态、极致推理吞吐

竞赛数学、综合逻辑

实时交互、医疗/教育专项

我的看法很直接:

如果你是个人开发者或追求隐私的企业,Qwen3.5 是唯一的正解。

它不仅把“大模型”变成了“廉价水电煤”,还给了你“魔改”它的权利。

这次发布,有几个细节值得玩味

细节一:搜索智能体BrowseComp,Qwen3.5得了78.6,GPT-5.2只有65.8。

在“让AI去搜索互联网、整合信息、生成报告”这件事上,国产开源模型已经超过了所有闭源对手。

这意味着拿它来做信息收集、竞品分析、深度研究,效果反而比ChatGPT还要好。

细节二:这不是Qwen3.5系列的旗舰。

官方明确说了,这次发布的397B-A17B只是这个系列的第一款。

真正的旗舰Qwen3.5-Max,还没出来。

按照这条发展曲线,后面那个会是什么水平?

细节三:阿里在除夕夜发布,不是偶然。

春节期间,千问App上已经有超过一亿月活用户用AI买年货、订电影、点奶茶。六天内完成了1.2亿笔AI购物订单。

他们在用最强的基础模型,喂养一个正在真实世界里跑起来的个人智能体系统。

技术发布和产品落地,同步推进,这才是阿里这次真正的野心。

当然,它也不是没有短板

说了这么多好话,我也说几个问题,省得大家误会这是软文。

竞赛数学,差距还很明显。

AIME26上,Qwen3.5是91.3,GPT-5.2是96.7。

HMMT这种顶级数学竞赛,GPT-5.2接近满分,Qwen3.5还差一口气。

代码能力,还没到最顶。

SWE-bench Verified上,Qwen3.5是76.4,Claude Opus 4.5是80.9,GPT-5.2是80.0。

代码工程能力还有提升空间。

长文本处理,还有进步余地。

LongBench v2 63.2,与Gemini-3 Pro和Claude Opus 4.5仍有差距。

这些短板,官方没有回避,在技术报告里写得很清楚。

我觉得这种坦诚,反而是好事。

现状与愿景:从“动口”到“动手”的言出法随

现在的千问,已经不是那个只会写诗的 AI 了。

春节期间,千问 APP 已经在真实世界里“帮人干活”:点奶茶、订电影票、买年货。

这是马云说的那句“呵护人间烟火”的落地。

模型能力的爆发,最终是为了让我们在 iPhone、PC 上通过 Vibe Coding(氛围编程),只靠嘴说,就能让 AI 帮我们自动写代码、做报表、刷视频摘要。

所以,现在该怎么用它?

你是普通用户:

直接下载千问App,或者访问 chat.qwen.ai ,免费体验Qwen3.5-Plus。

想让AI帮你整理资料、分析文档、处理图片,扔进去就行。

你是开发者:

HuggingFace和魔搭社区都可以直接下载,Apache 2.0协议,商用无限制。

**官方推荐参数:**思考模式 Temperature=0.6,非思考模式Temperature=0.7。

支持SGLang、vLLM、Transformers、llama.cpp等主流框架,微调用UnSloth或Llama-Factory都行。

百炼API兼容OpenAI和Anthropic格式,Claude Code、Cline直接接入,无缝切换。

你是企业用户:

0.8元/百万Token的API,加上完全可私有化部署的开源权限,隐私问题和成本问题同时解决。

想说一句有点煽情的话

十年前,我们还在讨论“中国能不能做出自己的芯片”。

五年前,我们在问“国产大模型什么时候能追上GPT”。

今年除夕夜,我们看到了一个国产开源模型,在搜索智能体上,把GPT-5.2甩在了后面,然后以1/15的价格,把自己完全开源给了全世界。

我说不好这是不是“引领”,但我知道,“跟随”这个词,已经不再准确了。

互动一下

你觉得 Qwen3.5 这种“除夕突袭”的打法,会让国产 AI 在 2026 年彻底超车吗?

欢迎在评论区留言,我会抽取 3 位粉丝送出我的私藏 AI 提示词库!

祝大家新春大吉,2026,一起“言出法随”!

**“**🔗 模型开源地址:huggingface.co/Qwen
🔗 在线免费体验:chat.qwen.ai
🔗 国内镜像下载:modelscope.cn/organizatio…