文章导读:
Qwen3.5-397B-A17B 自发布以来便被称为“开源旗舰”:397B 参数规模、MoE 架构仅激活 5% 参数、性能对标多家闭源模型。参数与 benchmark 看起来足够耀眼,但真正的问题是——在真实任务中它到底表现如何?本文通过逻辑推理、多模态理解以及多项编程生成案例,对 Qwen3.5-397B-A17B 进行一系列实测。从能力表现到工程细节,再到 MoE 架构带来的效率优势,我们尝试回答一个实际的问题:这款 400B 级模型,究竟有多接近真正的旗舰水平。
全文约 4300 字
阿里千问于今年除夕开始推出的 Qwen3.5 系列,包含大中小三个参数系列,而最让人难以忽视的恐怕就是这款旗舰级的 Qwen3.5-397B-A17B。如果只看参数规模,它显然是一个典型的“巨无霸”:3970 亿参数。
🚀 1. 397B 参数只用 5%:MoE 架构的效率革命
真正值得关注的,其实并不是数字本身。虽然模型总参数达到了 397B,但在实际推理时,它只会激活约 17B 参数——不到总规模的 5% 。借助这种稀疏专家(MoE)架构,模型既能保留大模型的知识储备,又能显著降低计算成本。
简单来说,它更像是一个拥有数百名专家的智囊团:当你提出问题时,系统只会唤醒最相关的一小部分专家,而不是让所有人同时工作。这种设计带来的直接结果是:
- 性能接近甚至对标闭源旗舰模型
- 推理效率大幅提升
- 部署成本显著下降
在官方测试中,Qwen3.5-397B-A17B 的综合能力已经可以与 GPT-5.2、Claude 4.5 Opus、Gemini-3 Pro 等模型处于同一梯队。而在一些推理、编程和多模态任务上,它甚至能够与更大规模的模型打成平手。
🌐 2. 原生多模态:从“外挂能力”到“底层能力”
Qwen3.5 还有一个非常关键的变化:原生多模态架构。
早期模型的视觉能力通常是后期“外挂”上去的模块——先训练语言模型,再接入视觉编码器。但 Qwen3.5 选择了另一条路线:在预训练阶段就让文本和视觉 token 一起学习。
这种设计让模型在处理跨模态任务时更加自然,比如:
- 看图推理
- 图文混合文档解析
- 视频理解
- 视觉问答
同时,模型还支持视频理解、空间推理和图像细节分析等能力,使其在构建多模态 Agent 时具有更大的潜力。
📊 3. 从 0.8B 到 397B:完整的模型谱系
Qwen3.5 提供了一个覆盖极广的模型规模谱系,从轻量模型到旗舰模型一应俱全。
官方目前已经发布了三条主要产品线:
| 系列 | 代表模型 | 参数规模 | 主要特点 | 适用场景 |
|---|---|---|---|---|
| Small | 0.8B / 2B / 4B / 9B | 8亿 – 90亿 | 轻量级模型,默认关闭推理模式 | 本地部署、移动端、轻量应用 |
| Medium | 27B / 35B-A3B | 270亿 – 350亿 | 性能与成本平衡 | 开发者应用、中型业务 |
| Large | 122B-A10B | 1220亿 | 强推理与多模态能力 | 企业级 AI 系统 |
| Ultra | 397B-A17B | 3970亿 | 旗舰模型,MoE 架构,仅激活 17B | 复杂推理、多模态 Agent |
这意味着,无论是普通开发者还是大型企业,都可以在成本与能力之间找到合适的平衡点。
当然,参数规模和 benchmark 只能说明一部分问题。一个模型真正的实力,往往要在真实任务中才能体现出来。在之前的测评中,我们已经验证了Medium中型系列模型的实力,本次,我们会通过一系列实际案例,对 Qwen3.5-397B-A17B 进行实测,看看这款 “开源旗舰级” 模型,在真实场景中到底表现如何。
I. 实测模型基础信息
(1)测评目的:
本评测侧重模型对逻辑,数学,编程,多模态,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。
(2)测评方法:
本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题),多模态(共20题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。
题库地址:docs.google.com/spreadsheet…
💡记分规则:
按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。
(3)测评工具:
-
所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
-
编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒 + Skills(本期实测使用 brand-guidelines 和 frontend-design)
编程案例分数评级:
⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。
⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。
⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。
⭐⭐及以下 C级(不合格): 不可用,存在明显问题。
II. 测试结果总览
302.AI 多模态模型测评分数榜单:
III. 案例展示
案例 1:多模态逻辑推理
提示词:根据图中提示推理出正确密码
正确答案:根据 A+B+C+D+E=D*10+E
情况 A - 57620
5+7+6+2+0=2*10+0
20=20
CaseB - 57628
5+7+6+2+8=2*10+8
28=28
Qwen3.5-397b-a17b 只推测出了一种情况
案例 2:程序化 SVG 图形生成
提示词:绘制一只鹈鹕骑自行车的SVG
Qwen3.5-397b-a17b 的输出在结构上是完整且逻辑清晰的,风格化突出,但鹈鹕与自行车结构的耦合仍不够自然。
| 测评点 | Qwen3.5-397b-a17b |
|---|---|
| 语义表达准确度 | ⭐⭐⭐⭐ |
| 图形构造复杂度 | ⭐⭐⭐ |
| 视觉设计质量 | ⭐⭐⭐⭐ |
案例 3:前端编程-小程序
提示词:
请担任高级全栈架构师和产品经理的角色,为我设计和生成一个类似“菜鸟裹裹”或“顺丰速运”的快递服务微信小程序的项目方案与核心代码。
一、项目核心目标
开发一个集“快递寄件、运单查询、上门取件预约、服务点查找”于一体的综合性快递服务小程序。核心特点是:流程标准化、状态透明化、操作便捷化。
二、详细需求说明
用户端核心功能模块:
首页/快速寄件:
- 核心寄件表单:寄/收件人信息(姓名、电话、地址)、物品信息(类型、重量/数量、备注)、取件时间选择。
- 一键复制常用地址或从地址簿选择。
- 实时运费估算功能(根据地址、重量模拟计算)。
运单查询(核心功能):
- 通过运单号或扫码查询快递物流详情。
- 以清晰的时间轴形式展示物流状态(如:已下单、快递员已取件、运输中、到达网点、派送中、已签收)。
- 支持同时添加并管理多个运单(我的快递)。
上门取件预约管理:
- 展示已预约的取件订单列表(待取件、已完成)。
- 允许修改取件时间或取消订单。
服务网点查找:
- 基于用户位置或手动输入地址,显示附近的快递网点、智能柜位置。
- 展示网点信息(名称、地址、距离、营业时间、联系方式)。
- 集成简易地图视图进行位置展示。
个人中心:
- 我的地址簿管理(增删改查)。
- 我的运单历史记录。
- 在线客服入口。
技术栈与框架要求:
- 前端: 使用微信小程序原生框架,UI组件库推荐使用Vant Weapp,因其有丰富的表单和列表组件。需集成微信小程序地图组件(Map)。
- 后端(模拟/简化): 使用Node.js (Express) 提供API。本次重点模拟核心业务流程,数据库可先用JSON文件模拟。
- 关键集成(模拟): 物流查询API(可用模拟数据实现)、地图选址(模拟坐标点)、微信支付(模拟流程)。
交付要求:
第一步: 输出项目整体目录结构。
第二步: 输出核心数据结构的JSON格式定义(重点:
User用户,Address地址,ExpressOrder寄件订单,Logistics物流轨迹)。第三步: 优先实现并交付以下关键页面的前端代码(WXML, WXSS, JS) 和对应的后端API接口定义(路径、方法、请求/响应示例):
快速寄件页:完整的表单验证与提交逻辑。运单查询结果页:物流时间轴组件的实现与数据渲染。服务网点页:静态网点数据列表与地图组件的集成展示。
Qwen3.5-397b-a17b 输出效果:
✅ 优势项:
- 业务逻辑完善,运费计算+订单状态转换+物流时间轴渲染完整
- 交互反馈弹效果佳,设置弹窗滑入、标签栏状态切换、字体系统层级完善
❌ 缺陷:
- 缺乏核心动画:无地图动态效果(仅静态占位)、无物流追踪进度展示
- 停留于演示层面:订单号生成规则简单、多个组件仅为模拟展示
| 测评点 | Qwen3.5-397b-a17b |
|---|---|
| 功能完整性 | ⭐⭐⭐⭐ |
| 视觉设计 | ⭐⭐⭐⭐ |
| 交互逻辑 | ⭐⭐⭐ |
案例 4:交互式动画
提示词:
编写单页 HTML,使用 Canvas 实现一个沉浸式天气切换系统。
需包含‘晴天’、‘暴雨’、‘暴雪’三种模式:
- 晴天:展示动态云层与柔和光效;
- 暴雨:雨滴具有物理倾斜角,落地生成飞溅粒子,并伴随随机屏幕闪电;
- 暴雪:雪花缓慢飘落,叠加水平正弦波轨迹。 要求:点击按钮平滑切换天气,场景光照与背景色需自然过渡,粒子动画需流畅运行。
Qwen3.5-397b-a17b 输出效果:
✅ 优势项:
- 技术实现较扎实,雨滴飞溅粒子带重力模拟,闪电随机触发且分段逼真
- 模块化的粒子系统,每个天气类型都有独立的类,粒子生命周期结束会自动移除
- 天气状态切换时背景色和粒子透明度平滑过渡,无突兀感
❌ 缺陷:
- 视觉模拟缺乏细节,云朵重复绘制,闪电模式单一,无积雪效果
- 粒子数量固定,不能根据画布大小动态匹配
| 测评点 | Qwen3.5-397b-a17b |
|---|---|
| 算法实现 | ⭐⭐⭐⭐ |
| 动态生成动画 | ⭐⭐⭐⭐ |
| 视觉设计与交互 | ⭐⭐⭐ |
案例 5:网页复刻
提示词:复刻录屏中的网页
Qwen3.5-397b-a17b 的输出基本复现了页面结构和核心视觉元素,然而视觉和动画细节仍与原版网页差别较大,多个关键 UI 元素被简化,整体来看更像是一次结构级复刻。
IV. Qwen3.5-397b-a17b 模型实测结论
从除夕首发到现在,Qwen3.5-397B-A17B 一直带着“开源旗舰”的光环。参数接近 4000 亿、激活不到 5%、性能对标闭源……这些头衔和数据确实够震撼。但当我们把它拽进真实任务里,它究竟表现如何?
先说结论:这是一款用工程换性能、用架构换效率的里程碑式模型。它不完美,但足以让开发者意识到:顶级大模型的‘入场券’,不再是百万级的算力预算。
🧠 1. 综合能力:开源模型中的旗舰梯队
从整体测试结果来看,Qwen3.5-397B-A17B 的综合能力已经稳稳进入当前开源模型的第一梯队。在逻辑推理、编程生成、多模态理解等多个维度上,它都展现出了接近甚至对标闭源旗舰模型的实力。
在不同类型的任务中,模型整体表现较为均衡:逻辑推理与编程类任务稳定性较高,多模态任务表现良好但存在一定波动。结合官方 benchmark 数据来看,其整体能力已经能够与 GPT-5.2、Claude 4.5 Opus、Gemini-3 Pro 等闭源旗舰模型处于同一竞争梯队。
🧩 2. 多模态优势明显,工程能力仍待打磨
从实际测试体验来看,Qwen3.5-397B-A17B 的能力表现呈现出一种比较典型的结构:多模态理解是明显亮点,而工程生成能力则更加偏向稳定型提升。
首先,多模态能力确实是本次 Qwen3.5 系列最值得关注的进步之一。得益于其原生多模态架构,模型在图像理解、图文推理以及视觉问答等任务中整体表现较为自然。
而相比之下,模型在编程与工程生成任务中的表现则更接近一种 “稳定但未达到顶尖” 的状态。在编程任务实测表现中,Qwen3.5-397B-A17B 通常能够快速搭建完整的代码结构,并实现核心业务逻辑,这说明模型在结构化代码生成与工程逻辑组织方面已具备较高成熟度。但在进一步的细节层面,例如视觉实现质量、交互设计精细度以及整体可交付性上,生成结果仍然与当前闭源顶尖模型存在一定差距。
换句话说,Qwen3.5-397B-A17B 在编程类任务中的进步更多体现在生成稳定性的提升,而不是在设计质量或工程完成度上实现质的突破。
🚀 3. 性能与成本:MoE 架构带来的效率优势
从模型架构来看,Qwen3.5-397B-A17B 的一个核心特点是采用 MoE(Mixture of Experts)稀疏专家架构。
虽然模型总参数规模达到 397B(3970 亿),但在实际推理时仅激活约 17B 参数,也就是不到总规模的 5%。这样既保留了大模型的知识容量,又显著降低了推理计算成本。相比同规模期间模型,这一成本水平处于相对可控范围。
因此,对开发者来说,Qwen3.5-397B-A17B 的真正价值不仅仅是在于能力上的提升,而是在于通过 MoE 架构实现了性能与成本之间更合理的平衡。
综合来看,Qwen3.5-397B-A17B 也许还称不上一个“完美模型”。在工程细节、视觉生成和复杂推理等方面,它与顶尖闭源模型之间仍存在差距。但这种差距,正在以肉眼可见的速度缩小。
能力的上限在继续提升,而使用的门槛却在不断下降。当你想到这个能写代码、能看视频、能处理 200 多种语言的大脑,只需要一台 Mac 就能唤醒时,你很难不意识到:顶级模型和普通开发者之间的距离,已经没有想象中那么远了。