除夕夜，国产顶流压轴上线，QWEN3.5多模态开源！除夕夜，老金我刚咬了一口韭菜鸡蛋饺子。手机"叮"的一声，弹出个通知

除夕夜，老金我刚咬了一口韭菜鸡蛋饺子。手机"叮"的一声，弹出个通知。老金我瞄了一眼——Qwen3.5，上线了。饺子差点没喷出来。

赶紧打开 chat.qwen.ai，两个模型直接挂在上面，可以用了。阿里这帮人，大年三十放大招，连个发布会都没开，就这么安安静静地把东西甩出来了。

老金我放下筷子，扒了一晚上代码和文档，确认了一件事：这不是小版本迭代，这是架构级别的重构。

先说结论：Qwen3.5到底升级了什么

根据老金我除夕夜扒的HuggingFace代码库、阿里云官网和chat.qwen.ai的实际体验，帮你梳理了3个核心变化。

第一个：原生多模态。注意，是"原生"，不是"拼接"。 Qwen3之前的多模态方案是语言模型+视觉模块的两段式架构。 Qwen3.5直接把视觉感知和语言推理塞进了同一个训练框架。

阿里云官网对Qwen3.5-Plus的描述是："原生多模态合一训练，混合架构双创新突破。" 简单说，以前是两个人配合干活，现在是一个人同时搞定。

第二个：Gated Delta Networks——线性注意力机制。官方确认，Qwen3.5采用了一种叫 Gated Delta Networks 的线性注意力，跟传统的Gated Attention做了混合架构。传统Transformer的注意力计算量跟序列长度的平方成正比，Gated Delta Networks把这个关系拉成线性。

翻译成人话：处理长文本的速度快了，显存占用也降了。而且不是快了一点半点——官方实测数据：

在32k上下文长度下，Qwen3.5-397B-A17B的解码吞吐量是Qwen3-Max的 8.6倍
在256k上下文长度下，这个数字是 19.0倍
跟Qwen3-235B-A22B比，分别是3.5倍和7.2倍

老金我看到这个数据的时候饺子真喷出来了。

第三个：更大的模型家族。目前在chat.qwen.ai上已经可以直接使用的有两个版本：

Qwen3.5-Plus（闭源API模型，通过阿里云百炼提供服务，支持 1M token上下文窗口）
Qwen3.5-397B-A17B（开源旗舰模型，3970亿参数只激活170亿）

跟之前HuggingFace代码里泄露的9B和35B-A3B相比，正式发布的模型规模大得多。 3970亿总参数，比Qwen3的旗舰235B-A22B直接翻了快一倍。

总参数量达3970亿，每次前向传播仅激活170亿参数，在保持能力的同时优化速度与成本。

语言与方言支持从119种扩展至201种，词表从15万扩大到25万，在多数语言上带来约10-60%的编码/解码效率提升。简单说，同样的一段话，Qwen3.5能用更少的token表示，推理更快，API费用也更省。

线性注意力到底意味着什么

这块稍微展开说一下，因为这可能是Qwen3.5最关键的技术突破。不懂技术的朋友别跳过，老金我用人话给你翻译。

传统Transformer用的是标准自注意力机制。简单理解：AI在读一篇文章的时候，每读到一个字，都要回头看一遍前面所有的字。

如果文章有1万个字，每个字要跟其他9999个字各看一次。字数越多，AI就越吃力——计算量是"字数的平方"级别的。

Qwen3.5用的Gated Delta Networks，核心思路是：用一个巧妙的数学方法，让AI不用每次都回头看所有内容。结果就是：计算量从"字数的平方"降到"字数的倍数"。

听起来差别不大？我给你举个具体例子：

处理一个10分钟的视频：

传统方式：可能需要64G显存的显卡才能跑
Gated Delta Networks：16G显存就够了

这不是快了几个百分点的问题，是能不能跑起来的问题。很多任务以前根本跑不动，现在可以了。

Qwen3.5更聪明的地方在于：它把Gated Delta Networks（线性注意力）和Gated Attention（标准注意力）做成了混合架构。简单任务用线性注意力省资源，复杂任务自动切换到标准注意力保精度。不是非此即彼，而是动态选择——什么场景用什么方案。

这也是为什么官方说的"Qwen3-Next架构"——更高稀疏度的MoE + 混合注意力 + 多token预测。

多token预测是什么意思？传统模型一次只能"想"出一个字，Qwen3.5一次能预测多个字，生成速度又快了一截。

原生多模态为什么重要

之前的多模态模型大多是"拼接式"的。打个比方：就像找了一个英语翻译和一个法语翻译，中间再安排一个协调员把两人的翻译对接起来。

先训一个语言模型（处理文字），再训一个视觉编码器（处理图片），最后用对齐层把两者连起来。这种方式有个天然缺陷：视觉和语言的理解是割裂的。

Qwen3.5走的是另一条路——从预训练阶段就把文本、图像、视频放在一起训。模型从一开始就"看"和"读"同时进行。就像培养一个从小就双语环境长大的孩子，不需要翻译，直接理解。

阿里官方说法是"统一架构整合语言推理与视觉感知"。

这对普通用户来说意味着什么？ 1、你发一张图给AI，它能真正"看懂"图里的内容，不容易出现"看到了但理解错了"的情况 2、一次对话就能同时处理图片+文字，不用分两步操作 3、成本更低——一个模型干两个模型的活，API费用直接砍半

阿里官网已经写了"效果、成本与多模态理解深度上同时超越Qwen3-Max与Qwen3-VL"。如果这个说法成立，那Qwen3.5-Plus可能是目前性价比最高的多模态模型之一。

比如这样提问，它都能准确且快速的回答：

跑分亮了：Qwen3.5到底有多强

说技术架构大家可能没直觉，直接看跑分数据。官方放了一大堆benchmark对比，老金我帮你提炼最关键的几个：

自然语言能力（对比GPT5.2、Claude 4.5 Opus、Gemini-3 Pro）：

几个重点：

1、指令遵循（IFBench 76.5）和多语言挑战（MultiChallenge 67.6）两项全场第一。这意味着你给它的指令它听得更准，不容易跑偏。

2、搜索Agent能力（BrowseComp 78.6）也是第一。联网搜索信息的能力很强。

3、多语言能力（NOVA-63 59.1）第一。 201种语言不是白支持的。

4、编程和数学还是GPT5.2和Claude强一些，但差距不大。

视觉语言能力（这才是Qwen3.5的杀手锏）：

乖乖，视觉能力这块Qwen3.5真的杀疯了：

MathVision 88.6——看图做数学题，全场最高
OCRBench 93.1——文字识别能力，直接碾压，比GPT5.2高出12个点
OmniDocBench 90.8——文档理解能力第一，对搞办公的朋友来说太实用了
HallusionBench 71.4——幻觉最少，看到什么说什么，不瞎编
AndroidWorld 66.8——能操作安卓手机，这个后面单独说

注意，这是一个3970亿参数只激活170亿的模型跑出来的成绩。跟GPT5.2这种完整版闭源大模型对打还能在多个维度赢，开源模型能做到这个水平，老金我服了。

Visual Agent：AI能操作你的手机和电脑了

这是老金我觉得最炸裂的功能，但很多报道都没重点说。 Qwen3.5可以作为视觉智能体，自主操作手机和电脑完成日常任务。

什么意思？你告诉它"帮我把这个Excel表格的缺失行补全"，它真的能： 1、打开Excel文件 2、识别出哪些行和列需要补全 3、自动填写数据 4、保存文件

全程不需要你动手，AI自己操作界面完成。官方展示了好几个演示：

手机端：适配主流App，你说"帮我发条朋友圈"，它能自己操作完成
电脑端：处理跨应用的数据整理、多步骤流程自动化

AndroidWorld跑分66.8，目前公开数据里最高的。这不是ChatGPT那种"帮你写个脚本自己跑"。 Qwen3.5是真的在操作GUI界面，像人一样点击、输入、滑动。

对于不会编程的普通用户来说，这个能力可能比会写代码更有用。

空间智能和视觉编程

除了操作手机电脑，Qwen3.5在"看"这件事上还有两个特别的能力。

空间智能：借助对图像像素级位置信息的建模，Qwen3.5能做到：

物体计数——图里有几个苹果，它能数准
相对位置判断——电话亭在黄色货车的左边还是右边
驾驶场景理解——看行车记录仪画面，分析为什么没在路口停车

官方展示了一个驾驶场景的例子：给它一段行车记录仪视频截帧，它能分析出"信号灯在我接近停车线时变黄，此时距离太近无法安全停车，所以选择通过路口"。这个能力在自动驾驶和机器人导航场景里非常关键。

视觉编程：更酷的是，Qwen3.5能把看到的东西变成代码：

手绘界面草图 → 结构清晰的前端代码
游戏视频 → 逻辑还原代码
长视频 → 自动提炼为结构化网页

你甚至可以让他看视频手搓游戏。

如果对你有帮助，记得关注一波~

春节档：AI圈的神仙打架

Qwen3.5选在除夕夜发布，这个时间点太狠了。这个春节档，至少还有3个重磅选手要登场。

1、DeepSeek V4——最受期待的选手，V3已经证明了DeepSeek的实力 2、GLM-5——智谱的新旗舰，之前Pony Alpha的表现已经让人刮目相看 3、MiniMax 2.2——M2.5编程能力追平Claude，2.2值得关注

老金我觉得今年春节档的竞争格局跟去年完全不同。去年是DeepSeek V3一家独大。今年是四五个玩家同时出牌。

对普通用户来说，这其实是好事。竞争越激烈，开源模型的能力提升越快，API价格越便宜。

MoE架构：小身材大能量

Qwen3.5-397B-A17B这个版本号值得单独说一下。 397B是总参数量，A17B是激活参数量——3970亿参数里每次只用170亿。

什么意思？打个比方：这就像一个公司有3970个员工，但每次处理一个任务只需要170个人同时干活。其他人"待命"，等需要的时候再上。

这就是MoE（Mixture of Experts，混合专家）架构的核心思路。模型里有很多"专家"模块，每个token只激活其中几个。好处是：模型容量大（知识多），但推理成本低（算得快）。

回顾一下Qwen3的数据：

Qwen3-235B-A22B（2350亿参数，激活220亿）在编程、数学、推理上已经能跟DeepSeek-R1、GPT-5正面对决。 Qwen3-30B-A3B在SWE-Bench上拿到69.6分，价格性能比吊打一众付费模型。

Qwen3.5-397B-A17B直接把总参数量拉到3970亿，是Qwen3旗舰的1.7倍。但激活参数只有170亿，比Qwen3旗舰的220亿还少。

翻译成人话：知识储备更多了，但跑起来反而更省资源。再加上原生多模态和线性注意力的加持，老金我认为这是2026年上半年最值得关注的开源模型之一。

现在就能用：3步上手Qwen3.5

说了这么多技术细节，老金我讲讲实际怎么用。好消息是：你现在就可以直接体验Qwen3.5，不用等。

第1步：打开 chat.qwen.ai 浏览器直接输入 chat.qwen.ai，这是阿里官方的对话平台。注册一个账号就能用，支持手机号和邮箱注册。不需要科学上网，国内直接访问。

第2步：选模型和模式页面顶部有个模型选择器，点开会看到两个选项：

Qwen3.5-Plus：推荐日常使用，速度快，响应快
Qwen3.5-397B-A17B：旗舰模型，适合复杂任务（推理、写代码、分析长文档）

不知道选哪个？选Qwen3.5-Plus就行，够用了。需要更强的推理能力再切397B。

选好模型后，还能选三种思考模式：

自动（auto）：自适应思考，该深入就深入，该快就快，推荐大多数场景使用
思考（thinking）：遇到难题用这个，模型会进行深度推理，一步步想清楚再回答
快速（fast）：简单问题用这个，不消耗思考token，回答又快又省

第3步：直接对话跟ChatGPT的用法一模一样——输入框打字，回车发送。支持的功能包括：

纯文字对话（问答、写作、翻译、编程）
上传图片让它分析（产品截图、文档照片、手写笔记）
上传文件让它总结（PDF、Word、代码文件）
联网搜索（点击搜索按钮，它会帮你查最新信息）

完全免费，目前没有次数限制。

对，你没看错，免费的。这也是阿里开源生态的一贯打法。

开发者进阶用法

如果你是开发者，除了网页版还有更多玩法。

场景1：API调用（1M上下文窗口）阿里云百炼已经上线Qwen3.5-Plus的API，支持100万token的上下文窗口。 100万token是什么概念？大概相当于一次性读完一本750页的英文小说还绰绰有余。

而且API完全兼容OpenAI格式，切换成本几乎为零：

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.5-plus",
    messages=[{"role": "user", "content": "介绍一下Qwen3.5"}],
    extra_body={
        "enable_thinking": True,
        "enable_search": False
    },
    stream=True
)

两个关键参数：

enable_thinking：开启推理模式，让模型先想再答，适合复杂问题
enable_search：开启联网搜索和Code Interpreter

场景2：Vibe Coding（跟编程工具集成）官方明确说了，百炼API可以跟这些编程工具无缝集成：

Qwen Code——阿里自己的编程助手
Claude Code——Anthropic的CLI工具
Cline——VS Code插件
OpenClaw——开源Agent框架
OpenCode——开源编程工具

也就是说，你在Claude Code里把模型切成Qwen3.5-Plus，一样能用。价格比GPT-5便宜10倍以上，对于日常编程来说性价比拉满。

场景3：多模态应用原生多模态意味着你可以用一个模型搞定：

图片内容识别+文案生成
视频内容理解+摘要提取
图文混排文档的解析和问答
GUI自动化——让AI帮你操作软件界面

以前这些任务要调3-4个不同的API，现在一个就够了。

场景4：本地部署 Qwen3.5-397B-A17B虽然总参数3970亿，但激活参数只有170亿。等开源权重发布后，用Ollama或vLLM部署，消费级显卡也有可能跑起来。后续如果有更小的版本（比如9B），16G显存的显卡就能流畅运行。

老金的判断

Qwen3.5除夕夜在chat.qwen.ai正式上线了。老金我说说自己的看法。

看好的点：

原生多模态是正确的方向，拼接式迟早要被淘汰
Gated Delta Networks解决了长序列的核心瓶颈，8.6倍/19倍的吞吐量提升不是闹着玩的
MoE架构在成本和性能之间找到了平衡点——3970亿参数只激活170亿，这个比例很激进
视觉能力真的强——OCR、文档理解、数学视觉多项第一
Visual Agent能操作手机电脑，这是AI从"回答问题"到"替你干活"的关键一步
阿里在开源这条路上一直很坚定，Qwen3的开源质量有目共睹
完全免费使用，对普通用户来说门槛为零

值得关注的未来方向：官方博客最后提了三个方向，老金我觉得每个都很重要： 1、跨会话持久记忆——现在的AI每次对话都是"失忆"状态，未来能记住你之前聊过什么 2、具身接口——不只是操作手机电脑屏幕，未来可能控制机器人在真实世界干活 3、自我改进机制——AI能自己变得更好，不需要人类手动更新

阿里原话是："将当前以任务为边界的助手升级为可持续、可信任的伙伴。"

老金我的态度是谨慎乐观。架构升级的方向是对的，除夕夜放这个大招，阿里是真的有底气。

跑分数据已经出来了，视觉能力多项碾压GPT5.2和Claude 4.5 Opus，你现在就可以去chat.qwen.ai亲自试试。

有一点可以确定：2026年的开源大模型，竞争只会越来越激烈。对于开发者和普通用户来说，这是最好的时代。

每次我都想提醒一下，这不是凡尔赛，是希望有想法的人勇敢冲。我不会代码，我英语也不好，但是我做出来了很多东西，在文末的开源知识库可见。我真心希望能影响更多的人来尝试新的技巧，迎接新的时代。

谢谢你读我的文章。如果觉得不错，随手点个赞、在看、转发三连吧🙂 如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章。

开源知识库地址： tffyvtlai4.feishu.cn/wiki/OhQ8wq…