近日,阿里通义千问团队正式发布 Qwen3.6-Plus,这并非一次简单的版本迭代,而是其在原生多模态智能体路线上的一座重要里程碑。该模型在保持顶尖自然语言能力的同时,重点强化了智能体编程、多模态感知与推理能力,并原生支持高达 100 万的上下文窗口。本文将从技术特性、模型表现、接入实践三个维度,为开发者全面拆解 Qwen3.6-Plus 的核心价值。
1. 主要特性
Qwen3.6-Plus 带来了三项关键能力升级:
- 默认 100 万上下文窗口:单次会话可容纳相当于整部《三体》三部曲的体量,为长文档分析、全库代码理解提供了基础支撑。
- 显著增强的智能体编程能力:在代码修复、终端操作、自动化任务执行等真实开发场景中表现突出,尤其擅长多步复杂任务的规划与执行。
- 更出色的多模态感知与推理:从“看懂画面”向“理解画面中的逻辑关系并据此行动”迈进,视觉推理与视觉编程能力大幅提升。
2. 模型表现:全方位对标业界前沿
以下将全面展示 Qwen3.6-Plus 与业界前沿模型在各类评测任务中的对比结果,涵盖自然语言与视觉语言两大模态。
2.1 自然语言能力
通过深度融合推理、记忆与执行能力,Qwen3.6-Plus 在代码智能体、通用智能体和工具调用三个方向均实现了全面跃升。
代码智能体领域:模型展现出卓越的工程落地能力。在主流代码修复基准(如 SWE-Bench)上紧追行业标杆,更在终端操作与自动化任务执行这类复杂场景中表现突出。例如,在 Terminal-Bench 2.0 等评估中,其长程规划与执行成功率显著提升。
通用智能体与工具使用:模型在多个高难度长程规划任务中取得最优成绩,并在各类工具调用基准上全面领先。这说明 Qwen3.6-Plus 不再只是“能回答问题”,而是真正具备了“拆解任务、调用工具、完成目标”的自主行动能力。
通用能力:在 STEM 推理、超长上下文信息提取、多语言适配等维度,模型均在多项关键评测中刷新最佳表现。值得注意的是,进步不仅体现为单项指标的超越,更在于其将深度逻辑推理、海量上下文记忆与精准工具执行进行了有机融合。这种“全能型”特质使其能够从容应对从复杂代码治理到跨域长程规划的真实世界挑战,标志着 Qwen 系列正加速向具备高度自主性的超级智能体演进。
2.2 视觉语言能力
多模态能力上,Qwen3.6-Plus 围绕推理增强、指令实用性提升、复杂任务执行三个方向持续演进。
多模态推理方面:模型在复杂文档理解、物理世界视觉理解、视频推理和视觉编程等任务上取得了稳定提升,能够更有效地整合跨模态信息,并完成更复杂的分析与决策。这意味着它不仅能识别图像中的物体,还能理解图表中的数据关系、文档中的逻辑结构,甚至根据界面截图推理出下一步操作。
指令模式实用性方面:结合真实业务场景持续优化,在指令遵循、疑难文字识别、细粒度图像感知以及真实场景理解中展现出更强的实用性与稳定性。例如,在医疗影像、工业质检、零售货架识别等垂直场景中,模型对细节的捕捉和指令的遵从度均有明显改善。
多模态能力的持续优化,意义不仅在于提升若干单点任务的效果,更在于为复杂流程任务提供更完整的能力支撑。随着理解、推理与执行能力的不断融合,Qwen3.6-Plus 正逐步演进为一个能够在真实环境中持续感知、推理和行动的原生多模态智能体。
3. 开始使用:API 与集成方式详解
Qwen3.6-Plus 现已通过官方 API 正式开放。开发者可将该 API 无缝集成到流行的第三方编程助手中,包括 OpenClaw、Claude Code、Qwen Code、Kilo Code、Cline 和 OpenCode,从而简化开发流程,实现高效且具备上下文感知能力的编码体验。
3.1 API 使用方式
本次 API 引入了一项新功能,以提升复杂多步任务的性能:
- preserve_thinking:保留消息中所有前序轮次的思维内容。推荐用于智能体任务,对智能体工作流和长周期任务尤为有益,因为保持完整的推理上下文可以增强决策的一致性,并在许多情况下通过减少重复推理来降低整体 Token 消耗。默认关闭(
false),即前序轮次的思维内容将被丢弃,仅保留处理最新用户消息时生成的思维内容。
阿里云百炼接入示例:
阿里云百炼支持行业标准协议,包括兼容 OpenAI 规范的聊天补全和响应 API,以及兼容 Anthropic 的 API 接口。以下为聊天补全 API 的代码示例:
python
from openai import OpenAI
import os
api_key = os.environ.get("DASHSCOPE_API_KEY")
if not api_key:
raise ValueError("DASHSCOPE_API_KEY is required.")
client = OpenAI(
api_key=api_key,
base_url=os.environ.get(
"DASHSCOPE_BASE_URL",
"https://dashscope.aliyuncs.com/compatible-mode/v1",
),
)
messages = [{"role": "user", "content": "Introduce vibe coding."}]
model = os.environ.get("DASHSCOPE_MODEL", "qwen3.6-plus")
completion = client.chat.completions.create(
model=model,
messages=messages,
extra_body={
"enable_thinking": True,
# "preserve_thinking": True,
},
stream=True
)
reasoning_content = ""
answer_content = ""
is_answering = False
print("\n" + "=" * 20 + "Reasoning" + "=" * 20 + "\n")
for chunk in completion:
if not chunk.choices:
print("\nUsage:")
print(chunk.usage)
continue
delta = chunk.choices[0].delta
if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
if not is_answering:
print(delta.reasoning_content, end="", flush=True)
reasoning_content += delta.reasoning_content
if hasattr(delta, "content") and delta.content:
if not is_answering:
print("\n" + "=" * 20 + "Answer" + "=" * 20 + "\n")
is_answering = True
print(delta.content, end="", flush=True)
answer_content += delta.content
对于需要同时调用多个模型进行对比测试或场景分流的开发团队,星链4SAPI 这类统一接入网关提供了 OpenAI 兼容的标准化接口,可帮助开发者用同一套调用逻辑快速接入 Qwen3.6-Plus 及其他主流模型,降低多模型协同的工程复杂度。
3.2 代码及智能体集成
Qwen3.6-Plus 具备优秀的前端开发能力,同时可被无缝集成到流行的第三方编程助手中,包括 OpenClaw、Claude Code、Qwen Code 等。
网页开发:模型增强了前端开发能力,在 3D 场景和游戏等复杂项目中表现卓越,同时在网页设计方面保持了优异水准。
OpenClaw 集成:Qwen3.6-Plus 兼容 OpenClaw。将其连接至百炼,即可在终端中获得完整的智能体编码体验。首次使用时需编辑 ~/.openclaw/openclaw.json 配置文件,将 OpenClaw 指向 Model Studio。
Qwen Code 集成:通过 npm install -g @qwen-code/qwen-code@latest 安装后,运行 qwen 即可进入交互式会话。首次使用时系统会提示登录,采用 Qwen Code OAuth 登陆每日可获取免费调用额度。
Claude Code 集成:Qwen API 支持 Anthropic API 协议,因此可与 Claude Code 等工具配合使用。只需配置 ANTHROPIC_BASE_URL 和 ANTHROPIC_AUTH_TOKEN 环境变量,即可将 Claude Code 的底层模型切换为 Qwen3.6-Plus。
对于希望在不同编程助手之间灵活切换、或需要统一管理多个模型 API 密钥的团队,通过 星链4SAPI 这类聚合层进行统一接入,可以有效减少重复配置工作,将模型调用的复杂性封装在网关层。
3.3 视觉智能体
Qwen3.6-Plus 在多模态方向持续沿着一条清晰的能力主线推进:从视觉感知,到多模态推理,再到智能体执行。团队希望模型不只是“看见”图像和视频,而是真正具备从感知、理解、推理到执行任务的完整能力闭环。
视觉推理:模型不再停留于对图像内容的浅层识别,而是能够结合推理、Grounding、OCR 等能力,对复杂视觉输入完成更深入的分析,并进一步支持文档理解、图表解析、界面理解、细粒度定位等实际任务。
视觉编程:模型可以基于界面截图、产品原型、设计稿或自然图文描述,完成前端页面生成、代码补全、交互修改等任务,逐步打通从“看懂界面”到“生成代码”再到“调用工具完成修改”的完整链路。
视频理解:Qwen3.6-Plus 不仅持续提升对视频内容本身的理解能力,也在进一步支持更贴近真实任务的视频分析与处理场景,能够围绕视频内容完成进一步分析、抽取与处理任务。
视觉 Agent 应用:以 GUI Agent 为代表,模型可以基于屏幕内容理解当前界面状态,并结合规划能力执行下一步操作。结合 Claude Code 风格的工作流、多跳搜索、CI 与外部工具调用,模型能够逐步从单轮问答演进为面向真实任务的执行系统。
4. 总结与未来展望
Qwen3.6-Plus 标志着通义千问在迈向原生多模态智能体征程中的关键里程碑,并在智能体编程领域实现了前所未有的飞跃。通过直击开发者在实际场景中的需求,模型为下一代 AI 应用奠定了坚实可靠的基础。
乘势而上,团队近期的工作重心将全面转向 Qwen3.6 系列的整体发布。在未来不久,还将开源更小规模的模型版本,以此重申对技术普惠与社区驱动创新的坚定承诺。放眼更长远的未来,模型自主能力的边界将持续拓展,重点攻坚日益复杂的长程仓库级任务。
对于开发者而言,无论是通过官方 API 直接调用,还是借助 星链4SAPI 这类统一接入网关进行多模型调度,Qwen3.6-Plus 都已经准备好成为你技术栈中的核心生产力工具。