阿里千问3.6-Plus深夜突袭,编程能力登顶全球第二,向量引擎帮我省下全家桶API订阅费

0 阅读12分钟

在这里插入图片描述

2026年4月2日,国内科技圈还在消化DeepSeek V4的各种传闻时,阿里悄然出招了。

没有盛大的发布会,没有铺天盖地的预热——Qwen3.6-Plus就这样低调地登上了阿里云百炼平台。

然而,它引发的震动一点都不低调。上线仅24小时,它就冲上全球知名大模型API调用平台OpenRouter的日榜榜首,单日调用量突破1.4万亿Token,刷新了该平台的单日单模型调用量全球纪录。OpenRouter官方评价称,这是有史以来“最强劲的新模型表现”。

更惊人的是,在LMArena旗下聚焦AI编程能力的Code Arena榜单中,Qwen3.6-Plus位列全球第二,超越了OpenAI、Google、xAI等国际巨头,成为该榜单上排名最高的中国大模型。React专项榜单得分1452分,仅以88分之差落后于Claude Opus 4.6 Thinking(1540分),同时以4分优势领先OpenAI最新发布的GPT-5.0-High(1448分),并以12分差距超越Google的Gemini 3.1 Pro Preview(1440分)。

这意味着,在最具挑战性的AI Coding和Agent任务中,千问3.6-Plus已经展现出了与全球顶级大模型比肩甚至更优的代码生成与工程化能力。凭借这一成绩,阿里在全球AI实验室排名中升至第四,仅次于Anthropic、OpenAI和Google。

一夜之间,阿里的AI故事被彻底改写。

一、这不是一次常规升级:Agent化是真正的“王炸”

在这里插入图片描述

如果只看参数,你可能会觉得Qwen3.6-Plus没什么了不起——它的参数规模还不到Kimi K2.5或GLM-5的一半。

但真正的升级,藏在“Agent”两个字里。

1.1 从“回答问题”到“完成任务”

以前的AI更像一个“实习生”:你给它指令,它给你代码。代码能不能跑通?它不知道。报错了怎么修?它也不知道。

Qwen3.6-Plus引入了Agentic Coding(代理式编程) 范式,真正实现了从“写代码”到“做事情”的质变:

  • 自主规划:理解需求后自主拆解任务,规划执行路径
  • 工具调用:自动调用编辑器、终端、shell命令等工具
  • 执行验证:运行代码、验证结果,全程无需人工介入
  • 自动修复:识别错误日志,定位问题,提交修复方案
  • 长程任务规划:拆解复杂需求(如“搭建一个电商后台”),分步执行并持续验证结果

实测案例触目惊心:输入“帮我做一个响应式企业官网”,模型在8分钟内自动生成完整HTML/CSS/JS项目,包含图片占位、导航栏、联系表单,并自动部署预览链接——总成本仅¥0.15

在Claw-Eval、QwenClawBench等真实世界智能体评测中,Qwen3.6-Plus的整体任务完成率提升了10%–20%,复杂任务成功率能够达到70%+,而传统模型往往在50%左右徘徊。

1.2 ATH架构:让AI学会“边想边做”

Qwen3.6-Plus搭载的ATH(Agentic-Task-Hybrid)架构,本质上是在AI内部植入了一条“自检回路”。它生成代码后,会在自己的推理空间里先跑一遍,发现报错了,自己修掉,最后交到你手里的,基本是能跑通的成品。

用一位开发者的话说:“它不再只是追求生成更准确的答案,而是开始围绕‘能不能把一件事完整做完’来设计模型。”

这背后反映的是一种技术思路的根本转变——从“单轮最优输出”演进到“多步过程最优”。早期模型更像是“输入—输出”的一次性映射,而Qwen3.6-Plus强调完整的执行链路:理解任务、拆解步骤、调用工具、执行、再根据结果修正,这个过程通常涉及3到8步甚至更长的决策链。

Qwen3.6-Plus还全面兼容主流Agent框架,包括OpenClaw、Qwen Code、Claude Code、KiloCode、Cline和OpenCode。只要把模型接入你手头的“龙虾”,它就能在终端完成从规划到执行的全流程。

值得注意的是,阿里已通过Anthropic API协议提供Qwen3.6-Plus的访问权限。开发者只需少量配置,就能把现有的Claude Code配置直接指向新模型——这意味着从Claude迁移到千问的体验几乎是丝滑无感的。

二、100万上下文:它能“吞下”整个代码仓库

在这里插入图片描述

100万Token。

这是Qwen3.6-Plus的默认上下文窗口大小。什么概念?一次性“吞下”约75万字的文本——相当于整本《三体》三部曲、一份完整的企业代码仓库、数百页的法律文书,或者一整年的产品需求文档。最大输出长度达到65,536 tokens,足以一次性生成完整的项目架构文档或大型代码模块。

传统模型处理100万token时,注意力机制性能严重衰减。但Qwen3.6-Plus的原生长上下文能力,搭配高效的混合稀疏MoE架构(总参数约397B,推理时仅激活约17B参数),让超大上下文的处理真正做到了实用级别。

这意味着什么?

场景一:代码审查。 你可以把整个公司的代码仓库丢给Qwen3.6-Plus,让它分析架构决策、定位跨文件Bug、评估技术债务。

场景二:技术文档问答。 你有一本800页的技术手册,想找一个特定概念?直接上传,让AI帮你找。

场景三:多轮复杂对话。 以前和AI聊着聊着它就“断片儿”了,现在100万token窗口足以覆盖超长对话历史,再也不用担心AI忘了你三十分钟前说了什么。

一位测评者这样描述:“你可以把整个项目的代码库、十几份PRD,甚至连同那本几百页的UI设计规范全扔进去。它能记住每个细节,不会再出现‘修了东墙,塌了西墙’的情况。”

三、编程能力登顶:用参数的一半,打出数倍的牌

在这里插入图片描述

3.1 基准测试全面对标Claude Opus 4.5

在多项权威编程基准测试中,Qwen3.6-Plus交出了一份让人服气的成绩单:

基准测试Qwen3.6-PlusClaude Opus 4.5其他竞品
SWE-bench Verified78.880.9Kimi-K2.5: 76.8 / GLM-5: 77.8
Terminal-Bench 2.061.659.3所有测试模型中最优
GPQA(研究生级科学推理)90.4在所有对比模型中名列前茅

数据来源:公开基准测试及技术报告

Terminal-Bench 2.0的61.6分尤其值得关注。 这是唯一一个Qwen3.6-Plus在所有测试模型中登顶的基准,考察的是模型的终端操作与自动化任务执行能力——这正是Agentic Coding落地最关键的环节。

在Code Arena盲测榜单中,Qwen3.6-Plus的React专项榜单得分1452分,位列全球第二,超越OpenAI GPT-5.0-High(1448分)和Google Gemini 3.1 Pro Preview(1440分)。

更惊人的是它的“效率”——模型参数量不到Kimi K2.5或GLM-5的一半,性能却能完全匹敌甚至部分超越。

3.2 “Vibe Coding”成为现实

随着编程能力的大幅提升,一个叫做 “Vibe Coding”(氛围式编程) 的概念正在从愿景走向现实。

你不需要懂代码。你只需要有审美、有想法,然后把草图丢给AI,说一句“我要那种《塞尔达》的感觉,天空要透亮,雪山要清冷,还得有那种亮晶晶的雪花在飘。我点键盘WASD键,镜头能跟着动。”——Qwen3.6-Plus在不到一分钟内生成了一个能在浏览器里跑的3D场景,雪花的重力、风向的漂移感、镜头转动的平滑度,全都帮你调好了。

这就是Vibe Coding。不是“用代码实现想法”,而是“用感觉驱动代码”。

以前的AI像个听话但死板的实习生。你让它写个登录页,它甩你一堆代码。你一跑,报错了。你再反馈,它再改。这种来回“拉扯”特别磨人。现在,Qwen3.6-Plus会自己调试、自己修错、自己跑通,交到你手里的,就是成品。

四、闭源转型:开源时代结束了吗?

在这里插入图片描述

4.1 为什么要闭源?

与此前开源的Qwen系列不同,Qwen3.6-Plus采用专有模型策略,不开放权重下载,仅通过API提供服务。

消息一出,AI圈炸了。有开发者说,千问也学OpenAI那一套了。有人说,开源时代结束了。

但阿里给出了清晰的解释:后续将开源Qwen3.6系列的其他尺寸(小参数量)模型,但Plus版本不开源。

为什么要做这个转型?背后的逻辑很务实:

一是商业化需要。大模型的训练和推理成本极高,闭源API是唯一可持续的变现路径。据阿里云发言人表示,这一转变反映了整个行业的趋势:随着前沿模型规模的不断扩大,在本地硬件上部署它们变得越来越不切实际,促使企业转而通过官方云平台实现流量变现。

二是服务保障。闭源意味着阿里可以对API进行全链路优化和监控,确保企业用户获得稳定的服务SLA,而非让开发者在本地硬件上碰运气。

三是数据闭环。通过API收集的使用数据可以帮助阿里持续迭代模型,形成“用的人越多→模型越好→用的人更多”的正向飞轮。

一个无法回避的问题是:当阿里选择闭源,DeepSeek正成为中国开源AI最后的独苗

但DeepSeek和阿里选择了不同的路——一个押注本地部署的自由,一个押注云端服务的体验。两条路终将在市场上一决高下,而这场较量才刚刚开始。

4.2 价格战的开端

Qwen3.6-Plus的API定价堪称杀手锏:

收费项目价格
输入2元/百万token
输入(Batch File)1元/百万token
显式缓存命中0.2元/百万token
输出12元/百万token
新用户免费额度7000万token

数据来源:阿里云官方定价

相比之下,Claude API的输出价格高达15美元/百万token(约109元)。这意味着,Qwen3.6-Plus的输出成本大约是Claude的九分之一

7000万token的新用户免费额度意味着什么?一个开发者可以用这笔额度完成约400次8分钟官网生成任务,或者进行数千次的代码生成与调试——全部免费。

4.3 72小时三连发:阿里AI的“肌肉秀”

Qwen3.6-Plus的发布,只是阿里在过去72小时内三款重磅模型的收官之作:

  • 3月30日:Qwen3.5-Omni,全模态交互模型,在215项音视频理解任务中多项指标超越Gemini-3.1 Pro
  • 4月1日:Wan2.7-Image,文生图模型,在中文生图人类偏好盲测中排名国内第一
  • 4月2日:Qwen3.6-Plus,编程与Agent旗舰模型

这一密集发布,恰好发生在阿里成立ATH事业群(Alibaba Token Hub)两周后。ATH整合算力层(阿里云)、模型层(通义)、应用层(悟空、千问APP等),构建“创造token—输送token—消费token”闭环。

三款模型共同指向同一个战略重心:Model as an Agent——AI从工具变成能够自主完成任务的“数字员工”。

五、向量引擎

在深度拆解Qwen3.6-Plus的同时,我也想顺便推荐一下我日常工作中离不开的工具——向量引擎

如果你想用一个API Key调用所有主流模型,或者想要一个安全、稳定、国内直连的API解决方案,可以看看向量引擎。

官方地址:[178.nz/jj

保姆级教程www.yuque.com/nailao-zvxv…

六、Qwen3.6-Max蓄势待发:不止于Plus

在这里插入图片描述

Qwen3.6-Plus只是千问3.6系列的首款模型。更令人期待的是,性能更强的旗舰模型Qwen3.6-Max也将在近期发布。

这标志着千问大模型的完整产品矩阵正在成型:

  • Plus版:面向开发者与企业的生产级API,主打编程与Agent能力
  • Max版(即将发布):性能更强的旗舰版本,预计在多模态、推理等领域进一步提升
  • 轻量开源版(后续发布):小参数模型开源,延续阿里对开发者社区的承诺

同时,Qwen3.6-Plus已全面接入阿里巴巴内部生产力体系——AI原生企业平台“悟空”、千问APP及编程工具Qoder均已同步完成集成。

千问大模型不再是孤立的聊天工具,而是阿里整个AI业务供给侧的基础设施。

七、当AI从“玩具”变成“同事”

在这里插入图片描述

Qwen3.6-Plus的发布,传递了一个清晰的信号:AI的竞争逻辑正在改变。

过去两年,大家都在比谁的参数更大、谁的Benchmark分数更高。但Qwen3.6-Plus选择了一条不同的路——用更少的参数、更低的成本、更强的Agent能力,让AI真正“干活”。

一个产品经理,不需要学编程,用Vibe Coding也能一天搓出一个带3D场景的小游戏。

一个创业团队,不需要养庞大的工程团队,用Qwen3.6-Plus + Agent框架,就能构建从需求分析到代码交付的完整自动化流水线。

一个大厂开发者,用每月几十元的API成本,就能获得接近Claude级别的编程能力,再也不用被闭源巨头的高价API绑死。

这不是AI的又一轮升级,这是AI从“奢侈品”变成“日用品”的开始。

当然,Qwen3.6-Plus并非没有短板。有独立测评者在测试中发现,虽然模型没有运行错误,但在处理复杂业务逻辑时仍有不足,角色群聊功能在特定场景下未能完整执行设计目标。

这说明,国产模型在迈向“最强”的路上,还有提升空间。但这恰恰是好事——竞争越激烈,受益的永远是开发者。