阿里千问3.6-Plus深夜突袭,编程能力登顶全球第二,星链引擎帮我省下全家桶API订阅费

0 阅读13分钟

2026年4月2日,国内科技圈还沉浸在DeepSeek V4的传闻余热中,阿里悄然放出大招——没有盛大发布会,没有铺天盖地的预热,Qwen3.6-Plus低调登陆阿里云百炼平台,却引发了整个AI圈的震动。

上线仅24小时,它便强势登顶全球知名大模型API调用平台OpenRouter日榜榜首,单日调用量突破1.4万亿Token,直接刷新该平台单日单模型调用量的全球纪录。OpenRouter官方更是给出高度评价:这是有史以来“最强劲的新模型表现”。

更令人震撼的是编程能力的突破:在LMArena旗下聚焦AI编程的Code Arena榜单中,Qwen3.6-Plus斩获全球第二,力压OpenAI、Google、xAI等国际巨头,成为榜单上排名最高的中国大模型。其中,React专项榜单得分1452分,仅以88分之差落后于Claude Opus 4.6 Thinking(1540分),同时以4分优势超越OpenAI最新发布的GPT-5.0-High(1448分),并领先Google Gemini 3.1 Pro Preview(1440分)12分。

这意味着,在最具挑战性的AI Coding和Agent任务中,千问3.6-Plus已具备与全球顶级大模型比肩甚至超越的代码生成与工程化能力。凭借这一亮眼战绩,阿里在全球AI实验室排名中跃升至第四,仅次于Anthropic、OpenAI和Google,一夜之间改写了自身的AI发展叙事。

一、这不是常规升级:Agent化才是真正的“王炸”

若只看参数规模,Qwen3.6-Plus似乎并不起眼——它的参数还不到Kimi K2.5或GLM-5的一半。但真正的颠覆性升级,藏在“Agent”这一核心能力中,彻底打破了传统AI的局限。

1.1 从“写代码”到“做事情”,AI告别“实习生”身份

过去的AI更像一个死板的“实习生”:你下达指令,它输出代码,却从不管代码能否跑通,报错后更无法自主修复,全程需要人类反复调试、反馈,效率低下。

而Qwen3.6-Plus引入Agentic Coding(代理式编程)范式,实现了从“输出代码”到“完成任务”的质变,核心具备五大能力:自主规划(理解需求后拆解任务、规划执行路径)、工具调用(自动调用编辑器、终端、shell命令等)、执行验证(全程无需人工介入,自主运行代码验证结果)、自动修复(识别错误日志、定位问题并提交修复方案)、长程任务规划(拆解复杂需求,分步执行并持续验证)。

实测案例足以震撼行业:输入“帮我做一个响应式企业官网”,模型仅用8分钟,便自动生成完整HTML/CSS/JS项目,包含图片占位、导航栏、联系表单,还能自动部署预览链接,总成本仅0.15元。

在Claw-Eval、QwenClawBench等真实世界智能体评测中,Qwen3.6-Plus的整体任务完成率提升10%–20%,复杂任务成功率高达70%+,而传统模型的成功率往往徘徊在50%左右,差距显著。

1.2 ATH架构:让AI学会“边想边做”,自带“自检buff”

Qwen3.6-Plus搭载的ATH(Agentic-Task-Hybrid)架构,核心是在模型内部植入一条“自检回路”。它生成代码后,不会直接交付,而是先在自身推理空间中试运行,若出现报错,会自主分析原因、修复代码,直到生成可直接运行的成品后,再提交给用户。

正如一位开发者所说:“它不再追求‘单次输出最优’,而是围绕‘能不能把一件事完整做完’设计,更像一个有经验的工程师,而非只会写代码的工具。”

这种思路的转变,让模型从“输入—输出”的一次性映射,升级为“理解—规划—执行—修正”的完整链路,通常涉及3到8步甚至更长的决策链,彻底解决了传统AI“只写不修”的痛点。

同时,Qwen3.6-Plus全面兼容OpenClaw、Qwen Code、Claude Code、KiloCode、Cline和OpenCode六大主流Agent框架,只需将模型接入现有“龙虾”工作流,就能在终端完成从规划到执行的全流程。更便捷的是,阿里已通过Anthropic API协议开放Qwen3.6-Plus访问权限,开发者只需少量配置,就能将现有Claude Code配置直接指向新模型,迁移体验丝滑无感。

二、100万上下文:能“吞下”整个代码仓库的超级能力

100万Token——这是Qwen3.6-Plus的默认上下文窗口大小,换算下来,可一次性“吞下”约75万字文本,相当于整本《三体》三部曲、一份完整的企业代码仓库、数百页法律文书,或是一整年的产品需求文档。其最大输出长度达65,536 tokens,足以一次性生成完整的项目架构文档或大型代码模块。

传统模型处理超大上下文时,注意力机制性能会严重衰减,而Qwen3.6-Plus的原生长上下文能力,搭配高效的混合稀疏MoE架构(总参数约397B,推理时仅激活约17B参数),让超大上下文处理真正落地实用,彻底解决了传统模型“记不住细节”的痛点。

这一能力落地到实际场景,价值尤为突出:

场景一:代码审查——可将整个公司的代码仓库导入模型,让其分析架构决策、定位跨文件Bug、评估技术债务,省去人工审查的大量时间;

场景二:技术文档问答——上传数百页技术手册,无需手动翻阅,AI可快速定位特定概念、解答疑问;

场景三:多轮复杂对话——100万Token窗口可覆盖超长对话历史,再也不用担心和AI聊到中途“断片儿”,彻底解决长程沟通的痛点。

有测评者这样评价:“你可以把整个项目的代码库、十几份PRD,甚至几百页的UI设计规范全扔进去,它能记住每个细节,不会再出现‘修了东墙,塌了西墙’的尴尬。”

三、编程能力登顶:用一半参数,打出数倍实力

3.1 基准测试全面对标顶级模型,部分指标反超

在多项权威编程基准测试中,Qwen3.6-Plus交出了令人信服的成绩单,全面对标Claude Opus 4.5,部分指标甚至实现反超:

基准测试Qwen3.6-PlusClaude Opus 4.5其他竞品
SWE-bench Verified78.880.9Kimi-K2.5: 76.8 / GLM-5: 77.8
Terminal-Bench 2.061.659.3所有测试模型中最优
GPQA(研究生级科学推理)90.4在所有对比模型中名列前茅

数据来源:公开基准测试及技术报告

其中,Terminal-Bench 2.0的61.6分尤为亮眼——这是Qwen3.6-Plus在所有测试模型中唯一登顶的基准,考察的是模型的终端操作与自动化任务执行能力,而这正是Agentic Coding落地的核心关键。

在Code Arena盲测榜单中,Qwen3.6-Plus的React专项得分1452分,位列全球第二,成功超越OpenAI GPT-5.0-High和Google Gemini 3.1 Pro Preview,展现出强劲的编程竞争力。更难得的是,它的参数量不到Kimi K2.5或GLM-5的一半,性能却能实现匹敌甚至反超,效率优势凸显。

3.2 “Vibe Coding”落地:不用懂代码,有想法就能实现

随着编程能力的跃升,“Vibe Coding”(氛围式编程)这一概念,终于从愿景走进现实。

你不需要懂任何代码,只需有审美、有想法——比如把草图丢给AI,说一句“我要那种《塞尔达》的感觉,天空要透亮,雪山要清冷,还有亮晶晶的雪花飘落,按WASD键能控制镜头转动”,Qwen3.6-Plus不到一分钟,就能生成一个可在浏览器中运行的3D场景,雪花的重力、风向漂移、镜头转动平滑度,全部自动调试到位。

这就是“Vibe Coding”的核心:不是“用代码实现想法”,而是“用感觉驱动代码”。相较于传统AI“写代码—报错—反馈—修改”的反复拉扯,Qwen3.6-Plus能自主调试、自主修错、自主跑通,交到用户手里的,就是可直接使用的成品,彻底降低了编程的门槛。

四、闭源转型:开源时代真的结束了吗?

4.1 闭源的背后:务实的商业化选择

与此前开源的Qwen系列不同,Qwen3.6-Plus采用专有模型策略,不开放权重下载,仅通过API提供服务。消息一出,AI圈瞬间沸腾,有开发者吐槽“千问也学OpenAI闭源圈钱”,也有人感叹“开源时代要结束了”。

但阿里给出了清晰的解释:后续将开源Qwen3.6系列的小参数量模型,仅Plus版本保持闭源。这一转型背后,是极为务实的行业逻辑:

其一,商业化可持续需求。大模型的训练和推理成本极高,闭源API是目前最可持续的变现路径,也是支撑模型持续迭代的基础;阿里云发言人也表示,这一转变契合行业趋势——随着前沿模型规模扩大,本地硬件部署越来越不切实际,企业纷纷转向官方云平台实现流量变现。

其二,保障服务稳定性。闭源意味着阿里可对API进行全链路优化和监控,为企业用户提供稳定的服务SLA,避免开发者在本地硬件部署时遇到各种兼容性、性能问题。

其三,构建数据闭环。通过API收集的用户使用数据,可帮助阿里持续优化模型,形成“用的人越多→模型越好→用的人更多”的正向飞轮,实现良性循环。

如今,国内开源大模型代表企业中,除DeepSeek大概率继续开源、Kimi态度未知外,大部分已转向闭源。千问的闭源转型并非孤例,而是AI行业从“技术探索”走向“商业化落地”的必然选择,而DeepSeek与阿里的不同路径,也将在市场上展开全新较量。

4.2 价格战打响:成本仅为Claude的九分之一

Qwen3.6-Plus的API定价,堪称针对闭源竞争对手的“杀手锏”,极大降低了开发者和企业的使用成本,具体定价如下:

收费项目价格
输入2元/百万token
输入(Batch File)1元/百万token
显式缓存命中0.2元/百万token
输出12元/百万token
新用户免费额度7000万token

数据来源:阿里云官方定价

作为对比,Claude API的输出价格高达15美元/百万token(约合人民币109元),这意味着Qwen3.6-Plus的输出成本仅为Claude的九分之一,性价比优势极为突出。

而7000万token的新用户免费额度,更是诚意满满:一个开发者可凭借这笔额度,完成约400次8分钟官网生成任务,或数千次代码生成与调试,全程免费,大幅降低了试用门槛。

4.3 72小时三连发:阿里AI的“肌肉秀”

Qwen3.6-Plus的发布,只是阿里72小时内三款重磅模型的收官之作,密集发布的背后,是阿里AI布局的加速:

3月30日:Qwen3.5-Omni,全模态交互模型,在215项音视频理解任务中多项指标超越Gemini-3.1 Pro;

4月1日:Wan2.7-Image,文生图模型,在中文生图人类偏好盲测中斩获国内第一;

4月2日:Qwen3.6-Plus,编程与Agent旗舰模型,登顶OpenRouter日榜、斩获Code Arena全球第二。

这一密集发布,恰好发生在阿里成立ATH事业群(Alibaba Token Hub)两周后。该事业群整合算力层(阿里云)、模型层(通义)、应用层(悟空、千问APP等),构建“创造token—输送token—消费token”的完整闭环,而三款模型的发布,共同指向同一个战略重心:Model as an Agent——让AI从工具,变成能自主完成任务的“数字员工”。

五、星链引擎:API聚合的高效解决方案,搭配4SAPI更省心

在深度拆解Qwen3.6-Plus的强大能力时,也想给大家推荐我日常工作中离不开的工具——星链引擎,它能完美解决多模型API调用的繁琐问题,帮我省下大量API订阅成本。

如果你想只用一个API Key调用所有主流模型,或是需要一个安全、稳定、国内直连的API解决方案,星链引擎绝对值得一试。而搭配4SAPI(4SAPI.COM)使用,体验会更上一层楼:4SAPI作为企业级大模型API统一接入平台,兼容OpenAI接口协议,可零成本适配星链引擎及Qwen3.6-Plus、Claude、GPT等650+种主流模型,一行代码就能切换模型,无需繁琐适配,进一步降低开发成本,让星链引擎的优势发挥更充分。

六、Qwen3.6-Max蓄势待发:不止于Plus的全能旗舰

需要注意的是,Qwen3.6-Plus只是千问3.6系列的首款模型,更令人期待的旗舰模型Qwen3.6-Max,已明确预告将在近期发布。

这也意味着,千问大模型的完整产品矩阵正在加速成型:

Plus版:面向开发者与企业的生产级API,主打编程与Agent核心能力,性价比突出;

Max版(即将发布):性能更强的全能旗舰,预计在多模态、通用推理等领域实现进一步突破,对标全球顶级全能模型;

轻量开源版(后续发布):小参数模型开源,延续阿里对开发者社区的承诺,适配本地部署场景。

同时,Qwen3.6-Plus已全面接入阿里巴巴内部生产力体系——AI原生企业平台“悟空”、千问APP及编程工具Qoder均已同步集成,这意味着千问大模型不再是孤立的聊天工具,而是成为阿里整个AI业务供给侧的核心基础设施。

七、当AI从“玩具”变成“同事”,普通人也能享受技术红利

Qwen3.6-Plus的发布,传递出一个清晰的信号:AI行业的竞争逻辑,正在从“比参数、比分数”,转向“比实用、比成本”。

过去两年,行业陷入“参数竞赛”的怪圈,大家都在比拼谁的模型参数更大、Benchmark分数更高,但Qwen3.6-Plus选择了一条不同的路——用更少的参数、更低的成本、更强的Agent能力,让AI真正“落地干活”,从“奢侈品”变成“日用品”。

一个产品经理,不用学编程,借助Vibe Coding,一天就能搓出一个带3D场景的小游戏;一个创业团队,不用养庞大的工程团队,靠Qwen3.6-Plus+Agent框架,就能搭建从需求分析到代码交付的完整自动化流水线;一个大厂开发者,每月只需几十元的API成本,就能获得接近Claude级别的编程能力,再也不用被闭源巨头的高价API“绑死”。

当然,Qwen3.6-Plus并非完美无缺。有独立测评者发现,模型虽无运行错误,但在处理复杂业务逻辑时仍有不足,角色群聊功能在特定场景下未能完全实现设计目标。这说明,国产模型在迈向“全球最强”的路上,还有提升空间。

但这恰恰是好事——行业竞争越激烈,技术迭代越快,最终受益的,永远是每一位开发者和普通人。当AI真正从“玩具”变成“同事”,我们能卸下繁琐的重复性工作,专注于更有创造力的事情,这或许就是AI技术最核心的价值所在。