阿里千问Qwen3.7-Max发布:35小时千次调用不断线,智能体基座能打了吗?

0 阅读7分钟

刷 Trending 看到阿里 Qwen3.7-Max 发布,第一反应是——好家伙,这迭代速度。3.5、3.6、3.7,三个月连发三版,国产大模型这更新节奏快赶上 App 发版了。

但这次有点不一样。官方说这是“迄今最全面的智能体基座”,能自主跑 35 小时、上千次工具调用。说实话,看到“35 小时”这个数字,我第一反应是存疑。毕竟之前测过不少模型,长任务中途掉链子、逻辑跑偏是常事。这玩意儿真能行?

先看最硬核的:35 小时千次调用,怎么做到的?

说白了,智能体基座的核心就两点:1. 自己会想(推理规划)2. 自己能干(调用工具)。Qwen3.7-Max 这次吹的“35 小时全自主内核优化实验”,其实就是把这两点往死里测。

他们搞了个“全自主内核优化”任务,让模型自己分析 Linux 内核代码、找出性能瓶颈、设计优化方案、写 Patch、测试、再迭代。整个过程不让人插手,模型得自己调用代码编辑器、编译器、测试框架、性能分析工具,来回折腾上千次。

这实验设计挺有意思的。它测的不是单次回答的质量,而是长周期任务的连贯性和稳定性。模型会不会中途“失忆”?工具调用链断了怎么办?优化方案跑了几轮发现是错的,能自己回头重开一局吗?

根据官方说法,模型不仅跑完了,还在过程中实现了“关键内核自我进化”,让推理速度比原版提升了 10 倍。这个“自我进化”具体是咋实现的,文档里没细说,我猜可能跟它内部的任务反思和策略调整机制有关。

flowchart TD
    A["新需求/优化目标"] --> B{"需求明确吗?"}
    B -- 是 --> C["规划任务与工具链<br>(代码分析、性能测试)"]
    B -- 否 --> D["探索与信息收集"]
    D --> C
    C --> E["执行工具调用<br>(编辑、编译、运行)"]
    E --> F{"结果符合预期?"}
    F -- 是 --> G["记录成功路径<br>与策略"]
    F -- 否 --> H["分析与反思<br>(为什么失败?)"]
    H --> I["调整策略或工具选择"]
    I --> C
    G --> J["进入下一轮迭代<br>或任务结束"]

上面这个流程图,大概就是我想象中一个能跑长任务的智能体该有的工作流。重点在那个反思和调整的闭环。Qwen3.7-Max 能跑完 35 小时,关键可能就在这。

编程和办公,真能打?

智能体光能“坚持”不行,还得“能干好活”。官方放了一堆榜单成绩,我挑几个跟开发者关系大的说说。

编程能力上,在 SWE-Pro(解决真实 GitHub Issue)、SWE-Multilingual(多语言代码)、SciCode(科学计算)这几个硬核评测里,它都排到了前列。特别是 QwenSVG(一个代码生成评测),成绩不错。这说明它处理从前端原型到复杂多文件工程的能力,是经过检验的。

办公自动化这块,他们集成了 MCP(Model Context Protocol),搞多智能体协作。在办公场景专项测试 SpreadSheetBench-v1 里,综合得分也是公开模型里的顶尖水平。简单说,就是让 AI 帮你处理表格、写报告、整流程,理论上能更稳了。

但这里有个前提——这些成绩都是“实验室”数据。我自己没拿到 API 权限实测(老实讲,个人开发者要第一时间拿到挺难的),所以实际用起来有没有水分,还得等一波社区反馈。

跨框架稳定,这个很关键

讲真,这点我觉得比单纯刷高分更重要。

官方说 Qwen3.7-Max 在 Claude Code、OpenClaw、Qwen Code 这些不同的智能体框架下,表现都很稳定。在终端交互测试 Terminal Bench 2.0 里,得分 69.7,比 DeepSeek-v4-pro-Max 还高一点。

这意味着什么?意味着你公司今天用这套框架,明天换那套,或者自己内部搭了一套工具调用体系,这个模型大概率不会因为框架一变就性能暴跌。对想落地智能体的团队来说,这能省不少适配和调优的麻烦。

技术选型时,模型的“泛化能力”和“稳定性”往往比峰值性能更重要。不然今天调好了,明天一升级,全完了。

站在国产模型什么位置?

三方机构 Arena 的全球大模型盲测总榜上,Qwen3.7-Max 超过了 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,排到了国产模型第一,跟 GPT、Claude、Gemini 那几个最强的站在了同一梯队。

这个“盲测”挺有意思的,就是让用户不知道用的是哪个模型,直接对话投票。能在这个榜上冲到前面,说明它的综合对话能力、逻辑和知识面,得到了普通用户的认可,不只是刷题高手。

模型关键定位长任务能力编程/办公亮点当前位置
Qwen3.7-Max全能智能体基座35小时千次调用SWE-Pro前列, SpreadSheetBench顶尖国产第一,全球第一梯队
DeepSeek-v4-pro代码与推理专家强,但未强调超长周期代码能力顶尖,数学推理强国产顶尖,代码特化
Kimi-K2.6超长上下文专家依赖长上下文记忆文档处理、信息提取强国产领先,上下文特化
GLM-5.1多模态与工具调用工具调用生态丰富多模态能力强,工具链完善国产主流,生态好

从表格能看出来,阿里这次是把宝押在了“智能体基座”这个定位上,追求的是全面和稳定,尤其是在长周期、多步骤的复杂任务上。

个人看法:香,但有门槛

总之,东西看起来不错,但坑估计也不少。

先说好的方面:

  1. 长周期任务能力如果真的能落地,那价值巨大。很多企业内部的自动化流程、运维监控、数据分析任务,都是长时间、多步骤的。一个能稳定跑下去的 AI 智能体,能解放很多人力。
  2. 跨框架稳定性对技术选型是利好,降低了后续的维护风险。
  3. 阿里云的迭代和工程化能力是背书。通过百炼 API 推,意味着配套的监控、部署、版本管理工具链可能会比较成熟。

再泼点冷水(我的保留意见):

  1. 成本没说。这么强的模型,通过百炼 API 调用,价格是多少?会不会比通用版本贵很多?这是决定能不能“用得起”的关键。
  2. 35小时实验的细节不够。具体是什么任务?中间失败了多少次?自我进化的具体机制是啥?这些技术细节披露得还是太少,有点“黑盒炫技”的感觉。
  3. 对普通开发者不友好。目前看来是优先通过企业级 API(百炼)提供服务。个人开发者、小团队想第一时间尝鲜、自己部署着玩,门槛可能比较高。生态可能不如一些更开放的项目活跃。

最后提一嘴,阿里这三个月连发三版的节奏,一方面说明投入大、迭代快,另一方面也让人有点眼花缭乱。对于企业用户来说,版本稳定性、长期支持策略可能比追求最新版更重要。

Qwen3.7-Max 无疑把国产智能体基座的天花板又抬高了一截。但它到底是不是那个能真正在生产线上一口气跑35小时的“老黄牛”,还得看第一批吃螃蟹的人怎么说。

你觉得,智能体要真正替代部分人工流程,最关键的一步是什么?是模型能力,还是工程化落地的工具链? 欢迎评论区聊聊。