刷 Trending 看到阿里 Qwen3.7-Max 发布,第一反应是——好家伙,这迭代速度。3.5、3.6、3.7,三个月连发三版,国产大模型这更新节奏快赶上 App 发版了。
但这次有点不一样。官方说这是“迄今最全面的智能体基座”,能自主跑 35 小时、上千次工具调用。说实话,看到“35 小时”这个数字,我第一反应是存疑。毕竟之前测过不少模型,长任务中途掉链子、逻辑跑偏是常事。这玩意儿真能行?
先看最硬核的:35 小时千次调用,怎么做到的?
说白了,智能体基座的核心就两点:1. 自己会想(推理规划),2. 自己能干(调用工具)。Qwen3.7-Max 这次吹的“35 小时全自主内核优化实验”,其实就是把这两点往死里测。
他们搞了个“全自主内核优化”任务,让模型自己分析 Linux 内核代码、找出性能瓶颈、设计优化方案、写 Patch、测试、再迭代。整个过程不让人插手,模型得自己调用代码编辑器、编译器、测试框架、性能分析工具,来回折腾上千次。
这实验设计挺有意思的。它测的不是单次回答的质量,而是长周期任务的连贯性和稳定性。模型会不会中途“失忆”?工具调用链断了怎么办?优化方案跑了几轮发现是错的,能自己回头重开一局吗?
根据官方说法,模型不仅跑完了,还在过程中实现了“关键内核自我进化”,让推理速度比原版提升了 10 倍。这个“自我进化”具体是咋实现的,文档里没细说,我猜可能跟它内部的任务反思和策略调整机制有关。
flowchart TD
A["新需求/优化目标"] --> B{"需求明确吗?"}
B -- 是 --> C["规划任务与工具链<br>(代码分析、性能测试)"]
B -- 否 --> D["探索与信息收集"]
D --> C
C --> E["执行工具调用<br>(编辑、编译、运行)"]
E --> F{"结果符合预期?"}
F -- 是 --> G["记录成功路径<br>与策略"]
F -- 否 --> H["分析与反思<br>(为什么失败?)"]
H --> I["调整策略或工具选择"]
I --> C
G --> J["进入下一轮迭代<br>或任务结束"]
上面这个流程图,大概就是我想象中一个能跑长任务的智能体该有的工作流。重点在那个反思和调整的闭环。Qwen3.7-Max 能跑完 35 小时,关键可能就在这。
编程和办公,真能打?
智能体光能“坚持”不行,还得“能干好活”。官方放了一堆榜单成绩,我挑几个跟开发者关系大的说说。
编程能力上,在 SWE-Pro(解决真实 GitHub Issue)、SWE-Multilingual(多语言代码)、SciCode(科学计算)这几个硬核评测里,它都排到了前列。特别是 QwenSVG(一个代码生成评测),成绩不错。这说明它处理从前端原型到复杂多文件工程的能力,是经过检验的。
办公自动化这块,他们集成了 MCP(Model Context Protocol),搞多智能体协作。在办公场景专项测试 SpreadSheetBench-v1 里,综合得分也是公开模型里的顶尖水平。简单说,就是让 AI 帮你处理表格、写报告、整流程,理论上能更稳了。
但这里有个前提——这些成绩都是“实验室”数据。我自己没拿到 API 权限实测(老实讲,个人开发者要第一时间拿到挺难的),所以实际用起来有没有水分,还得等一波社区反馈。
跨框架稳定,这个很关键
讲真,这点我觉得比单纯刷高分更重要。
官方说 Qwen3.7-Max 在 Claude Code、OpenClaw、Qwen Code 这些不同的智能体框架下,表现都很稳定。在终端交互测试 Terminal Bench 2.0 里,得分 69.7,比 DeepSeek-v4-pro-Max 还高一点。
这意味着什么?意味着你公司今天用这套框架,明天换那套,或者自己内部搭了一套工具调用体系,这个模型大概率不会因为框架一变就性能暴跌。对想落地智能体的团队来说,这能省不少适配和调优的麻烦。
技术选型时,模型的“泛化能力”和“稳定性”往往比峰值性能更重要。不然今天调好了,明天一升级,全完了。
站在国产模型什么位置?
三方机构 Arena 的全球大模型盲测总榜上,Qwen3.7-Max 超过了 Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,排到了国产模型第一,跟 GPT、Claude、Gemini 那几个最强的站在了同一梯队。
这个“盲测”挺有意思的,就是让用户不知道用的是哪个模型,直接对话投票。能在这个榜上冲到前面,说明它的综合对话能力、逻辑和知识面,得到了普通用户的认可,不只是刷题高手。
| 模型 | 关键定位 | 长任务能力 | 编程/办公亮点 | 当前位置 |
|---|---|---|---|---|
| Qwen3.7-Max | 全能智能体基座 | 35小时千次调用 | SWE-Pro前列, SpreadSheetBench顶尖 | 国产第一,全球第一梯队 |
| DeepSeek-v4-pro | 代码与推理专家 | 强,但未强调超长周期 | 代码能力顶尖,数学推理强 | 国产顶尖,代码特化 |
| Kimi-K2.6 | 超长上下文专家 | 依赖长上下文记忆 | 文档处理、信息提取强 | 国产领先,上下文特化 |
| GLM-5.1 | 多模态与工具调用 | 工具调用生态丰富 | 多模态能力强,工具链完善 | 国产主流,生态好 |
从表格能看出来,阿里这次是把宝押在了“智能体基座”这个定位上,追求的是全面和稳定,尤其是在长周期、多步骤的复杂任务上。
个人看法:香,但有门槛
总之,东西看起来不错,但坑估计也不少。
先说好的方面:
- 长周期任务能力如果真的能落地,那价值巨大。很多企业内部的自动化流程、运维监控、数据分析任务,都是长时间、多步骤的。一个能稳定跑下去的 AI 智能体,能解放很多人力。
- 跨框架稳定性对技术选型是利好,降低了后续的维护风险。
- 阿里云的迭代和工程化能力是背书。通过百炼 API 推,意味着配套的监控、部署、版本管理工具链可能会比较成熟。
再泼点冷水(我的保留意见):
- 成本没说。这么强的模型,通过百炼 API 调用,价格是多少?会不会比通用版本贵很多?这是决定能不能“用得起”的关键。
- 35小时实验的细节不够。具体是什么任务?中间失败了多少次?自我进化的具体机制是啥?这些技术细节披露得还是太少,有点“黑盒炫技”的感觉。
- 对普通开发者不友好。目前看来是优先通过企业级 API(百炼)提供服务。个人开发者、小团队想第一时间尝鲜、自己部署着玩,门槛可能比较高。生态可能不如一些更开放的项目活跃。
最后提一嘴,阿里这三个月连发三版的节奏,一方面说明投入大、迭代快,另一方面也让人有点眼花缭乱。对于企业用户来说,版本稳定性、长期支持策略可能比追求最新版更重要。
Qwen3.7-Max 无疑把国产智能体基座的天花板又抬高了一截。但它到底是不是那个能真正在生产线上一口气跑35小时的“老黄牛”,还得看第一批吃螃蟹的人怎么说。
你觉得,智能体要真正替代部分人工流程,最关键的一步是什么?是模型能力,还是工程化落地的工具链? 欢迎评论区聊聊。