很多人已经开始感觉到不对劲了。
2025年3月,Manus引爆科技圈,号称全球首个通用AI Agent。2026年刚开年,OpenClaw席卷全球,不到60天就超越React十年积累,成为GitHub上Star数最多的软件项目。紧接着104名开发者联手重写OpenClaw底层,给它装上了“操作系统”级的任务控制面板。节奏快到什么程度?上一个爆款还没过完蜜月期,下一个已经在踹门了。
与此同时,行业内还有一个不太起眼但更值得关注的变化。MCP(Model Context Protocol)——这玩意儿你可能还没亲自上手测过,但已经有超过10000个活跃服务器在生产环境跑着,月SDK下载量达到9700万次。GPT-5.4针对MCP做了深度适配,tool-search配置能在不降准确率的情况下砍掉47%的token消耗。
如果你所在的团队还在纠结“该用哪个模型”或者“怎么让对话生成更稳定”,那你可能正在错过真正的分水岭。模型当然是基础,但接下来决定你能跑多快的,根本不是模型本身。
这个东西叫——
Skill生态。
目录
一、大模型正在从“壁垒”变成“水电煤” 二、Agent架构正在从“厚”变“薄” 三、Skill生态的本质:能力工程化封装 四、三条产品线,三种Skill生态策略 五、对软件测试从业者意味着什么 六、留给你的一个问题
一、大模型正在从“壁垒”变成“水电煤”
先看一个基础事实。
2026年4月的AI评测中,GPT-5.4以92%的准确率领跑。OpenAI的旗舰模型在GDPval基准测试的83%任务上达到或超过行业专业水平,在OSWorld桌面操控测试中首次超过人类基线(72.4%)。
但你再看另一个方向:GLM-4.6在开放性模型中已经追到92.57%的均值,Claude Opus 4.1在某些方面甚至反超GPT-5——比如审美判断力。
本质是:一线模型的差距正在快速收窄。
过去半年,谁都说不准自己是领先还是落后。但到了2026年年中,这个局面正在发生微妙变化。行业共识开始从“谁的模型更强”转向“谁能把Agent真正跑起来”。
这件事有意思的地方在于:它不只是模型能力到了临界点,而是工程层面也开始有条件聚焦到上层建筑了。
观点句:当模型的智商不再构成壁垒,真正的竞争就转移到了“如何让AI把事干成”。
二、Agent架构正在从“厚”变“薄”
Manus、OpenClaw和Claude Managed Agent三种主流产品形态,都遵循三层结构:底层是基础模型,中间是Agent能力构建层,顶层是用户交互界面。但三者对“中间层”的理解完全不同。
Manus是典型的“厚Agent”策略。记忆系统、系统提示词、知识库、Workflow编排、MCP工具协议……它几乎把让AI可靠工作所需要的一切都包裹在了Agent能力层。这种策略在早期模型不够智能时合理——模型欠的债,靠工程来补。
OpenClaw走相反的路。它的第二层被解构成一组文本协议:agent.md定义行为,soul.md定义性格,User.MD描述用户画像,再加上心跳机制、Skills技能和会话管理,全部归用户所有。不是给你一个成品,而是给你一堆标准化零件。
中间层正在快速变薄。
这不是技术倒退。核心在于:底层大模型的能力在快速进化到能接管更多的自主决策,以前需要在Agent层手工兜底的逻辑,现在可以直接交给模型推理。与此同时,能力标准化的红利开始显现,底层原子能力通过MCP这样的标准化协议被抽象出来,上层不需要重复造轮子。更关键的是,薄架构带来了一个工程上极其重要的改变——能力不再是黑盒的成品,而是可组合的模块,Skill生态就长在这一层上。
观点句:变薄的不是能力总量,而是“必须自己实现”的部分在收缩,剩下的交给Skill生态来填。
三、Skill生态的本质:能力工程化封装
这个词听起来很大,但工程视角拆开看就清楚了。
过去AI应用的开发逻辑是:你要一个能力,就调一个API。问题在于,API和API之间怎么串联,怎么调度,怎么处理失败,怎么把经验沉淀下来复用——这些都是散的。
MCP的出现改变了这个局面。它定义了AI应用(LLM、图像生成模型等)与工具、数据源之间的标准集成方式,让Agent可以按约定方式访问数据、调用工具并执行工作流。截至2026年初,超过10,000个MCP服务器在生产运行,500多个客户端跨越Claude、ChatGPT、Cursor、VS Code等主流平台。
有了MCP,工具被标准化了。但还缺一层——把“怎么做”的经验也标准化。
这就是Skill。Skill把原来写在人脑子里的经验——比如一个有经验的测试工程师看到接口文档自然想到的参数校验场景——拆成可调用、可组合、可复用的能力模块。
一个典型的Agent+MCP+Skills分层结构如下:
flowchart TD
User[用户] --> Agent[Agent 决策层]
subgraph Skills [Skill 能力层]
S1[测试计划生成]
S2[用例生成]
S3[错误修复]
S4[结果分析]
end
subgraph MCP [MCP 执行层]
API[API调用]
Browser[浏览器操作]
DB[数据库查询]
File[文件读写]
end
Agent --> Skills
Skills --> MCP
MCP --> System[外部系统/工具]
分工逻辑非常清楚:
- Skill:把“怎么做”的经验工程化封装,是能力单元
- MCP:把“调用什么工具”标准化,是执行管道
- Agent:负责“什么时候调用哪个Skill、用哪个MCP工具”,是调度中枢
核心工程原则:Agent不直接操作基础设施;执行必须标准化;每一步必须可追溯。
为什么这套东西比单纯依赖模型重要?因为模型会换版本、会升级、会变。但Skill和MCP是工程化的中间层——换底层模型,上层能力链路不崩塌。这才是可持续的架构。
MCP目前在生产环境部署中还存在一些短板——身份传播、自适应工具超时、结构化错误语义这三个协议层面的缺失,仍是目前规模化落地时需要额外补的治理能力。但这也意味着,现在正是规划和设计Skill生态的最佳窗口期。
四、三条产品线,三种Skill生态策略
看三条代表性产品线,能更清楚地理解Skill生态的差异化策略。
Manus:交钥匙式黑盒Agent。
中间层由Manus负责调优和控制,用户拿到的是一个成品。优点很明显:开箱即用,体验一致。代价是——你想扩展自己的能力?只能靠Manus官方开放接口。这是一种封闭式Skill生态。
OpenClaw:开放骨架,用户自己装引擎。
中间层被拆成文本协议,用户可以用自然语言“调教”龙虾,让它更懂自己,做更多事。交互界面从单一浏览器扩展到Discord、飞书、钉钉等多个IM平台。
GitHub上OpenClaw的Star数突破25万,国内多家云厂商迅速跟进一键部署方案,腾讯云、阿里云相继上线,KimiClaw、QClaw、WorkBuddy等国产品也在密集发布。2026年第一季度的态势是:五种完全不同的Agent产品在同一个窗口期涌现——OpenClaw走个人助理路径,Cowork走办公协作,Codex App走长程工程,Perplexity Computer走统一工作站,腾讯云ADP走企业平台。
大家的差异化竞争点已经非常清晰:Skill生态的开放程度 和 工程化的成熟度。
Cursor 3.0:IDE到Agent工作平台的范式迁移。
Cursor 3.0的迭代方向非常明确,从单一的AI增强编辑器向Agent工作平台转型,允许用户并行运行多个Agent,跨本地、云端、隔离工作区和远程SSH会话协同执行。2025年3月时,使用代码补全的用户数是使用Agent用户的2.5倍。到2026年4月这条数据完全倒转,使用Agent用数量翻倍赶超,Cursor内部工程团队35%的合并PR由自主云Agent编写。
它还推出了插件市场,允许团队通过MCP、Skills和子Agent扩展能力。这是产品定位层面的根本转变——传统IDE的核心资产是编辑器,Cursor的下一个核心资产是Agent和Skill生态。
五、对软件测试从业者意味着什么
最直接的启示是:你不是在被取代,你是在被推到更高的抽象层。
看一组变化就知道了。
传统的接口自动化测试链路是:人读Swagger或接口文档 → 人分析测试场景 → 人写接口脚本 → 人执行脚本 → 人看报错 → 人改代码 → 人再回归。
Agent+MCP+Skills模式下的链路完全不同。不是把“生成脚本”这个单点交给AI,而是把测试工程师的整个工作流程拆成多个环节,让智能体逐步完成规划、生成、执行、修复、沉淀。
关键在于——每次测试执行的经验会自动沉淀到Skill中,后续直接复用。
很多AI测试实践跑不起来的原因很直接:每次都是靠对话生成,对话本身不可控、不好沉淀。不是模型不够强,而是在产品侧和团队能力侧,没人把测试经验封装成标准能力。
当一个测试团队开始走这条路径时,真正的瓶颈就不再是模型,而是:
- 能否把测试经验梳理成结构化的Skill库
- 能否建立接口知识库和依赖图谱
- 能否为每个Skill定义清晰的输入输出和异常处理
- 能否建立可观测性体系来追踪Agent决策过程
观点句:未来测试工程师的核心竞争力,不是会不会用AI,而是能不能把测试能力封装成可复用的Skill。
六、留给你的一个问题
文章快写完了才发现还有个数据没往里放。ICSE 2026发表的Agent开发经验报告中有一句话很扎眼:“把尽可能多的功能移到可单元测试的非AI工具中”。意思是——不要因为用了AI就把工程纪律丢掉,恰恰相反,AI越强,边界越要清晰。
把这句话翻译成你现在面临的真实问题:
你日常的测试流程中,哪些步骤可以被Skill化、哪些可以交给MCP标准执行、哪些必须保留人工决策?你现在的系统是否具备反馈闭环——每次执行的结果能否自动沉淀为下一次调用的经验?
想清楚这几个问题,比纠结“该用GPT-5.4还是Claude Opus 4.1”重要得多。