Skill 火了,但它可能只是个过渡品

3 阅读1分钟

大家都在说 Agent Skill 是下一个风口。

Claude Code 有 skill-creator,Cursor 有 Rules,各种 Agent 框架都在搞"技能市场"。整个行业仿佛达成了共识:给 Agent 装技能包 = Agent 的未来

但我最近看到一个研究,让我开始怀疑这个共识。

云玦科技做了一个"零 Skill Agent"——不预装任何工具,直接把需求丢给它,它一边干活,一边给自己造工具。在 Humanity's Last Exam 评测里,它全面碾压了基于 Gemini 3 Pro 的 Agent,而且只花了 15 万元经费。

这让我不得不想一个问题:如果 Agent 能自己造工具,我们为什么还要帮它装 Skill?

从"给工具"到"造工具",范式正在翻转

先回顾一下 Agent 用工具的三个阶段:

第一阶段:人类写工具,Agent 调用。 这是最早的 Function Calling 模式。开发者写好 API、写好 Tool,Agent 只负责"选哪个用"。就像给工人发了一箱扳手,它只需要挑合适的那把。

第二阶段:人类写 Skill,Agent 组合。 这是现在最火的阶段。Claude Code 的 Skill、MCP Server、各种插件市场,本质上是把"工具"升级成了"能力包"。不只是一把扳手,而是一整套"如何修水管"的方法论。Agent 不只选工具了,它开始像个项目经理一样编排流程。

第三阶段:Agent 自己造工具。 这是正在发生的事。Agent 遇到问题,发现现有工具不够用,于是自己写一个函数、调试、验证、存起来下次复用。

这三个阶段的本质区别是什么?是谁在做"知识编码"这件事。

第一阶段,知识在人类工程师的脑子里。第二阶段,知识在 Skill 作者的 Markdown 文件里。第三阶段,知识在 Agent 自己的执行经验里。

三条路径已经跑通

这不是纸上谈兵。学术界和工业界已经验证了至少三条"Agent 自造工具"的路径:

路径一:探索驱动

2023 年 NVIDIA 的 Voyager 项目,在 Minecraft 里让 Agent 边玩边积累技能库。它写代码、执行、验证,把成功的行为存为可复用的技能。结果?获取物品速度比前代快 15.3 倍,而且技能可以跨世界迁移。

这说明 Agent 完全有能力通过"探索"来积累工具。就像小孩学走路,不需要说明书。

路径二:失败驱动

EvoSkill 的方案更有意思——让 Agent 直接执行任务,失败了就分析原因,提出新 Skill,然后过一道"帕累托筛选"才保留。这跟人类的学习方式几乎一模一样:犯错→总结→形成方法论→下次不犯

路径三:需求驱动

这是云玦科技那个"零 Skill Agent"的路径。不靠探索,不等失败,而是在执行任务的过程中实时发现"我缺一个处理这类情况的工具",然后当场造一个。

这个框架里有四个角色:管理者规划任务,工匠造工具,执行者跑任务,整合者出结果。128 个工具,全是在做题过程中临时造的。

那 Skill 是什么?一个辅助轮

到这里,逻辑就清楚了。

Skill 本质上是人类给 Agent 打的"知识补丁"。 因为当前的 Agent 还不够聪明,无法在所有场景下自己推导出最佳实践,所以我们把经验预编码成 Markdown 文件、MCP Server、Plugin,喂给它。

这就像自行车的辅助轮——孩子还不会保持平衡时,辅助轮是必要的。但没有人觉得辅助轮是自行车的终极形态。

2023 年的 LATM(Large Language Models as Tool Makers)论文就已经指出了这个方向:用强模型(GPT-4)造工具,弱模型(GPT-3.5)用工具,造一次,用无数次。成本降下来,效果不打折。

到了 2025 年的 ToolMaker 框架,Agent 甚至能把一篇论文的 GitHub 代码自动转化成可调用的工具,成功率 80%。

趋势很明确:工具创造的成本在指数级下降,而 Agent 的工具创造能力在指数级上升。两条曲线交叉的那一天,就是 Skill 作为"人工预制品"开始退场的那一天。

但别急着扔掉 Skill

说 Skill 是"过渡品",不是说它现在没用,恰恰相反——现阶段 Skill 是最实用的 Agent 增强方式,没有之一。

原因很现实:

1. 自造工具的可靠性还不够。 36氪的一篇分析指出,单个自造 Skill 的可靠性能到 95%,但多个 Skill 组合执行时,成功率从 90% 跌到 79%。错误会指数级累积。在生产环境里,79% 的成功率等于不可用。

2. 造工具本身有成本。 每次从零推导"怎么发飞书消息""怎么调微信 API",是巨大的算力浪费。预制的 Skill 就像预制菜——不够定制化,但省时省力。

3. 安全边界模糊。 Agent 自己造的工具,谁来审计?谁来确保它不会造出一个删库的脚本?Skill 至少经过了人类 review。

所以现实路径更可能是:Skill 不会消失,而是会进化。

终局猜想:Skill 变成 Agent 的"基因"

我认为最可能的终局不是"有 Skill"或"没 Skill"的二选一,而是一种混合态:

基础 Skill 变成"基因"。 就像人类不需要重新发明语言,Agent 也不需要重新发明"如何调 HTTP API"。这些底层能力会内化到模型本身,或者固化为标准化的基础设施层(MCP 协议正在做这件事)。

领域 Skill 变成"种子"。 人类专家提供的 Skill 不再是最终产品,而是 Agent 自我进化的起点。Agent 会在使用过程中修改、优化、分裂、合并这些 Skill,最终产出人类没想到的变体。

临时 Skill 由 Agent 实时生成。 遇到没见过的问题,Agent 现场造工具,用完可能就丢了,也可能存入技能库供下次使用。就像你临时写了个脚本处理一次性数据清洗,不值得做成产品,但当下管用。

这个图景下,Skill 不是消失了,而是从"静态的人造物"进化成了"动态的 Agent 产物"。 创造者从人类变成了 Agent 本身。

对我们意味着什么

如果你是开发者,现阶段最值得投入的方向依然是 Skill 生态——写好 Skill、用好 MCP,这是当前 ROI 最高的事。但同时值得关注自进化 Agent 的进展,因为一旦这条线成熟,整个 Skill 市场的格局会被重写。

如果你是投资人,纯"Skill 市场"或"Plugin 商店"模式可能不是最好的标的。因为它在赌 Skill 会永远需要人来写。更值得关注的是那些在做"Agent 基础设施"的团队——让 Agent 自己造工具、自己进化的底层能力。

如果你只是关注 AI 趋势的读者,记住一句话就够了:今天我们在教 AI 用工具,明天 AI 会自己造工具,后天 AI 造的工具会比人类造的更好用。

这不是预测,这是正在发生的事情。从 Voyager 到 LATM 到零 Skill Agent,每一步都在验证同一个方向。

Skill 不会消失。但"人类必须给 Agent 写 Skill"这件事,保质期可能比我们想的短得多。


参考资料:

  • 云玦科技"原位自进化 Agent"框架(量子位报道)
  • LATM: Large Language Models as Tool Makers(arXiv: 2305.17126)
  • Voyager: An Open-Ended Embodied Agent with LLMs(arXiv: 2305.16291)
  • ToolMaker: LLM Agents Making Agent Tools(ACL 2025)
  • EvoSkill / EXIF / CASCADE 等自进化 Skill 研究