过去一段时间,如果你持续关注 Agent 相关的产品、框架和讨论,应该会发现一个变化:
大家讨论的重点,正在慢慢从“模型够不够强”,转向另一个更具体的问题:
AI 到底该怎么组织能力,才能真正把事情做完。
光有模型不够,这件事大家已经越来越有共识。
于是我们给它接上搜索、浏览器、代码执行、数据库、文件系统、外部 API。
看起来能力越来越强,系统也越来越像“会干活”了。
但真正把这些东西接起来后,问题很快就出现了。
很多 Agent 不是不会调用工具,而是不能稳定地完成任务。
给它 10 个工具,不等于它就拥有了 10 种能力。
更多时候,它只是“有很多动作可以做”,却不知道什么时候该做哪一个、做完之后怎么接下一步、失败之后又该怎么处理。
于是,很多团队都会走到一个很熟悉的阶段:
Prompt 越写越长,规则越补越多,工具越挂越全,系统却没有变得更可靠,反而越来越臃肿、越来越贵,也越来越难维护。
也正是在这个过程中,我开始频繁注意到一个词:Skill。
一开始我也以为,这可能只是 Agent 圈又一个新术语。
但看得越多,我越觉得,它不是在做“概念加法”,而是在补 AI 应用里一个长期缺失的层:
我们一直在给 AI 加模型、加工具,却没有认真解决“能力该怎么被组织”这件事。
AI 应用今天卡在哪里
这两年,大家其实先后经历了两个阶段。
第一个阶段,是确认了一件事:大模型确实能做很多过去做不了的事。
写作、问答、翻译、总结、代码、检索、规划,能力上限一次次被抬高。
于是很自然地,很多人会觉得,只要模型继续变强,AI 应用落地就是时间问题。
但真正做过一段时间后,你会发现,事情没那么简单。
今天很多 AI 应用真正卡住的地方,往往不是“模型还不够聪明”,而是系统并没有把这些能力组织好。
1. 模型会的多,但不一定稳
大模型的强项,是它很会“理解任务”。
你给它一个目标,它通常能说出一个看起来很合理的方案,甚至把步骤拆得头头是道。
问题在于,会描述任务,不等于能稳定完成任务。
一旦任务从单轮问答变成多步骤执行,问题就开始出现了。
它可能第一步判断对了,第二步选错工具;也可能前面都做得不错,最后在一个细节上偏掉;更常见的是,它大概知道该怎么做,但整个执行过程不够稳,一遇到异常就乱。
这也是为什么很多 Agent Demo 看起来很惊艳,但一放到持续使用的真实环境里,效果就开始飘。
2. Tools 给得越多,不代表系统能力越强
于是大家想到的第二步,通常是给模型接更多工具。
浏览器、搜索、代码执行、文件系统、数据库、外部 API……这些工具接上之后,Agent 的动作空间确实大了很多。它不再只是“说”,而是开始“做”。
但这里有一个很容易被忽略的问题:
工具只是动作,不是能力。
给一个系统十几个 Tool,并不意味着它就自动拥有了十几种稳定能力。
因为“能力”从来不只是某个动作本身,还包括:
- 什么情况下该调用它
- 调用之前要准备什么上下文
- 调用之后如何判断结果对不对
- 如果失败了,下一步该怎么补救
这些东西,单靠 Tool 本身是不会自动出现的。
很多 Agent 项目最后都会变成这样:
工具越来越多,定义越来越全,但系统并没有越来越可靠,反而更像“拿着一整箱工具,却不知道先拧哪颗螺丝”。
3. Prompt 越写越长,但收益越来越低
再往后,很多团队会进入第三个阶段:
既然模型不稳定、工具不会组织,那就继续怼 Prompt。
于是 system prompt 越来越长,里面塞满了各种内容:
任务目标、使用规则、工具说明、注意事项、边界条件、失败兜底、业务背景、示例流程等等
刚开始,这样做通常是有效的。
因为很多问题,确实可以靠更明确的指令缓解。
但 Prompt 一旦膨胀到一定程度,副作用就会越来越明显。
第一是成本上升。上下文变长,调用变贵。
第二是注意力分散。信息越多,模型越不容易能稳定抓住重点。
第三是维护困难。每加一条规则,都是在给整个系统在打一层补丁,屎山可能就这样越堆越高。
最后你会发现,系统越来越像一个被各种说明文档和补丁缠住的装置。
它不是不能跑,而是越跑越笨、越跑越重。
所以今天很多 AI 应用的瓶颈,本质上并不在“能力缺失”,而在于:
我们已经有了不少能力模块,却还没有找到一种足够好的方式,把它们组织成一个真正可复用、可维护、可扩展的系统。
Skill 到底在补什么
也正是在这个背景下,Skill 这件事开始变得值得关注。
我现在越来越倾向于把它理解成:
Skill 不是在替代 Tool,也不是在替代 Prompt,而是在补一层长期缺失的“能力组织层”。
Prompt -> Tool -> Skill
如果用最简单的话来区分:
- Tool 解决的是“你能做什么动作”
- Prompt 解决的是“你先记住哪些规则和背景”
- Skill 解决的是“遇到某类任务时,你该如何组织这些动作、规则和资源,把事情做完”
这三者并不冲突,但解决的问题完全不同。
Tool 像工具,Skill 像能力包
一个 Tool 像是一把扳手、一把螺丝刀。
它很好,也很必要,但它只负责一件事:把某个动作做出来。
而一个 Skill,则更像是一整套可以反复调用的作业包。
里面通常不只有动作本身,还会包含:
- 任务说明
- 使用步骤
- 调用条件
- 脚本或模板
- 所需资源
- 输出约束
- 失败处理方式
换句话说,Skill 不是“多一个工具”,而是把某一类任务处理经验,封装成一个可以被按需调用的模块。
这件事的意义很大。
因为现实中的很多工作,本来就不是一个单动作能完成的。
它们更像是一串相互依赖的小步骤:先判断,再检索,再处理,再验证,最后输出。
如果没有一层机制把这些东西组织起来,系统就只能反复依赖模型临场发挥。
而临场发挥这件事,在 Demo 里很好看,在工程里通常不够稳。
Skill 的价值,在于把“经验”变成系统的一部分
过去做 Agent,经常会有一种感觉:
系统看起来拥有很多能力,但每次做任务,都像从零开始临时组织。
今天它也许能做对,明天换个表述、换个上下文、换个任务顺序,就未必还能做对。
这说明系统缺的,不只是功能,而是可复用的处理经验。
而 Skill 恰恰是在做这件事。
它不是让模型“自己猜”这类任务应该怎么做,而是把已有的经验、流程、脚本、资源,整理成一个可以重复使用的能力模块。
下次再遇到类似任务时,不需要重新在 Prompt 里从头交代,也不需要完全依赖模型自由发挥,而是可以直接调用对应的 Skill 去处理。
从这个角度看,Skill 最重要的贡献,其实不是增加了多少新能力,而是提高了已有能力的复用性、稳定性和可维护性。
Skill 在补的,是 Agent 从“能试”到“能用”的那一层
很多 AI 系统今天已经具备“试试看”的能力了。
你给它一个任务,它也许能成功,也许不能;今天行,明天未必行;简单任务做得还不错,复杂一点就开始漂。
这说明它已经有了一定能力,但距离“能用”还差一层。
而 Skill 补的,恰恰就是这层东西:
- 不只有动作,而且有组织的动作
- 不只有知识,而是可调用的经验
- 不只是一次性的跑通,而是可重复的完成
所以我会觉得,Skill 真正有意思的地方,在于它提醒了我们一件事:
AI 应用真正要走向落地,不能只靠更强的模型,也不能只靠更多工具,还需要一套更像“工作方法”的能力组织机制。
为什么现在 Skill 这件事值得关注
如果 Skill 只是换了个名字,把过去那些 Prompt、脚本、流程重新打包一遍,那它其实没有太大意义。
但我之所以觉得它值得认真看,是因为它确实解决了当前 AI 应用里几个非常现实的问题。
1. 它部分解决了上下文不断膨胀的问题
过去一段时间,我们有一种很自然的做法:
凡是系统需要知道的,都尽量往 Prompt 里塞。
这在早期是合理的,因为 Prompt 是最直接、最方便的控制手段。
但随着任务复杂度上升,这种方式的问题越来越明显。
系统需要知道的东西太多了,规则、范例、工具说明、边界条件、补充知识,全都堆在一起,最后上下文越来越长,成本越来越高,模型注意力也越来越分散。
Skill 提供了另一种思路:
不是所有知识都要常驻在上下文里,而是可以按需加载。
也就是说,系统平时只保留一个较轻的状态;真正遇到某类任务时,再去加载对应的 Skill,把相关指令、脚本和资源引进来。
这背后的意义不只是省 token。
更重要的是,它让整个系统从“全量加载”变成了“根据任务动态展开”,从而提升复杂 Agent 的可扩展性。
2. 它让能力变得可复用了
今天很多 AI 应用开发,仍然带有很强的一次性特征。
你做一个合同审查助手,就为它单独写一套 Prompt;
你再做一个文档解析流程,又重写一套;
下次换个业务场景,很多东西又得从头再来。
这当然不是不能做,但复用效率很低。
而且时间一长,你会发现系统里积累了大量“只在某个项目里活着”的隐性经验,很难迁移,也很难共享。
Skill 的一个重要价值,就是把这些经验从“散落在 Prompt、代码和人脑里”,变成一个可分发、可复用、可迭代的能力单元。
这不仅对单个 Agent 有帮助,对团队协作也一样重要。
因为从工程角度看,可复用的能力模块,远比一次性 Prompt 更接近真正能沉淀资产的方式。
3. 它让 Agent 更接近工程系统
很多人第一次接触 Agent,容易把它理解成“会调用工具的大模型”。
这个理解不算错,但不够全。
因为“会调用工具”只是表面,真正关键的是:
它能不能在复杂任务里,持续、稳定地组织这些能力,最终完成目标。
这背后其实更像工程系统,而不只是对话系统。
而作为系统设计人员需要考虑的是以下几点:
- 它的任务边界是什么
- 它该如何触发某种能力
- 它的输入输出如何约束
- 它失败后如何恢复
- 它的行为怎么验证和评估
Skill 的出现,某种程度上就是在推动这件事。
它把原本零散的能力调用,往更工程化的组织方式上推了一步。
所以我觉得,Skill 的价值不在“新鲜”,而在“方向正确”。
它是在把 Agent 从“能演示”往“能交付”上推。
4. 它可能引起 AI 应用竞争方式的改变
如果把时间线再往前看一点,会发现过去 AI 产品的竞争逻辑,主要集中在几件事上:
- 模型强不强
- 上下文长不长
- Tool 多不多
- Demo 惊不惊艳
但如果 AI 应用真的继续往实际工作场景里走,竞争点很可能会逐渐变化。
未来拼的也许不只是“谁的模型更聪明”,而是:
- 谁更会组织能力
- 谁更会沉淀经验
- 谁能把复杂任务拆成可复用、可验证的模块
- 谁能把系统做得既灵活又稳定
从这个角度看,Skill 值得关注,是因为它触及了一个很核心的问题:
模型决定的是能力上限,但像 Skill 这样的组织层,决定的更像是系统到底能不能被真正用起来。
为什么我打算系统写这个方向
也正因为上面这些原因,我决定接下来把 Skill 这个方向系统地写一组文章。
一方面,是因为它足够具体。
相比泛泛去聊“Agent 很重要”“AI 会改变工作方式”,Skill 更容易落到真实的工程问题上。
它不是一个空概念,而是一个可以具体讨论设计、调用、成本、稳定性和边界的话题。
另一方面,它又不只是一个局部技术点。
如果你顺着 Skill 往下看,会慢慢碰到很多更大的问题:
- AI 应用里的能力到底该怎么组织
- Tool 和 Prompt 的边界在哪里
- 为什么很多 Agent 做到后面越来越重、越来越脆
- 一个系统要从“会一点”变成“能稳定干活”,中间到底缺了什么
这些问题,本身就是我接下来最想持续写的方向:
AI 应用落地。
所以后面几篇,我会沿着这个线索继续往下写。
我会先从更容易感知的部分切进去,比如看一看 clawhub 上最火的几个 Skill,到底为什么火;
再往后,会讲清 Skill、Tool、Prompt 之间到底有什么区别;
然后再往工程层面走,看看一个 Skill 系统真正要解决哪些问题,以及为什么很多看起来很强的 Skill,实际却很难落地。
我希望这组文章最后讨论清楚的,不只是某个项目、某种框架,或者某个新概念。
我更想讨论的是:
当我们开始认真做 AI 应用时,到底该用什么方式,把这些零散能力组织成一个真正可用的系统。
如果你也关注 Agent、模型选型和 AI 应用落地,欢迎关注「算法工程笔记」。这里尽量少讲热闹,多讲判断。