别被概念忽悠了:Agent Skills 的本质就是一份“可执行 SOP”

120 阅读5分钟

你好,我是 shengjk1,多年大厂经验,努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注!你会有如下收益:

  1. 了解大厂经验
  2. 拥有和大厂相匹配的技术等

希望看什么,评论或者私信告诉我!

一、背景

在 AI Agent 领域,新词层出不穷,最近 "Agent Skills" 成了众人追捧的新对象。

很多人把它神圣化,觉得是什么不可思议的黑科技。但如果你撕掉它的神秘外衣,你会发现:Agent Skills 的本质,就是一份针对某一类特定问题的数字化、可执行的 SOP(标准作业程序)。

这是一篇基于我们深度对话整理的技术博客,旨在破除概念迷信,从工程本质出发解析 Agent Skills

二、 回归本质:SOP 的数字化重生

传统的 SOP 是一叠厚厚的 PDF,躺在员工的手册里。而 Agent Skills 是把这些“领域专家经验”封装成了“AI 可阅读并执行的指令集”。

一个典型的 Agent Skill 文件夹通常包含:

  • SKILL.md (灵魂):定义了 SOP 的控制逻辑。它告诉 AI 什么时候用这个技能、前置条件是什么、具体的 Workflow 步骤以及行为约束。
  • scripts/ (手脚):存放具体的执行工具(如 Python 或 Shell 脚本)。AI 不需要猜测复杂的命令参数,直接调用这些经过验证的脚本。
  • examples/ (经验):通过 Few-shot 示例,告诉 AI 理想的输出标准。

SOP 告诉你如何做,Skill 替你做了。SOP 规避人为失误,Skill 规避 AI 幻觉,让AI拥有专业的领域知识,让AI等价于领域专家

三、 核心亮点:渐进式披露 (Progressive Disclosure)

为什么我们不直接把所有 Prompt 塞给 AI?因为 AI 的注意力是稀缺资源。Agent Skills 在工程上实现了一个天才的机制——渐进式披露

  • 轻量发现:系统平时只给 AI 喂一个极其简短的“技能索引”。
  • 意图触发:只有当 AI 意识到任务需要某个特定技能时,工程层面的“书童”(Orchestrator)才会从磁盘读取完整的 SKILL.md 全量注入上下文。

这不仅节省了 Token 成本,更解决了“大海捞针”问题。通过这种指令的“按需加载”,我们强制 AI 在执行的那一刻,从“胡言乱语的大学生”瞬间坍缩为“专注的领域专家”。

四、渐进式披露:本质上是工程能力

AI就想是一个能力强大的超级赛亚人,但它没有思考能力,你给他什么,他就全部接受。为了实现渐进式披露,必然需要在工程上做一些改进。 下面是渐进式披露的例子:

class ProgressiveAgent:
    def __init__(self):
        self.context = []
        self.loaded_skills = set() # 记录已经加载详细指令的技能

    def get_system_prompt(self):
        # 第一步:只披露“菜单” (Metadata)
        skill_menu = "\n".join([f"- {name}: {info['metadata']}" 
                               for name, info in SKILLS_LIBRARY.items()])
        
        return f"""你是一个智能助手。你拥有以下技能目录:
        {skill_menu}
        
        如果你发现需要使用某个技能,请输出:[LOAD_SKILL: skill_name]。
        如果你已经准备好执行,请直接输出:[ACTION: tool_name]。
        """

    def run_loop(self, user_query):
        self.context.append({"role": "system", "content": self.get_system_prompt()})
        self.context.append({"role": "user", "content": user_query})

        while True:
            # 调用 LLM
            response = call_llm(self.context) 
            print(f"Agent Thought: {response}")

            # 第二步:检测模型是否请求“披露”更多细节
            if "[LOAD_SKILL:" in response:
                skill_name = parse_skill_name(response)
                
                if skill_name in SKILLS_LIBRARY and skill_name not in self.loaded_skills:
                    # 动态注入详细指令
                    detail = SKILLS_LIBRARY[skill_name]['full_instructions']
                    self.context.append({
                        "role": "system", 
                        "content": f"已加载技能 {skill_name} 的详细说明:\n{detail}"
                    })
                    self.loaded_skills.add(skill_name)
                    print(f"--- 系统:已动态披露 {skill_name} 的详细指令 ---")
                    continue # 携带新知识进入下一轮推理

            # 第三步:处理最终行动或输出
            if "[ACTION:" in response:
                # 执行具体工具...
                break

五、 逻辑路由:为 AI 制造“局部真理”

不用的 skills,可以看作是不通领域的专家,AI 就是那个路由器,不能的问题会被路由到不通的专家

逻辑路由(Logical Routing) 的本质是 “上下文的精准外科手术”。它根据用户的意图,为模型临时构建一套完全不同的“职业环境”:

  1. 降噪:剪掉 90% 无关的信息,让模型在当前任务下拥有最高的“思维专注度”。
  2. 授权:只有路由到该 Skill,AI 才被允许调用对应的外部工具(如 ffmpeg)。

这种动态的角色重塑,让 AI 在每一秒钟内只相信一个“局部真理”:我现在唯一的任务,就是按照这份 SOP 完美地执行。

六、 行业分水岭:从“调优 Prompt”到“面向 Skill 开发”

我们正在经历编程史上的又一次高阶抽象跃迁。过去我们面向代码开发,未来我们将面向 Agent Skills 开发

目前,行业已经出现了明显的分水岭:

  • OpenAI 路径:走“API Store”路线,万物皆云端 API。
  • Anthropic (Claude) 与 IDE 路径:走“本地执行者”路线。Claude 官方 API 已原生集成 Skills 架构,强制要求 SKILL.md 结构。

这意味着,Agent Skills 正在成为 AI 领域的 “容器化技术(Docker)”。它让模型与环境、指令与执行彻底解耦。

七、未来的开发范式

在这里插入图片描述

  1. 智能体循环:决定下一步行动的核心推理系统
  2. 智能体运行时:执行环境(代码、文件系统)
  3. MCP服务器:与外部工具和数据源的连接 4.技能库:领域专业知识和流程知识

每层都有明确的用途:循环层负责推理,运行时层负责执行,MCP层负责连接,技能层负责引导。这种分离使系统易于理解,并允许各个部分独立演进。

八、总结

我们正处在 AI 应用开发范式转型的十字路口。Agent Skills 的兴起,标志着编程逻辑从“面向指令”向“面向能力与规范”的高阶跃迁

未来,开发者真正的核心资产不再是零散的代码片段,而是那些被精心打磨、可跨平台迁移的数字 SOP(Skills)。

如果说 Claude Code、Codex 等工具可以让未来每一个人都是程序员,程序员全员化,那么 Skills 可以让未来每个人都是专家,专家全员化。

但信息壁垒依然存在,技术壁垒依然存在,并且会越来越去平民化 在这里插入图片描述