Agent Skills在货拉拉AI应用尝试本文基于 Anthropic 官方工程博客发布的《Equipping age

前言

美国时间 2025 年 12 月 18 日，Anthropic 正式宣布将 Agent Skills 发布为开放标准。去年刚写了篇关于 MCP 的文章，今年 Anthropic 发布了 Agent Skills，迫不及待的试一试，到底有没有宣发的那么强悍。

Agent Skills 是什么

This led us to create Agent Skills: organized folders of instructions, scripts, and resources that agents can discover and load dynamically to perform better at specific tasks.

www.anthropic.com/engineering…

官网的介绍就是这样，说到 Agent Skills，就一定要和 MCP，A2A 对比，这样才能更好理解 Agent Skills。

引用：Anthropic 工程团队博客 www.anthropic.com/engineering…

首先，抛出结论：Agent Skills 定义“能力”，MCP 提供“工具”，A2A 实现“协作”。

对比

核心关系

你可以将这三者理解为构建一个“智能体公司”的不同部门：

Agent Skills 像是公司的各个专业员工，他们各自掌握了完成特定任务（如写代码、做设计、分析数据）的完整方法和流程。

MCP 像是公司的统一后勤与工具库。无论哪个员工需要工具（如使用数据库、调用某个软件），都通过标准流程从这个库中领取，无需自己再造。

A2A 像是公司内部的协作通讯协议和会议制度。当一项复杂任务需要多个部门的员工（即多个智能体）合作时，他们依据这套规则进行沟通、同步进度和交付成果。

优势

Agent Skill 的思路有别于 MCP 的开发模式，从官网来看，有几个特点可以关注。

特点一：渐进式披露 (Progressive Disclosure)

渐进式披露是Agent技能设计中的核心原则，它让智能体的技能体系既灵活又可扩展。就像一本结构清晰的说明书，先给目录，再分章节，最后附上详细附录——技能的设计也是如此，让Claude只在需要时才加载对应的信息。

当智能体具备文件系统和代码执行工具时，在处理特定任务时，无需一次性将某个技能的全部内容读入上下文窗口。这意味着，一个技能所能涵盖的信息量实际上是没有上限的。这相当于，你可以给一个 Agent 装备 1000 个，甚至无限技能（从写 SQL 到查数据），只占用极少的上下文（Context），只在执行时才调用相关工具。这完美解决了长期以来困扰开发者的Token 浪费和上下文干扰问题。

特点二：LLM不是万能的

大语言模型虽然擅长处理多种任务，但有些操作还是交给传统代码来执行更合适。比如，让模型通过逐词生成来排序一个列表，远比直接运行排序算法的消耗大得多。除了效率问题，很多实际应用还需要确定性的可靠结果——而这只有代码才能保证。

Agent Skills提出，很多确定性的事情或者输入输出很清晰的事情，是可以拆解为traditional code执行，甚至执行的效果会更好，这也是Agent Skills的优势，它只会在具体执行到的时候触发（Claude can run this script without loading either the script or the PDF into context. ）不用像传统Agent方式，全部输入到prompt上下文。

引用：Anthropic 工程团队博客www.anthropic.com/engineering…

技能会在上下文窗口中通过系统提示符触发

落地

大概的Skill结构，如下

核心是需要写SKILL.md

必需字段:

name - 技能的名字（小写字母、数字、下划线）
description - 技能功能和使用场景描述，帮助AI判断何时使用

实战一：自然语言查数

背景

大数据存在大量数据分析场景，例如财务、A/B 实验报告等。Agent Skills 可将流程性的知识，打包成可组合、可复用的技能。我们不需要造更多的 Agent，只需动态加载技能，就可以解决特定领域的问题。

案例

我们可以将财务Agent和A/B实验报告Agent的自然语言查数，提炼为如下步骤：

理解用户意图：选择合适的数据集信息（财务、A/B实验报告(订单、用户））
加载领域知识：读取相关场景的元数据、业务知识等信息
加载SQL：生成知识，识别所使用的数据库信息、及相关SQL规范
生成并执行 SQL：选取hive.py & doris.py 工具，查询结果

现在，我们将这一套流程打包成技能，其结构如下：

接下来，我们在 Agent 中注册这个技能，就可以快速实现自然语言查数的能力。

财务

A/B 实验报告

将自然语言查数打包成技能，后续各业务Agent不再需要定制自然语言查数能力，只需要做好相关领域知识的维护，就能快速解决查数问题，而且，整个流程更容易治理和迭代。

实战二：指标归因分析

背景

大数据存在海量的数据，数据需做一些归因分析，可以进一步发挥数据价值。

skills能力

核心流程：

理解用户意图：选择合适的SKILL
加载领域知识：读取相关场景的元数据、业务知识等信息
解析scripts：识别提供的python工具包并使用
判断是否继续：判断是否解决问题并调用其他工具

核心结果：

第一阶段分析，分析结束后可衔接其他技能	第二阶段分析，数据视角更深入

注意：文章内容均为测试环境测试数据

业务经验抽象的质量，决定了Agent能力的上限
Agent Skills方案，降低了把业务经验注入到大模型的技术复杂度
scripts是双刃剑，为agent扩展能力边界的同时，也带来较大安全隐患，请谨慎使用外部Skills

核心业务指标分析逻辑 SKILL.md原文件

---
name: 核心业务指标分析逻辑
description: 分析指标1指标及其关联指标的周环比变化，识别影响因子和异常原因。使用场景：当用户需要分析业务指标变化、查找指标下降原因、进行指标根因分析时。
---

# 核心业务指标分析逻辑

分析指标1指标及其关联指标的周环比变化，识别影响因子和可能原因。

## 分析流程

### 1. 获取指标1周环比数据

调用 `scripts/query_demo.py` 获取指标1指标的周环比数据：

python scripts/query_demo.py 指标1 --json

返回数据包含：
- 今日日期、上周同期日期
- 今日指标值、上周同期指标值
- 变化率（周环比）

### 2. 判断是否需要深入分析

**如果指标1环比下降**，继续执行以下步骤：

#### 2.1 获取关联指标数据

调用 `scripts/query_demo.py` 获取以下指标的周环比数据：
- 指标1
- 指标2
- 指标3
- 指标4
- 指标5

python scripts/query_demo.py <指标名称> --json

#### 2.2 分析影响因子

对比各指标的变化率，识别：
- 哪个指标对指标1影响较大（变化率最显著）
- 指标间的关联关系
- 可能的原因分析

### 3. 获取节假日信息（可选）

如需考虑节假日因素，调用 `scripts/holiday.py`：

python scripts/holiday.py

返回指定日期范围内的工作日和节假日信息，用于判断指标变化是否受节假日影响。

### 4. 进行OLAP下钻分析（可选）

对于影响较大的指标，可进行OLAP下钻分析以识别细分维度的贡献度：

参考 `OLAP下钻分析` 技能，使用该技能进行多维度下钻分析。

## 支持的指标

- 指标1（核心指标）
- 指标2
- 指标3
- 指标4
- 指标5

## 分析输出建议

分析结果应包含：

1. **核心指标状态**
   - 指标1周环比变化
   - 变化趋势（上升/下降/持平）

2. **关联指标分析**（如指标1下降）
   - 各关联指标的周环比数据
   - 影响因子排序
   - 指标关联性分析

3. **可能原因**
   - 基于数据变化的可能原因推断
   - 节假日因素（如适用）
   - 其他外部因素考虑

4. **下钻分析结果**（如适用）
   - 细分维度的贡献度分析
   - 关键维度识别

## 使用示例

**示例：分析指标1下降原因**

# 1. 获取指标1数据
python scripts/query_demo.py 指标1 --json

# 2. 如果下降，获取关联指标
python scripts/query_demo.py 指标2 --json
python scripts/query_demo.py 指标3 --json
python scripts/query_demo.py 指标4 --json
python scripts/query_demo.py 指标5 --json

# 3. 检查节假日因素
python scripts/holiday.py

# 4. 对影响最大的指标进行下钻分析（如指标2）

展望

Agent Skills 并非一个简单的“新功能”，而是从单体架构到微服务，从过程式脚本到组件化框架这一转型的标准化接口。它的核心价值，在于为“模型智能”的工程化落地，定义了一种可组合、可复用的 “能力单元” 设计范式。

未来的竞争维度将发生根本变化：问题将从 “你的单体模型（巨石应用）性能多强？” ，转向 “你的‘包管理器’（Skill 生态）有多丰富、可靠和高效？” 。拥有最强大模型，但缺乏易用、标准化能力接口的公司，可能会像拥有最强单核CPU但缺乏操作系统和软件生态的厂商一样，在真正的应用战场中失势。

Skill 规范，正是在尝试为 AI 世界定义那个至关重要的 “操作系统层”和“包管理协议”。

产研团队：李鸣、王海艳、包恒彬、黄燮聪

笔者介绍：李鸣｜大数据专家。曾任职于腾讯，从事地图渲染SDK研发、智能网联云平台后端开发，现就职于货拉拉，搭建了基于供需关系的调价平台、异动监测系统、GPT基础能力建设等项目，目前专注于大数据应用赋能。