Claude 补上了 Skill 开发最难的一块Anthropic 刚刚悄悄解决了 skill 开发最大的一个问题。sk

原文地址

Anthropic 刚刚悄悄解决了 skill 开发最大的一个问题。
过去开发 skill 基本是这样的：写 prompt → 试一下 → 不行再改 → 靠感觉上线。但 Claude 现在给 skill-creator 加了 3 个关键能力：

技能测试：可以定义测试问题和成功标准，自动验证一个 skill 是否真的有效。
多 Agent 基准测试：可以并行运行多个 agent，甚至对两个 skill 版本做 A/B 测试。
触发优化：Claude 会分析你的 skill 描述，自动修复。

下面是原文翻译：

改进 skill-creator：测试、衡量并优化 Agent Skills

skill-creator 现在可以帮助你编写 eval、运行基准测试，并确保您的技能能够随着模型的演进而持续发挥作用。这些更新现已在 Claude.ai 和 Cowork 上线，也可通过 Claude Code 插件使用，并包含在我们的代码仓库中。

自从去年 10 月我们发布 Agent Skills 以来，我们注意到大多数作者都是领域专家，而非工程师。他们了解自己的工作流程，但缺少工具来判断：一个技能在新模型下是否仍然有效、是否会在该触发时触发，或者编辑后是否真的有所改进。

今天我们宣布对 skill-creator 的增强，帮助作者更有信心地构建技能。我们将软件开发中的一些严谨方法（测试、基准测试、迭代改进）引入技能创作，同时不需要任何人写代码。

两种技能

技能通常分为两类：

**能力增强（capability uplift）**技能帮助 Claude 完成基础模型无法完成或无法稳定完成的任务。我们的文档创建技能就是很好的例子。它们编码了仅靠提示词难以稳定复现的技术和模式，从而产出更好的结果。

**流程偏好编码（encoded preference）**技能记录了这样一类工作流：Claude 本身已经能完成每个步骤，但技能会按照你的流程将这些步骤组织起来。比如：一项技能可以根据既定标准完成保密协议审查，或者一项技能可以根据来自各种 MCP 的数据起草每周更新报告。

这个区分很重要，因为这两类技能需要测试的原因可能不同：

能力增强技能可能会随着模型能力提升而变得没那么必要。evals 能告诉你何时发生了这种变化。
流程偏好编码技能更持久，但它的价值取决于它们与您实际工作流程的契合度。evals 可以验证这种契合度。

无论哪一类，测试都能把看起来可用的技能，变成你确定可用的技能。

使用 `evals` 进行测试并改进 skills

skill-creator 现在可以帮助你编写 evals，也就是用于检查 Claude 在给定提示下是否达到预期的测试。如果你写过软件测试，你会感到很熟悉：定义一些测试提示（必要时附带文件）、描述“好的结果”，skill-creator 就会告诉你这个技能是否符合预期。

例如，我们的 PDF 技能此前在处理不可填写表单时表现不佳。Claude 需要在没有字段可供定位的情况下，将文本放置到精确坐标。evals 找到了问题所在，随后我们发布了修复方案：将定位锚定到提取出的文本坐标。

evals 的用途很多，其中两个重要用途是发现质量下降问题与了解模型进展。

首先，要及时发现质量下降问题。随着模型以及其相关基础设施不断发展，上个月运行良好的技能今天可能表现不佳。针对新模型进行评估，可以让你及早发现变化，避免影响团队的工作。

其次，要知道通用模型能力是否已经超越你的技能，这主要适用于能力增强技能。如果基础模型在不加载该技能的情况下也能通过你的 evals，这说明技能中的技巧可能已被模型默认能力吸收。该技能本身并没有失效，只是不再必要了。

我们还新增了基准测试模式，可基于你的 evals 结果进行标准化评估。您可以在模型更新后或技能迭代过程中运行此模式。它会跟踪 evals 通过率、耗时与 token 使用量。

你的 evals 与结果将永久保存。您可以将其存储在本地、集成到仪表板中，或接入 CI 系统。

借助多 Agent 支持，实现更快、更稳定的 `evals`

顺序运行 evals 往往很慢，而且上下文会在多次测试之间相互污染。skill-creator 现在支持多 Agent 并行评估：每个 evals 都在独立、干净的上下文中运行，并分别记录 token 与耗时指标。结果更快，也避免交叉污染。

我们还增加了用于 A/B 对比的比较 Agent：可以比较两个技能版本，或比较“有技能”与“无技能”两种情况。它们在不知道哪个是哪个的情况下判断输出结果，因此用户可以判断更改是否真的有效。

让技能在正确时机触发

evals 衡量的是输出质量，但这只有在你的技能能够按预期触发时才有意义。随着技能数量的增加，描述的精确度变得至关重要：描述过于宽泛会导致误触发，描述过于狭窄则可能根本无法触发。skill-creator 现在可以帮助你优化描述以获得更可靠的触发效果：它会分析你当前描述与示例提示之间的匹配情况，并建议修改，以减少误报和漏报。

我们把它应用在文档创建技能上，发现 6 项公开技能中有 5 项的触发率有所提高。

未来

随着模型能力提升，“技能”和“规范”的边界可能会变得模糊。今天，一个 SKILL.md 文件本质上仍是实现方案，提供详细步骤来告诉 Claude 如何做某件事。随着时间推移，只用自然语言描述技能 要做什么 也许就足够了，至于怎么做，则由模型自行完成。

我们今天发布的 evals 框架，是朝这个方向迈出的一步。evals 已经在描述“做什么”。最终，这种描述本身也许就会成为技能本体。

入门

所有 skill-creator 更新现已在 Claude.ai 和 Cowork 可用。只需让 Claude 使用 skill-creator，即可开始。

Claude Code 用户可以安装插件或从我们的仓库下载。

扫码_搜索联合传播样式-白色版.png

Claude 补上了 Skill 开发最难的一块

改进 skill-creator：测试、衡量并优化 Agent Skills

两种技能

使用 evals 进行测试并改进 skills

借助多 Agent 支持，实现更快、更稳定的 evals

让技能在正确时机触发

未来

入门

使用 `evals` 进行测试并改进 skills

借助多 Agent 支持，实现更快、更稳定的 `evals`