Claude 补上了 Skill 开发最难的一块

0 阅读6分钟

原文地址

Anthropic 刚刚悄悄解决了 skill 开发最大的一个问题。
过去开发 skill 基本是这样的:写 prompt → 试一下 → 不行再改 → 靠感觉上线。但 Claude 现在给 skill-creator 加了 3 个关键能力:

  1. 技能测试:可以定义测试问题和成功标准,自动验证一个 skill 是否真的有效。
  2. 多 Agent 基准测试:可以并行运行多个 agent,甚至对两个 skill 版本做 A/B 测试。
  3. 触发优化:Claude 会分析你的 skill 描述,自动修复。

下面是原文翻译:

改进 skill-creator:测试、衡量并优化 Agent Skills

skill-creator 现在可以帮助你编写 eval、运行基准测试,并确保您的技能能够随着模型的演进而持续发挥作用。这些更新现已在 Claude.ai 和 Cowork 上线,也可通过 Claude Code 插件 使用,并包含在 我们的代码仓库中

自从去年 10 月我们发布 Agent Skills 以来,我们注意到大多数作者都是领域专家,而非工程师。他们了解自己的工作流程,但缺少工具来判断:一个技能在新模型下是否仍然有效、是否会在该触发时触发,或者编辑后是否真的有所改进。

今天我们宣布对 skill-creator 的增强,帮助作者更有信心地构建技能。我们将软件开发中的一些严谨方法(测试、基准测试、迭代改进)引入技能创作,同时不需要任何人写代码。

两种技能

技能通常分为两类:

**能力增强(capability uplift)**技能帮助 Claude 完成基础模型无法完成或无法稳定完成的任务。我们的文档创建技能就是很好的例子。它们编码了仅靠提示词难以稳定复现的技术和模式,从而产出更好的结果。

**流程偏好编码(encoded preference)**技能记录了这样一类工作流:Claude 本身已经能完成每个步骤,但技能会按照你的流程将这些步骤组织起来。比如:一项技能可以根据既定标准完成保密协议审查,或者一项技能可以根据来自各种 MCP 的数据起草每周更新报告。

这个区分很重要,因为这两类技能需要测试的原因可能不同:

  • 能力增强技能可能会随着模型能力提升而变得没那么必要。evals 能告诉你何时发生了这种变化。
  • 流程偏好编码技能更持久,但它的价值取决于它们与您实际工作流程的契合度。evals 可以验证这种契合度。

无论哪一类,测试都能把看起来可用的技能,变成你确定可用的技能。

使用 evals 进行测试并改进 skills

skill-creator 现在可以帮助你编写 evals,也就是用于检查 Claude 在给定提示下是否达到预期的测试。如果你写过软件测试,你会感到很熟悉:定义一些测试提示(必要时附带文件)、描述“好的结果”,skill-creator 就会告诉你这个技能是否符合预期。

例如,我们的 PDF 技能此前在处理不可填写表单时表现不佳。Claude 需要在没有字段可供定位的情况下,将文本放置到精确坐标。evals 找到了问题所在,随后我们发布了修复方案:将定位锚定到提取出的文本坐标。

evals 的用途很多,其中两个重要用途是发现质量下降问题与了解模型进展。

首先,要及时发现质量下降问题。随着模型以及其相关基础设施不断发展,上个月运行良好的技能今天可能表现不佳。针对新模型进行评估,可以让你及早发现变化,避免影响团队的工作。

其次,要知道通用模型能力是否已经超越你的技能,这主要适用于能力增强技能。如果基础模型在不加载该技能的情况下也能通过你的 evals,这说明技能中的技巧可能已被模型默认能力吸收。该技能本身并没有失效,只是不再必要了。

我们还新增了基准测试模式,可基于你的 evals 结果进行标准化评估。您可以在模型更新后或技能迭代过程中运行此模式。它会跟踪 evals 通过率、耗时与 token 使用量。

你的 evals 与结果将永久保存。您可以将其存储在本地、集成到仪表板中,或接入 CI 系统。

借助多 Agent 支持,实现更快、更稳定的 evals

顺序运行 evals 往往很慢,而且上下文会在多次测试之间相互污染。skill-creator 现在支持多 Agent 并行评估:每个 evals 都在独立、干净的上下文中运行,并分别记录 token 与耗时指标。结果更快,也避免交叉污染。

我们还增加了用于 A/B 对比的比较 Agent:可以比较两个技能版本,或比较“有技能”与“无技能”两种情况。它们在不知道哪个是哪个的情况下判断输出结果,因此用户可以判断更改是否真的有效。

让技能在正确时机触发

evals 衡量的是输出质量,但这只有在你的技能能够按预期触发时才有意义。随着技能数量的增加,描述的精确度变得至关重要:描述过于宽泛会导致误触发,描述过于狭窄则可能根本无法触发。skill-creator 现在可以帮助你优化描述以获得更可靠的触发效果:它会分析你当前描述与示例提示之间的匹配情况,并建议修改,以减少误报和漏报。

我们把它应用在文档创建技能上,发现 6 项公开技能中有 5 项的触发率有所提高。

未来

随着模型能力提升,“技能”和“规范”的边界可能会变得模糊。今天,一个 SKILL.md 文件本质上仍是实现方案,提供详细步骤来告诉 Claude 如何 做某件事。随着时间推移,只用自然语言描述技能 要做什么 也许就足够了,至于怎么做,则由模型自行完成。

我们今天发布的 evals 框架,是朝这个方向迈出的一步。evals 已经在描述“做什么”。最终,这种描述本身也许就会成为技能本体。

入门

所有 skill-creator 更新现已在 Claude.ai 和 Cowork 可用。只需让 Claude 使用 skill-creator,即可开始。

Claude Code 用户可以安装 插件 或从我们的 仓库 下载。

扫码_搜索联合传播样式-白色版.png