告别Skill'盲盒'!Skill-insight三招让Agent精准可迭代

17 阅读14分钟

告别Skill'盲盒'!Skill-insight三招让Agent精准可迭代

核心观点:在智能运维场景中,Skill作为Agent执行运维任务的核心载体,其标准化、可观测、可优化的程度,直接决定Agent从“能运维”到“善运维”的跨越;Skill-insight的核心价值的是:让智能运维Agent的Skill从“模糊不可控”走向“精准可迭代”,实现运维效率、稳定性与成本的三重最优。

一、背景:智能运维时代,高质量Skill是Agent成功落地的关键

在AI时代,Agent已成为企业解决各类运维自动化任务、提升效率的重要方式,而Skill更是辅助Agent完成运维任务的核心标准化能力。从服务器故障诊断、容器卡顿排查,到系统配置优化,Agent的每一次精准高效响应,本质上都有其背后高质量Skill的作用。

然而在实际落地中,Skill的应用却面临着一些核心问题,这些问题源于运维场景的复杂性和高要求,而当前Skill相关的生成、评测与优化工程等能力还不足以与之匹配,使得Skill的使用就像开“盲盒”,影响Agent落地的效果、效率和成本:

问题1:运维文档繁多,生成Skill数量冗余,导致召回率下降、token消耗高

智能运维场景中,同一类运维问题(如Docker应用卡顿)往往存在多种处理方案,以案例文档、操作手册等多种方式的文档承载。这些文档虽然细节不同,但核心解决路径非常相似。然而,现有生成方式(例如直接通过大模型或skill-creator生成),往往无法精准去除冗余和相似部分,从而形成大量语义高度相似的Skill。

这在智能运维场景中会带来两个核心问题:

  1. Token成本飙升:大量相似Skill被加载,即使默认使用渐进式披露原则加载,由于数量庞大,token成本仍然显著增加
  2. 召回能力下降:有研究表明[1],当Agent所使用的Skill数量超过40-50个后,召回率从95%急剧下降至30%以下。

问题2:评测维度单一,缺乏对评测结果的可追溯能力

智能运维场景对Agent的核心要求是“精准、可靠、可追溯”,但当前Skill评测大多停留在“任务是否完成”的结果导向层面,远远无法满足运维场景的严苛需求。

首先,企业智能运维关注的不仅是“解决问题”,更关注“高效、低成本地解决问题”——即运维ROI(投资回报率)。一个Skill即使能完成故障修复,但如果Token消耗过高、执行时延过长,会增加运维成本,其实际运维价值会大幅降低,而当前缺乏针对运维场景的ROI评测指标,无法量化Skill的实际运维价值。

其次,运维任务多涉及系统配置修改、故障排查等关键操作,执行过程的准确性直接影响系统稳定性。例如,在内核参数修改、配置文件调整等运维场景中,Skill的执行往往包含多个分支判断、前置检查步骤,即使最终故障得以解决,但如果Agent未按Skill预定义的安全流程执行(如跳过备份步骤直接修改配置),也可能埋下系统崩溃、数据丢失的隐患。而当前的评测方式无法追溯执行过程,无法判断执行路径是否合规、哪一步出现偏差,更无法解释“结果正确但过程偏差”的潜在风险。

换句话说:智能运维场景需要的是“面向运维执行过程的多维评测与可追溯体系”,而非单纯的“结果级判断”,这是保障运维可靠性的核心前提。

问题3:优化缺乏运维执行过程数据,Skill能力难以持续提升

智能运维的核心目标是“持续优化、降低人工干预”,但当前Skill优化工具主要依赖“任务结果是否正确”这一单一信号,缺乏对运维执行过程数据的采集与利用,导致Skill优化陷入“浅层调整、无法突破”的困境。

关键问题在于,Skill优化所需的关键信息不仅需要结果类数据,更需要执行过程数据,但这类过程数据往往未被记录和结构化,导致优化缺乏精准支撑。例如,某Skill执行耗时超长,却无分步骤时延数据,无法定位瓶颈;某Skill存在安全流程漏洞(如未要求备份配置),因缺乏过程记录,其行为无法被发现且难以纳入优化闭环。

这种“过程数据缺失”,导致Skill优化只能停留在“修改文本描述、调整结果判断”的浅层,无法基于运维实际执行数据进行深度优化,难以适配不断变化的运维场景(如新型内核缺陷、新的容器故障类型),最终导致Agent的运维能力无法持续提升,无法满足智能运维长期演进诉求。

针对以上三大核心痛点,openEuler社区Intelligence SIG组推出了开源项目Skill-insight——一个面向Skill全生命周期管理的开源工具,提供Skill标准化生成、多维评测、数据驱动优化等能力,可满足各类Agent场景需求,同时在智能运维场景重点落地,让Agent开发者能够高效打造高质量Skill,让Agent从“能执行”走向“善执行”。

二、Skill-insight:让Agent Skill可管、可溯、可优,赋能Agent高效执行

Skill-insight并非简单的Skill生成工具,而是覆盖Skill“生成-评测-优化”全生命周期的通用能力体系,其核心价值在于打通Skill生成、多维评测与优化的闭环,让Agent的执行能力更精准、更可靠、更经济。 Skill-insight提供三大通用核心能力:

1. 基于语义聚合的模式抽取:有效去除冗余Skill,提升召回率

针对运维文档繁多,生成Skill数量冗余,导致召回率下降、token消耗高的问题,Skill-insight的核心思路是:去冗余、合相似、抽模式。

  • 去冗余:从企业沉淀的碎片化案例文档、操作手册中,剔除无关上下文、重复操作描述与噪声信息,保留问题的核心特征、前置检查与标准处理步骤;
  • 合相似:基于文本聚类相似度算法结合大模型语义理解能力,聚焦同类问题(如容器卡顿、内核缺陷等),将相似的Skill进行合并,提炼共性逻辑;
  • 抽模式:在合并基础上,结合各类场景的安全规范、操作标准,提炼通用问题模式与标准化执行路径,生成符合多场景需求的可复用、标准化Skill。

通过以上方法,将每一类共性问题的领域经验、操作规范,提炼为一个标准化、可复用的Skill,使得能够保证在不丢失关键信息的前提下,有效去除冗余Skill,提升召回率的同时并有效降低Token消耗成本。

2. 多维评测与过程级可追溯:保障执行可靠、风险可控

针对评测维度单一、缺乏对评测结果可追溯能力的问题,Skill-insight的核心思路是:构建多维评测体系 + 引入标准数据集 + 提供过程级可追溯能力,让Skill的执行效果可量化、执行过程可监测。

  • 多维评测体系:构建涵盖准确率、执行时延、Token成本、ROI等多维度的评测体系,其中ROI指标重点量化“执行成本与任务收益”的平衡,贴合各类企业场景的核心诉求,全面刻画Skill的实际价值;
  • 内置标准评测数据集:集成SkillsBench等行业标准Skill评测数据集,并支持用户扩展自定义数据集(如企业内部的各类故障、任务案例集),构建统一的Skill评测基准,确保评测结果客观、可用;
  • 过程级可追溯:在Agent执行各类任务过程中,实时生成动态执行流程图,与Skill预定义的执行流程进行精准对比,清晰标识未按预期执行的步骤、违规操作与流程偏差,让执行过程“看得见、可追溯”,同时支持在执行记录中逐步回溯,辅助开发者分析流程偏移的根本原因,为后续优化提供精准方向。

通过以上方法,将评测从结果层提升到“结果+过程”的多维度评测,既保证了执行结果的准确性,又能帮助及时发现“过程偏差”带来的各类风险,让各类Agent的执行更可靠、更可控。

3. 全链路数据驱动优化:使Skill可持续自进化

针对Skill优化缺乏过程数据支撑、能力难以提升的问题,Skill-insight的核心思路是:收集执行全链路数据,形成“数据采集-分析-反馈-优化”的自动化闭环,让Skill能够基于实际执行场景持续迭代。

  • 全链路数据追踪:全面记录Agent执行各类任务的每一步操作、模型推理、工具调用与参数修改,重点捕捉执行瓶颈(如Token消耗过高、耗时最长的执行步骤)、违规操作与流程偏差,形成结构化的执行过程数据集;
  • 数据驱动的自优化闭环:将结构化的执行过程数据,自动反馈至Skill优化环节,结合各类场景的安全规范、效率需求,辅助开发者定位Skill的流程缺陷、成本漏洞与安全隐患,实现针对性优化;

通过上述方法,让Skill能够基于实际执行数据进行深度优化——例如补充缺失的安全步骤、优化冗余的执行流程、调整参数设置以降低成本,让Skill能够持续适配新型场景,驱动各类Agent执行能力不断提升,真正实现Agent的“自进化”。

三、案例:使用Skill-insight进行应用卡顿故障诊断场景Skill优化

场景背景: 某企业在生产环境中频繁出现 Docker 应用卡顿问题,历史上沉淀了大量故障排除方法文档,但人工处理问题效率低,希望将这些文档固化为Skill。

步骤1:Skill生成

使用Skill-insight基于数十个相似案例生成Skill,对其中的技能描述、使用场景、核心指令与工作流程做了去冗余和模式抽取,统一沉淀为1个“docker应用卡顿问题诊断Skill”,如下(部分内容从略):

---
name: openEuler-docker-hang
description: 
  此技能用于诊断和修复在EulerOS 2.9操作系统上,由于特定内核版本存在调度缺陷,导致虚拟机(或容器节点)概率性卡住的故障。核心修复方案是通过修改kernel.printk内核参数,调整内核日志输出级别,以规避触发死锁的代码路径。适用于用户报告EulerOS 2.9节点上的虚拟机或Pod无响应、卡住,且故障现象表现为系统进程调度异常,可能与CPU cgroup带宽设置相关的场景。……

---

# EulerOS 2.9内核缺陷导致虚拟机卡住

## 概述 (Overview)
此技能用于处理在EulerOS 2.9操作系统上,由于特定内核版本存在调度缺陷,导致虚拟机(或容器节点)概率性卡住的故障。核心修复方案是通过修改 `kernel.printk` 内核参数,调整内核日志输出级别,以规避触发死锁的代码路径。

## 何时使用此技能 (When to Use)
- 用户报告EulerOS 2.9节点上的虚拟机或Pod无响应、卡住。
- 故障现象表现为系统进程调度异常,可能与CPU cgroup带宽设置相关。
- 需要根据特定内核版本(x86_64或aarch64)应用不同的修复参数。

## 核心指令 (Core Instructions)
> 本技能遵循**条件分支工作流**。首先必须确认内核版本,然后根据架构分支执行不同的修复命令。修复操作涉及系统配置更改,需由用户自行执行或在授权下操作。

### 步骤 1:确认内核版本与架构
**目标**:验证当前节点是否属于受影响的确切版本范围。
……(略)

### 步骤 2:检查并修复 kernel.printk 配置
**目标**:查看并移除 `/etc/sysctl.conf` 中已有的 `kernel.printk` 设置。
> 此步骤为两个分支的公共前置步骤。
……(略)

### 步骤 3:应用修复配置(条件分支)
**目标**:根据系统架构,动态设置正确的 `kernel.printk` 参数值。
……(略)

步骤2:Skill评测

随后将生成的skill安装到Agent(已支持OpenClaw/OpenCode/ClaudeCode等主流Agent)上,并开始执行故障排除任务,过程中Skill-insight将自动采集与追踪各种数据,可展示准确率、时延、Token、价格成本等核心指标,如下图:

主页

同时可生成动态执行流程图,并与Skill中定义的流程进行对比,清晰标识未按预期执行的步骤,对于本例中Skill定义的10个步骤中,实际执行时被跳过1个步骤、非预期调用3个步骤,并有1个步骤发生部分偏离。

信息图

同时,可对评测结果中发现的缺陷自动分析原因,例如,在本案例中分析到主要不足在于“Skill中缺少备份与回滚操作”导致。

信息图

步骤3:数据驱动的Skill优化

基于上一步中捕捉到的过程数据与缺陷原因,Skill-insight能够自动进行优化,从优化前后对比结果中可以看到,在Skill.md中自动加入了“备份与回滚”操作的内容。 优化前的Skill.md:

### 步骤 2:检查并修复 kernel.printk 配置

**目标**:修改 `kernel.printk` 内核参数,以规避已知的内核死锁路径。

1.  **执行检查**:查看当前 `/etc/sysctl.conf` 文件中的 `kernel.printk` 配置。
    ```bash
    grep \"kernel.printk\" /etc/sysctl.conf
    ```

优化后的Skill.md:

## 步骤 2:检查并修复 kernel.printk 配置

**目标**:修改 `kernel.printk` 内核参数,以规避已知的内核死锁路径。

1.  **执行检查与备份**:查看当前 `/etc/sysctl.conf` 文件中的 `kernel.printk` 配置,并备份原始值。
    ```bash
    # 检查当前配置
    grep "kernel.printk" /etc/sysctl.conf
    # 备份当前运行时参数(用于可能的回滚)
    CURRENT_PRINTK=$(sysctl -n kernel.printk)
    echo "当前 kernel.printk 运行时参数为: $CURRENT_PRINTK"
    echo "如需回滚,可执行: sysctl -w kernel.printk=\"$CURRENT_PRINTK\""
    ```

同时,对于优化后的Skill执行同一任务,由于增加了备份与回滚操作,可在指标趋势图中清晰看到效果类核心指标的提升,本例中准确率得分从0.7提升到0.8(满分为1)。

信息图

结语:告别Skill“盲盒”,让Agent精准可迭代

智能运维的未来,不在于Agent能处理多少种故障,而在于能否以标准化、可追溯、可优化的方式来开发和运行Skill,从而稳定、高效、低成本地解决故障,从Agent精准可迭代,从“能执行”走向“善执行”——这正是Skill-insight的核心思路:

  • 以语义聚合去除Skill冗余,解决召回率与成本难题;
  • 以多维评测与过程追溯,保障Agent执行可靠、风险可控;
  • 以全链路数据驱动优化,让Skill实现持续自进化;

如果你正在构建各类Agent、优化Skill,探索AI在各行业中的落地: 欢迎加入 openEuler 社区,一起让Agent真正落地,降低执行成本、提升执行可靠性。

👉 项目地址:atomgit.com/openeuler/w…

参考资料:

[1] When Single-Agent with Skills Replace Multi-Agent Systems and When They Fail (arxiv.org/abs/2601.04…)