90%的人不会用 OpenClaw:3 个 超高下载量 Skill 让“龙虾”真正干活

167 阅读11分钟

很多人用 OpenClaw 只停留在基础对话层面:

  1. 让它查资料,只会复述网页标题
  2. 让它记需求,下次见面又从零开始
  3. 让它操作网页,它说"这个我做不到"

⚠️ 核心问题:不会用 Skills,效率没有提升

一、Skills 到底是什么?

在开始深入探索之前,我们需要先统一认知:Skills 不仅仅是一个功能,它是 AI 从“聊天机器人”进化为“智能体(Agent)”的关键桥梁。 本章将从起源、核心机制、概念辨析以及实战推荐四个维度,带你彻底读懂 Skills。

1. 起源:从“对话”到“执行”的进化

Skills 的概念最早由 Anthropic 公司 提出,作为其大模型 Claude 能力扩展的核心机制。

  • 背景痛点:传统的 AI 对话中,用户需要反复输入指令,且 AI 执行流程不稳定,常常“懂道理但不会做事”。
  • 设计初衷:解决上述痛点,让 AI 从被动的“问答者”转变为主动的“执行者”。
  • 演进意义:它的出现标志着 AI 应用开发从 Prompt Engineering(提示词工程)Skill Engineering(技能工程) 的范式转移。通过封装标准化的技能包,让 AI 在特定领域从“通才”变成“专家”。

2. 核心功能:解构 Skills 的工作原理

📦 什么是 Skills?

简单来说,Skills 是一个打包好的“能力插件”。它通常以文件夹形式存在,包含三个核心要素,让 AI 知道何时以及如何调用能力:

组件文件示例作用
元数据skill.yaml技能的“名片”,包含名称、描述、触发关键词
说明书SKILL.md用自然语言描述使用场景、操作步骤、注意事项
执行体script.py / ref.pdfAgent 可执行的具体代码、参考文档或上下文文件

💡 一句话理解:如果把 Agent 比作大脑,Skills 就是一套套可复用的“武功秘籍”,让大脑在特定场景下能调用具体的招式。

⚙️ 工作原理:渐进式加载机制

为避免无效 Token 消耗,Skills 采用三层分级加载,按需分配注意力:

级别加载时机核心内容Token 消耗
L1 元数据始终加载技能名片(名称 + 描述),用于意图匹配极低 (~100)
L2 说明书触发时加载SKILL.md 操作指南,指导执行逻辑中等 (<5k)
L3 执行体按需加载脚本/资源文件,真正执行任务几乎为 0*

🔄 调用流程

一个典型的 Skills 调用过程如下:

  1. 意图匹配:Agent 分析用户需求,匹配最相关的 Skill 元数据。
  2. 读取手册:加载对应 SKILL.md,理解执行步骤。
  3. 按需执行:调用脚本/工具完成具体操作(如运行 Python 脚本、读取文件)。
  4. 反馈结果:返回最终输出或请求人工介入。

3. 与其他概念的对比

在 Agent 生态中,Skills 常与 MCP、Custom Instructions 等概念混淆。它们的核心区别如下:

概念核心特点适用场景一句话区分
Skills模型自动匹配 + 流程化封装 + 渐进加载标准化任务、可复用工作流解决“数据怎么用”
MCP (模型上下文协议)连接外部数据源/工具的基础协议让 AI 访问实时数据、数据库或 API解决“数据怎么来”
Custom Instructions全局/项目级静态偏好设置通用沟通风格、项目背景上下文解决“我是谁/偏好是什么”
Workflow (工作流)固定节点顺序、高确定性金融/医疗等强合规、固定流程场景解决“步骤必须固定”

总结:MCP 是管道,Skills 是管道里的处理工厂,而 Workflow 是固定的流水线。Skills 更适合需要 AI 自主判断的灵活场景。


4. 🔥 3 个必装高下载量 Skill

社区生态是 Skills 最迷人的地方。你不需要从零开始编写指令,直接复用高手们验证过的技能包,就能瞬间提升 AI 的生产力。

以下是目前社区下载量最高、口碑最好的 3 个 Skills,建议优先安装:

1️⃣ self-improving-agent

  • 核心作用让 AI 记住错误,持续改进。
  • 推荐理由:它赋予 AI“记忆能力”。当你纠正它的错误后,它会将经验写入技能包,下次不再犯同样的错。这是让 AI 越用越顺手的关键,解决了大模型“金鱼记忆”的痛点。

2️⃣ Summarize

  • 核心作用一键总结网页 / PDF / 视频 / 音频。
  • 推荐理由:信息过载时代的“减负神器”。它不只是总结文本,还能处理多模态内容。无论是长篇报告还是会议录音,都能快速提取核心要点。

3️⃣ Agent Browser

  • 核心作用让 AI 真正操作浏览器。
  • 推荐理由:赋予 AI“眼睛”和“手”。它能真正打开浏览器、搜索信息、点击按钮、抓取数据。这是实现真正自动化操作(如自动填表、数据抓取)的基础设施。

💡 博主建议:不要贪多。刚开始只需安装这 3 个核心技能,覆盖记忆、输入、操作三大维度,足以解决 80% 的日常自动化需求。


二、核心部分:3 个 Skill 详解

1. self-improving-agent

简介

这是一个自我改进系统,帮助 AI 助手记录错误、学习经验和用户反馈,实现持续改进。就像一个"错题本" + "成长日记"。

核心功能
  • 记录错误:命令失败、API 错误、工具异常
  • 记录更正:用户纠正时的正确做法
  • 记录需求:用户想要但还没有的功能
  • 知识沉淀:将经验提升为长期记忆
三个日志文件
文件名用途
LEARNINGS.md学习记录(更正、知识缺口、最佳实践)
ERRORS.md错误记录(命令失败、异常)
FEATURE_REQUESTS.md功能需求
如何安装?

非常简单,直接给把skill的链接发给OpenClaw让他安装即可,例如这样(所有skills安装都适用~):

帮我安装这个skill: clawhub.ai/pskoett/sel… 在这里插入图片描述

如何使用?

1. 自动记录(推荐)

当以下情况发生时,系统会自动记录:

触发场景记录位置
命令执行失败ERRORS.md
你说"不对"、"错了"、"其实"LEARNINGS.md (correction)
你发现知识过时LEARNINGS.md (knowledge_gap)
发现更好的做法LEARNINGS.md (best_practice)
想要某个功能FEATURE_REQUESTS.md

2. 手动记录

你也可以直接要求记录:

"记录一下:以后处理 JSON 要先检查编码"

3. 查看记录

cat ~/.openclaw/workspace/.learnings/LEARNINGS.md
提升为长期记忆

当某个学习变得广泛适用时,可提升到 workspace 文件:

学习内容类型提升目标文件
行为/沟通风格SOUL.md
工作流程AGENTS.md
工具使用技巧TOOLS.md
启用 Hook

Hook 是一个自动提醒系统,在每次会话开始时触发。

启用方式:

cp -r ~/.openclaw/workspace/skills/self-improving-agent/hooks/openclaw ~/.openclaw/hooks/self-improvement
openclaw hooks enable self-improvement

启用后会发生什么:

  • ✅ 自动检查:每次会话开始时提醒检查 .learnings/
  • ✅ 上下文感知:根据当前任务查找相关历史记录
  • ✅ 避免重复错误:之前犯过的错,下次会提前知道
  • ✅ 持续进化:经验积累,表现越来越好

简单说:不启用 Hook = 每次见面都从零开始;启用 Hook = 每次见面都记得之前的教训。

实际例子
场景用户输入系统行为
你纠正我"不对,应该用 git rebase 而不是 git merge"记录到 LEARNINGS.md,下次遇到类似情况就知道用 rebase
命令失败运行 docker ps,但 Docker 没启动记录到 ERRORS.md,下次先检查 Docker 状态
功能需求"希望以后能自动备份配置文件"记录到 FEATURE_REQUESTS.md,后续可以考虑实现

2. Summarize

简介

summarize 是一个快速 CLI 工具,用于总结各种内容:

  • 🌐 网页 — 任意 URL
  • 📄 PDF 文件 — 本地文档
  • 🖼️ 图片 — 带文字的图片
  • 🎧 音频 — 播客、录音
  • 📺 Bilibili — 视频内容
如何安装?

直接给把skill的链接发给OpenClaw让他安装即可:

帮我安装这个skill: clawhub.ai/steipete/su… 在这里插入图片描述

基本用法
# 总结网页
summarize "https://example.com"

# 总结 PDF
summarize "/path/to/file.pdf"

# 总结视频
summarize "https://youtu.be/dQw4w9WgXcQ"

# 指定模型
summarize "https://example.com" --model openai/gpt-5.2
支持的模型
提供商环境变量模型示例
OpenAIOPENAI_API_KEYopenai/gpt-5.2
AnthropicANTHROPIC_API_KEYanthropic/claude-sonnet-4-20250514
xAIXAI_API_KEYxai/grok-3-beta
GoogleGEMINI_API_KEYgoogle/gemini-3-flash-preview

默认模型:google/gemini-3-flash-preview

实用参数
参数说明
--length short简短总结 (其他: medium, long, xl, xxl)
--max-output-tokens 1000限制输出长度
--extract-only仅提取内容,不总结 (URL 专用)
--jsonJSON 格式输出 (机器可读)
--firecrawl auto使用 Firecrawl 处理被屏蔽的网站
可选配置

配置文件~/.summarize/config.json

{
  "model": "openai/gpt-5.2"
}

可选服务

  • FIRECRAWL_API_KEY — 处理被屏蔽的网站
  • APIFY_API_TOKEN — 备用方案
实际应用场景
场景命令示例
快速了解新闻文章summarize "https://news.example.com/article"
总结技术文档summarize "/path/to/api-docs.pdf"
提取会议录音要点summarize "meeting.mp3"
看懂 B站 教程`summarize "https://bilibili/xxx"
批量处理多个链接summarize url1 url2 url3 --json

3. Agent Browser

这是什么?

Agent Browser 是一个快速的无头浏览器自动化 CLI 工具,基于 Rust 开发(带 Node.js 回退),让 AI 助手能够通过结构化命令控制浏览器:

  • 🧭 导航网页 — 打开、后退、前进、刷新
  • 🖱️ 模拟交互 — 点击、输入、滚动、拖拽
  • 📸 截图录屏 — 页面快照、PDF、视频录制
  • 📥 提取数据 — 文本、HTML、属性值
如何安装?

直接给把skill的链接发给OpenClaw让他安装即可:

帮我安装这个skill: clawhub.ai/TheSethRose… 在这里插入图片描述

核心工作流程
# 1. 打开页面
agent-browser open https://example.com    

# 2. 获取交互元素(带引用标记 @e1, @e2...)
agent-browser snapshot -i

# 3. 使用引用进行交互
agent-browser click @e1
agent-browser fill @e2 "输入内容"

# 4. 关闭浏览器
agent-browser close
主要命令整理

🧭 导航类

命令说明示例
open打开网页agent-browser open https://example.com
back / forward后退/前进agent-browser back
reload刷新页面agent-browser reload
close关闭浏览器agent-browser close

📋 快照类(页面分析)

命令说明示例
snapshot完整可访问性树agent-browser snapshot
snapshot -i仅交互元素(推荐)agent-browser snapshot -i
snapshot -c紧凑输出agent-browser snapshot -c
snapshot -d <N>限制深度为 N 层agent-browser snapshot -d 3
snapshot -s <selector>限定 CSS 选择器范围agent-browser snapshot -s "#main"

🖱️ 交互类(使用 @refs)

命令说明示例
click点击元素agent-browser click @e1
fill清空并输入agent-browser fill @e2 "输入内容"
type直接输入(不清空)agent-browser type @e2 "追加内容"
press按键agent-browser press Enter
hover悬停agent-browser hover @e1
check / uncheck勾选/取消复选框agent-browser check @e1
select下拉选择agent-browser select @e1 "value"
scroll滚动页面agent-browser scroll down 500
upload上传文件agent-browser upload @e1 file.pdf
drag拖拽agent-browser drag @e1 @e2

🔍 获取信息类

命令说明示例
get text获取元素文本agent-browser get text @e1
get html获取 innerHTMLagent-browser get html @e1
get value获取输入值agent-browser get value @e1
get attr获取属性agent-browser get attr @e1 href
get title / get url获取标题/URLagent-browser get title

📸 截图 & PDF 类

命令说明示例
screenshot截图到 stdoutagent-browser screenshot
screenshot <path>保存截图agent-browser screenshot path.png
screenshot --full整页截图agent-browser screenshot --full
pdf保存为 PDFagent-browser pdf output.pdf

🎬 视频录制类

命令说明示例
record start开始录制agent-browser record start ./demo.webm
record stop停止并保存agent-browser record stop

⏱️ 等待类

命令说明示例
wait @<ref>等待元素出现agent-browser wait @e1
wait <ms>等待毫秒agent-browser wait 2000
wait --text等待文本出现agent-browser wait --text "Success"
wait --load等待网络状态agent-browser wait --load networkidle
高级功能

1. 语义定位器(无需 @refs)

agent-browser find role button click --name "Submit"
agent-browser find text "Sign In" click
agent-browser find label "Email" fill "user@test.com"

2. 状态管理(保存登录态)

# 登录一次,保存状态
agent-browser state save auth.json

# 后续会话直接加载
agent-browser state load auth.json

3. 多会话并行

agent-browser --session test1 open site-a.com
agent-browser --session test2 open site-b.com

4. 网络拦截

agent-browser network route <url> --abort      # 拦截请求
agent-browser network route <url> --body '{}'  # Mock 响应

5. JavaScript 执行

agent-browser eval "document.title"
实际应用场景
场景用途
自动化登录填充表单、点击登录、保存会话状态
数据抓取导航到页面、提取结构化数据
表单提交自动填写调查问卷、申请表
UI 测试验证页面元素、截图对比
网站监控定期检查页面状态、内容变化
演示录制录制操作视频用于文档
与现有浏览器工具对比
功能Agent BrowserPlaywrightPuppeteer
CLI 优先设计
AI 友好的结构化输出部分部分
引用系统 (@refs)
Rust 核心性能
视频录制部分
状态保存/加载

结语

工具的价值,不在于"装了多少",而在于"用出组合拳"。

这 3 个 Skill 分别解决:

  1. 记忆进化:避免重复踩坑
  2. 信息提纯:降低认知负荷
  3. 动手执行:突破对话边界

装好 OpenClaw 只是起点,配上这些 Skill,才能真正让 AI 成为你的效率外脑。

💡 小建议:优先启用 self-improving-agent 的 Hook 功能,这是让其他两个 Skill 越用越顺的隐形加速器。