作者:来自 Elastic Bahubali Shetti
了解 Elastic Observability 的 Agent Skills 如何帮助 SRE 和开发者通过自然语言运行可观测性工作流 —— 使用 OpenTelemetry 监控应用、搜索日志、管理 SLO、了解服务健康状况,并辅助 LLM 可观测性。
Elastic Observability 提供了广泛的功能,包括配置 OpenTelemetry 监控、编写 ES|QL 查询以搜索日志和指标、使用正确的指标类型和公式语法定义 SLO、处理噪声告警风暴,以及从多个信号整合服务健康状况。SRE 现在希望通过 AI Agents 进一步自动化。
Elastic 的 Agent Skills 是开源包,为你的 AI 编码 agent 提供原生 Elastic 专业知识。如果你已经使用 Elastic Agent Builder,你将获得能够与 Observability 数据原生协作的 AI agent。Elastic Agent Skills 直接将原生平台专业知识交付给你的 AI 编码 agent,这样你可以停止调试 AI 生成的错误,开始交付可直接生产使用的代码,并充分利用 Elastic 的深度能力。
Skills 可用于 Elastic Stack 的各类专门任务 —— Elasticsearch、Kibana、Elastic Security、Elastic Observability 等。每个 skill 都存在于自己的文件夹中,包含 SKILL.md 文件,其中有 agent 遵循的元数据和指令。
Observability 目前发布了五个技能,涵盖 SRE 和开发者每天执行的核心工作流。运行 Elastic Observability 涉及广泛的任务:配置 OpenTelemetry 监控、编写 ES|QL 查询以搜索日志和指标、使用正确的指标类型和公式语法定义 SLO,以及从多个信号整合服务健康状况。每项任务都需要领域专业知识和对特定 API、索引模式以及 Kibana 工作流的熟悉。对于管理跨多个环境的几十个服务的团队来说,这些任务重复、容易出错且耗时。
本文将介绍当前的 Observability 技能集,展示端到端工作流,并强调这些技能在日常操作中的用途。
为什么这对可观测性团队很重要
现代可观测性工作通常是临时和跨领域的。在一小时内,你可能需要为新服务添加监控、检查某事件的日志、查看错误预算状态,并验证多个信号的服务健康状况。
每一步通常需要不同的 API、索引模式和 Kibana 工作流。Agent Skills 将这些任务知识打包为可重用单元,使 agent 能够一致地执行这些步骤。
可观测性技能
当前的可观测性技能集专注于五个相关的工作流:
-
监控应用
为 Python、Java 或 .NET 服务添加 Elastic 版本的 OpenTelemetry(跟踪、指标、日志),或帮助从经典 Elastic APM agent 迁移到 EDOT,并配置正确的 OTLP 端点和设置。 -
搜索日志
提供对 Elastic Streams 的可见性 —— 这是处理可观测性数据的数据路由和处理层。 -
管理 SLO
通过 Kibana API 创建和管理 Elastic Observability 中的服务级目标(SLO),覆盖从数据探索到定义、创建和生命周期管理的全过程。 -
评估服务健康
将 APM、基础设施指标、日志、SLO 和告警的信号整合,提供统一的服务健康视图。 -
观察 LLM 应用
监控和排查 LLM 驱动的应用——跟踪令牌使用情况、延迟、错误率以及推理调用中的模型性能。
什么是 Agent Skills
Agent Skills 是自包含的文件夹,包含指令、脚本和资源,AI agent 可为特定任务动态加载。Elastic 在 elastic/agent-skills 中发布官方技能,基于 Agent Skills 标准。
实际使用上,这意味着:
-
你描述目标。
-
agent 选择相关 skill 或你指定 skill。
-
skill 应用已知的一致步骤和 API 模式,以及 Elastic 推荐的做法。
实际示例:从事件问题到根因
作为 SRE,你收到通知,某个客户出现错误。支持团队尝试排查,但需要帮助,并提供了一个事务 ID 以供调查。
你已将 Elastic 的 Agent Skills 加载到 Claude。你向 Claude 提问:
Find out why transaction with id 01ba6cf8e60253bdeb26026caa3278a1 is having issues over the last 24 hours.
Claude 添加 Elastic O11y Skills 后,分析该事务的问题:
-
使用 log-search skill 缩小可能原因范围
-
确定根因
-
并推荐潜在的修复措施
如何开始
使用 skills CLI 安装 Elastic skills:
`npx skills add elastic/agent-skills` AI写代码
直接安装特定 skill:
`npx skills add elastic/agent-skills --skill logs-search` AI写代码
然后运行你的 agent 并给它一个面向结果的请求,例如:
`My cart service is experiencing some slowness, are there any errors over the last 3 hours? Please give me a summary of these logs.` AI写代码
关键的转变在于请求以结果为先。技能捕获实现细节,例如 API 顺序、字段预期和验证步骤。
接下来
计划的范围包括更广的工作流覆盖。随着技能的成熟,团队可以将它们组合成可重复的操作模式,同时仍支持临时调查。
如果你现在想尝试这个模型,获取 Elastic 的 Agent Skills,从一个服务和一个工作流开始:
- 评估服务健康状况。
- 为一个真实事件运行引导式日志调查。
- 在基线遥测质量到位后添加 SLO 管理。
- 了解你的 LLM 对开发者的性能表现。
这为你提供了一种具体方式来评估代理辅助的可观测性工作,而无需一次性改变整个操作模型。