作者:来自 Elastic Ori Shafir, Arnon Stern, Jordi Mon Companys
停止手动排错:获取自动化根因分析和性能洞察 — 现在对每个 Elasticsearch 用户免费。
Elastic AutoOps 将诊断 和 运营洞察 直接带到你环境中,改变你管理 Elasticsearch 的方式。今天,我们将 AutoOps 高级功能 对每个 Elasticsearch 用户 免费开放,无论 license 层级 是 Basic、Platinum 还是 Enterprise。这适用于运行在 Elastic Cloud on Kubernetes、Elastic Cloud Enterprise,或能够通过 Cloud Connect 连接到 Elastic Cloud 中 AutoOps 的 on-prem 或 private cloud 环境中的独立集群。
什么是 Elastic AutoOps?
像 Elasticsearch 这样的分布式系统设计上是动态的,会不断根据数据 和 查询负载进行调整。在具有可变 search 和 indexing 需求的动态环境中,例如突发的数据激增 或 查询高峰期,保持 峰值效率 需要的不仅仅是 基础监控。为了提前应对这些变化,团队需要主动方法 来优化资源,确保集群 即使在 workloads 演变时也保持高性能。拥有正确的可见性后,遥测和洞察就成为强大资产,让团队能够在性能问题变得紧急之前采取措施,并在潜在问题进入生产 前捕捉到它们。
然而,解读这些信号 需要深厚的知识。区分健康的资源激增 和 关键配置缺陷 需要理解 配置 与 基础设施 之间的依赖关系。历史上,团队 会构建并维护自己的独立监控工具,并依赖配置 临时规则、警报 和 仪表板 来尝试关联指标 以排查问题。这工作量很大。今天,这一切都变了。Elastic AutoOps 现在对每 Elasticsearch 用户 免费,无论 license 层级。无需信用卡。无需 license 升级。无需附加条件。
面向所有人的性能洞察和故障排查
Elastic AutoOps 将你自管理集群的运营元数据 转化为专家级诊断和可操作的解决路径。一旦通过 Cloud Connect 连接到 Elastic Cloud,AutoOps 会实时识别性能瓶颈和优化机会,帮助团队大幅降低 MTTR 并消除基础设施浪费,同时业务数据 永远 保留在你环境中。因为繁重的分析工作发生在 Elastic Cloud 中,你可以获得整个 fleet 的集中视图,而无需部署或维护任何自管理监控基础设施。
架构安全且轻量:它通过 Cloud Connect 连接到 Elastic Cloud,确保你的实际业务数据 保留在环境中,同时只处理运营元数据。由于分析完全在云中进行,而不是在你的基础设施上执行,因此无需部署 或 维护本地监控集群。
故障排查:从数小时到数分钟
当分布式系统出现问题时(例如,查询缓慢、意外资源压力或 shard 不平衡),诊断意味着需要在节点、索引和集群状态之间关联指标。即使经验丰富的操作员,也可能花费数小时来缩小根本原因范围。
Elastic AutoOps 提供自动化根因分析。它会识别问题、解释原因,并提供具体修复步骤,包括可直接执行的 Elasticsearch API 命令。你无需从原始指标构建心智模型,而是直接从症状到修复路径。这显著降低了平均解决时间,无论团队的 Elasticsearch 专业水平如何。
资源优化:停止对硬件的猜测
缺乏详细的利用率洞察时,团队往往会过度配置。当你缺乏可见性时,这是理性的选择;宁可浪费容量,也不冒停机风险。但这也很昂贵。
AutoOps 会分析你节点和索引的实际资源利用情况。它识别未充分利用的基础设施、缓慢且昂贵的查询、尺寸不佳的 shards,以及数据层优化的机会。结果是关于正确配置部署的具体指导,帮助你基于证据而非估算降低硬件成本。
易于设置,无需维护
设置只需几秒:单个轻量 agent 通过 Cloud Connect 将你的集群连接到 AutoOps。从此,你可以开箱即用地获得多个集群的集中视图,并通过 Slack、PagerDuty、Microsoft Teams 等预构建的可自定义警报和通知 — 无需单独集群部署、无需构建仪表板、也无需持续维护基础设施。
谁需要 Elastic AutoOps?
无论你是负责 uptime 的 SRE/DevOps,还是试图理解 mapping 改动后 query latency 激增原因的开发者,或者是做 capacity planning 决策的团队负责人,AutoOps 都能为你提供帮助。通过同时关联数百个指标 和 使用模式,它将 Elastic 多年的专业工程经验 应用于你的特定环境。这将复杂的跨节点数据 转化为即时、可操作的诊断。这样,你的团队可以在无需手动交叉参考日志 和 指标的情况下,解决专家级的运营挑战。洞察能力可扩展,从单个集群 到 数十个集群,从常规健康检查 到 复杂的跨节点诊断。
这种级别的运营严谨性 在高风险环境中特别关键。从管理季节性流量高峰的零售商 到 确保 24/7 数据可用性的医疗机构,uptime 是信任的货币。在金融服务 和 FinTech 领域,交易速度 和 可靠性至关重要,提前诊断问题 不仅节省工程时间,也保护了利润。
实战案例:Tipalti 如何实现 10% 成本节约
一个明确例子是 Tipalti,一家全球领先的 payables automation 公司。Tipalti 用 Elastic AutoOps 替换了其手动监控堆栈,以支持精简的工程团队。之前,诊断性能问题需要数小时交叉参考仪表板。
通过切换到 AutoOps,Tipalti 团队:
- 消除开销:完全退役 legacy monitoring clusters
- 优化资源:使用 AutoOps 的 index consolidation 建议减少基础设施占用,实现每年 10% 成本节约
- 防止宕机:利用机器学习 (ML) 驱动的异常检测,在磁盘容量问题影响客户前捕捉到问题
AutoOps 不仅识别问题;它还提供清晰解释 和 解决问题所需的精确命令。
Oz Levy,Data Operations Manager,Tipalti
阅读 Tipalti 如何完全退役其 legacy monitoring clusters →
立即开始
通过对每个 Elasticsearch 用户免费提供 AutoOps,我们是在直接投资社区,使整个生态系统更强大。
将你的集群 连接到 Elastic AutoOps 只需几分钟。无需购买,无需升级 license,也无需审批流程。
本篇文章中描述的任何功能或特性 的发布和时间 完全由 Elastic 自行决定。任何当前不可用的功能或特性 可能无法按时提供,甚至可能根本无法提供。
在本文中,我们可能使用或引用了第三方 generative AI 工具,这些工具归其各自所有者所有和运营。Elastic 对第三方工具 没有控制权,也不对其内容、操作或使用承担任何责任或义务,也不对你使用此类工具可能造成的任何损失 或 损害 承担责任。请在使用 AI 工具处理个人、敏感或机密信息时谨慎操作。你提交的任何数据 可能会被用于 AI 训练或其他用途。无法保证你提供的信息 会被保密或安全保存。在使用任何 generative AI 工具前,你应熟悉其隐私政策 和 使用条款。
Elastic、Elasticsearch 及相关标志 是 Elasticsearch B.V. 在美国及其他国家的商标、标识或注册商标。所有其他公司和产品名称 是其各自所有者的商标、标识或注册商标。