利用变化情报寻找新的调查路线

73 阅读4分钟

情况介绍

  • 流量激增 > 调查
  • 排除第一个潜在原因
  • 排除第二个潜在的原因
  • 没法子了 > 吃点东西吧
  • 询问Lightstep
  • Lightstep建议对痕迹进行最大的改变

对任何人来说,当警报触发或仪表盘上出现尖峰时,这是一个非常熟悉的场景--点击进入你选择的可观察性(或监控)解决方案,开始调查。你有一大堆问题:爆炸半径是多少?系统的哪个部分导致了这个问题?我可以采取快速补救措施吗?希望有一些智能工作流程可以让你提出并找到这些问题的答案,这样你就可以快速地进行分流和补救了。而一旦问题得到解决,你如何确保它不会再次发生?你的补救措施在短期内解决了问题,分流确定了可能的区域,但你还没有开始调查根本原因,因为你已经花了最后一个小时(或更长时间)让系统恢复健康。

Change Intelligence blog (1)

2021年,Lightstep宣布了Change Intelligence。变化智能为专家和新手自动开辟了新的调查途径。当发生尖峰时(或触发警报),你在Lightstep内有一个选项,可以快速、自信地缩小你所寻找的地方。它是上游还是下游?是你的服务,你依赖的服务,还是其他团队拥有的服务?是一个特定的客户,他们平时的工作量增加了一倍?Change Intelligence给了团队一个选择,可以快速找到一组基线追踪,和一组偏离的追踪之间的差异。今天,我们宣布,我们已经把它做得更好了(很明显),而且比以前更容易让每个用户使用。

对Observability平台提出的一个基本问题是 "发生了什么,为什么?"

我们遇到的一个常见情况是(内部和客户),在你的调查中遇到了一堵砖墙--一个死胡同。在今天的公告中,你可以通过点击 "分析偏差 "按钮,在Lightstep笔记本中访问变化情报,在整个系统中立即生成强大的基于跟踪的吞吐量关联,如果你陷入困境,可以帮助你推进调查。这些相关性帮助你立即了解你的服务健康状况的变化,以及--最重要的--什么可能导致这些变化。

Change Intelligence Blog (2)

可观察性是关于对你的数据提出问题。笔记本是任何可观察性实践者的一个强大的盟友。笔记本不仅允许你在所有的指标和跟踪中形成强有力的假设,而且还允许你查询最有趣和最有用的数据,以了解客户体验(无论是调试p50的性能回归,还是追踪一次蓝月亮错误的根本原因),同时以协作的方式完成这些。调试大规模分布式系统的一个挑战是,当你不是你所调查的服务的专家时,该怎么办?进入变化智能(再次,显然!)。

现代分布式系统很复杂--有时候,系统不同部分之间的连接并不明显。有了Change Intelligence,任何开发者、操作者或SRE都可以对系统进行推理,就像他们是专家一样。此外,你可以把从Change Intelligence产生的任何图表或洞察力带回你的Notebook进行调查,以完成你的事后报告的叙述。这仅仅是Notebooks解决团队故障排除过程中出现的需求的一种方式,它提供了细化的、特定背景的数据,并促进了实时协作解决问题的能力,而不会破坏你的调查流程。分析--在上下文中--减少解决的平均时间(MTTR),并推动主动的性能改进。

Change Intelligence Blog (3)

在排除故障、调试、调查和优化任何东西时,Lightstep笔记本将迅速成为你最喜欢的工具。有了跨度图上的吞吐量关联,在图表上选择偏差和访问变化情报的超级简化方法,以及整个系统中按强度排列的关联的综合列表,并能在一次点击中获得基础数据,你就不会再在调查中遇到死胡同了。