管理现代软件开发的一个关键部分是建立和运行一个随叫随到的轮换制度。但这往往涉及到大量的劳作,部分原因是许多现有的工具是繁琐的,对开发者不友好。
这就是为什么我们很高兴地宣布Grafana OnCall,一个易于使用的值班管理工具,它将通过更简单的工作流程和为开发人员量身定做的界面,帮助减少值班管理的劳累。现在,所有Grafana Cloud的免费和付费用户都可以在测试版中看到它。

Grafana OnCall诞生于Amixr Inc.,这家公司由Ildar Iskhakov和我在三年前创立,今年早些时候被Grafana Labs收购。Ildar和我已经认识了21年多。我们小时候是最好的朋友,后来失去了联系,直到成年后在硅谷再次相遇。
我们创办Amixr是因为我们都经历过随叫随到的痛苦,觉得我们可以帮助它变得更好。我们注意到,现有的待命工具的设置和维护都很复杂,对开发者不友好,而且缺乏与警报互动的实际场所的深度整合。Slack。
从一开始,Amixr的任务就是建立一个简单易用的产品,允许你从小规模开始,随着时间的推移扩展你的待命管理。当我们开始与Grafana实验室交谈时,感觉很自然,因为两家公司都相信要建立易于使用、灵活和多功能的工具。自从我们加入Grafana实验室大家庭后,我们一直在疯狂地工作,将我们产品的最佳部分整合到Grafana云中,同时继续专注于使待命管理变得超级简单。
有了Grafana OnCall,DevOps和SRE团队能够更有效地协作,优化待命工作流程,并最终更快地发现和解决事件。所有这一切都得益于与Grafana Cloud的深度集成,我们完全可管理的观察性堆栈。
轻松创建和管理随叫随到的时间表
首先,你可以通过你的日历创建和管理你的待命时间表。事实上,任何带有iCal地址的日历都可以使用。为了安排待命时间,你可以用团队成员的Grafana用户名作为事件名称来创建日历事件。这种方法有很多好处:
- 配置和设置都非常快,允许你快速测试Grafana OnCall。
- 在你的团队已经熟悉的工具和工作流程中进行随叫随到的管理,从而减少劳累。

自动升级,灵活路由,确保故障得到解决
Grafana OnCall提供了一个灵活的升级创建用户界面,以确保故障得到解决。这包括强大的路由选项,允许IF 、ELSE IF 和ELSE 逻辑,并可以根据警报的类型进行调整。例如,你可以将有效载荷中含有\"severity\": \"critical\" 的警报事件通知发送至名为Bob_OnCall 的升级链。你可以为有效载荷为\"namespace\" *: *\"synthetic-monitoring-dev-.*\" 的警报创建一个不同的路由,并选择一个名为NotifySecurity 的升级链。

在你熟悉和喜爱的Grafana用户界面中,对事件进行集中查看
Grafana OnCall提供了一个所有事件的中央视图,就在Grafana Cloud和你熟悉的Grafana UI中,允许你快速查看和更新事件的状态,并搜索较早解决的事件。

自动分组以减少警报风暴和噪音
通过Grafana OnCall在Slack中对警报的自动分组,你可以避免警报风暴,并减少你的团队在事件中所面临的噪音。
一套广泛的集成,支持你现有的警报设置
Grafana OnCall支持一系列的监控系统,包括Datadog、New Relic和AWS SNS。欲了解更多关于集成的信息,请访问我们的文档。