在六月的GrafanaCONline上,我们谈到了Grafana实验室的机器学习的未来。四个月后,我们很高兴为Grafana云引入了Grafana机器学习,以及我们的指标预测功能。它现在可供专业或高级计划的所有客户使用。如果你还没有使用Grafana Cloud,你可以在这里注册Grafana Cloud Pro的14天免费试用。
在这篇博文中,我们将介绍Grafana机器学习的一些使用案例和真实世界的例子。
使用机器学习来解决现实世界的问题
自适应警报
要创建有用的警报,并随着时间的推移保持有用是很难的。过去有意义的静态阈值已不再适用。他们不能适应环境,比如预期的繁忙或安静期。
想象一下,例如,一个在午餐和晚餐时间有大量使用的食品递送应用程序,但在清晨时分却相当安静。同样的阈值在这两种情况下都不能很好地工作,可能会导致错过事件和/或嘈杂的警报。
如果我们能从过去的指标中学习,并创建适应我们的数据和背景的警报,随着时间的推移会怎么样?
Grafana机器学习让你训练一个模型来学习系统内的模式,并使用它来对未来做出有信心的预测。
容量规划
大多数容量规划都是被动的;它通过增加资源来满足需求。有了对未来的预测,你可以提前计划。如果准备资源是昂贵的或需要大量的时间,这可能是特别有用的。
检测意外情况
当你知道什么是可能发生的,你可以推断出什么时候事情超出了这些预期。尽早发现异常情况可以让你领先于潜在的问题,这样它们就不会让你措手不及:

上面的截图显示了Grafana机器学习的一个实际例子。绿线是实际数据;蓝线代表对未来的预测值。
蓝色阴影区域显示了模型的信心水平。正如你所看到的,在这种情况下,随着时间的推移,它变得不太自信:

MediaKind使用Grafana Cloud来提供所需的可观察性,以确保其系统始终处于运行状态。运营的规模意味着在大量的仪表盘上有大量的指标。随着公司业务的增长,数据也在增长,这最终使得数据越来越难以管理。用首席系统架构师Richard Chin的话说,问题是 "太多的图表需要熟练的人每天扫描"。为了迎接这一挑战,并实现MediaKind对服务质量的坚定承诺,Chin和他的团队不断寻找新的方法来提高对客户的服务标准。在作为测试者计划的一部分获得Grafana机器学习的早期访问权后,MediaKind的团队已经利用它来训练ML模型,以快速识别网络数据包丢失作为下游视频错误的根本原因。这些模型已经学会了每个频道的独特特征,并能够提醒用户注意异常活动。
Chin告诉我们,这些模型发现了人类需要花费大量时间才能注意到的异常情况,帮助团队减少现有仪表盘中的噪音,并以以前不可能的方式发现问题。
"Grafana机器学习非常容易理解和设置,"他说。他说:"机器学习可能是一个复杂的领域,有许多参数需要调整,但从概念和实际情况来看,Grafana机器学习对我们所有使用它的工程师来说都很容易理解,即使是那些没有机器学习经验的人。此外,由于它是由Grafana Cloud提供的,我们不必担心设置服务或扩展它。我们认为这是一个非常有用的智能异常检测工具,它肯定会成为我们的SRE用来提高生产力和减少日常劳作的工具之一。"
MediaKind是一家全球媒体技术和服务的变革领导者。它的使命是通过与客户和合作伙伴一起建立一个持续改进的媒体世界来实现变革。依托领先的行业传统,在创新的推动下,MediaKind在全球范围内接受并倡导新的标准、方法和下一代沉浸式直播和点播媒体体验。其端到端媒体解决方案组合包括获得艾美奖的视频压缩,用于贡献和直接向消费者分发、广告和内容个性化、高效云DVR以及电视和视频交付平台。欲了解更多信息,请访问:www.mediakind.com。
一个不断学习的算法,在Grafana云中完全管理
我们知道事情不会长期保持不变,特别是当你在成长时。ML模型定期在一个滑动的数据窗口上重新训练。这使他们能够保持 "开放的心态",与你的系统一起发展,而不是被困在过去。
有了Grafana机器学习,你带来了你已经拥有的数据,使用了你已经使用的工具,剩下的就由我们来处理了。这样,你可以轻松地将预测添加到你的指标中,而我们则负责处理基础设施,以计算数字,生成预测,并保持一切最新的。
常见问题
它的成本是多少?
如果你保持在(相当慷慨的)免费配额内,就不需要再支付任何费用。对于那些真正想扩大规模的客户,我们已经准备好进行对话。请联系我们,或询问您的客户经理、支持工程师或技术客户经理。
如果我使用的是免费的Grafana云计划呢?
要实验ML功能,你需要将你的计划升级为专业版。(你可以在云门户订阅页面进行升级。)如果你愿意,以后可以随时降级。
我怎样才能开始呢?
了解指标预测的最好方法是开始预测这些指标!你可以在你的GRAF系统中找到这些指标。
前往你的Grafana Cloud实例,在左侧导航中寻找机器学习图标,就可以开始了。