使用Grafana Cloud对Kubernetes进行故障排除和可视化的3步指南

2022-08-17 230 阅读2分钟

早在5月，我们就宣布了Kubernetes集成，帮助用户使用Grafana Agent轻松监控Kubernetes集群的核心指标并发出警报，Grafana Agent是我们的轻量级可观察性数据收集器，为向Grafana Cloud发送指标、日志和跟踪数据而优化。从那时起，我们做了一些改进，以帮助我们的客户走得更远。

本指南将展示使用Grafana Cloud对Kubernetes集群进行故障诊断和报警是多么容易。

第一步：在Grafana Cloud中获取Kubernetes集成

设置集成是快速而简单的。在Grafana Cloud主页UI中，点击菜单栏上的闪电式集成图标，并在Onboarding标签下选择 "Walkthrough":

搜索Kubernetes并点击安装:

第二步：配置代理来搜刮指标

Kubernetes集成是通过Grafana代理收集指标来工作的。

该代理被配置为定期从你的Kubernetes集群（如kubelet、cadvisor等）刮取目标，消除了使用Prometheus Operator时需要的任何繁琐的自定义配置:

使用所提供的指导性配置和代码片段来完成安装过程:

你现在已经将代理部署到你的集群中，并将其配置为刮取kubelet和cadvisor端点，你正在将这些刮取的指标运送到Grafana Cloud:

除了指标，你还可以参考这些快速入门指南，在你的Kubernetes集群中部署额外的Agent来收集日志和痕迹。

注意：目前是通过手动编辑配置片段来完成的，但我们希望在未来也能让这一工作变得更容易，所以请继续关注更多的配置改进。

第三步：开始使用Kubernetes仪表板

一旦你完成了安装集成，你就可以访问一些仪表盘，这样你就可以直观地看到你的数据被搜刮:

集群仪表板

通过可视化的关键指标，如CPU和内存利用率、请求和限制，监测你在各集群中的资源消耗:

名称空间/工作负载仪表板

可视化整个命名空间/工作负载的资源消耗:

Kubelet 仪表盘

来自Kubelet数据源的高层次Kubernetes操作指标:

持久卷仪表盘

监测和警告持久性卷指标，如磁盘和inode使用: