如何用DataDog创建监控器

1,456 阅读4分钟

DataDog 是一个著名的、跨平台的服务,通过数据分析平台监控各种服务器、服务、数据库、工具。用户可以检查RAM和磁盘上的可用空间,或跟踪网络请求的等待时间或系统上的CPU使用情况。

这些问题可能看起来微不足道,但它们最终会给有生产应用的服务器带来问题,这就是为什么每当上述事件发生时都会创建警报来通知利益相关者。在这篇文章中,我们将指导你如何使用DataDog工具创建监控器,并将创建警报来检查RAM和CPU的使用情况。

在Ubuntu上安装DataDog

首先,我们要在DataDog 上创建一个账户,为此要访问该页面并注册。在你注册之后,他们会给你提供一个API密钥,你必须使用这个密钥在Ubuntu上安装DataDog,下面用提供给你的密钥替换DD_API_KEY

$ DD_AGENT_MAJOR_VERSION=7 DD_API_KEY=fac8927c295b7f75dd2eb4b9fd9f7b17 DD_SITE="datadoghq.com" bash -c "$(curl -L https://s3.amazonaws.com/dd-agent/scripts/install_script.sh)"

安装可能需要一些时间,在最后你会收到以下信息。

如上所示,DataDog代理正在后台成功运行,并将继续运行。如果你想停止DataDog代理,请运行下面的命令。

$ sudo systemctl stop datadog-agent

要启动代理。

$ sudo systemctl start datadog-agent

在你创建了id并安装了给定的命令后,你已经为DataDog设置了代理,你将会在主页上。

现在让我们开始在Datadog中工作,创建监控器。

创建一个新的监控器

如果你想添加一个新的监视器,你可以简单地从仪表板上选择监视器,然后点击 "新的监视器"。

否则,要创建一个新的监视器以检查主机是否正常,你可以在侧面菜单中选择 "Create a Monitor"选项并点击 "Create Monitor"。

这将打开以下屏幕,你必须在其中选择 "主机"。

点击主机后,将带你到另一个屏幕,你必须选择一个主机。

选择主机,在我的例子中是 "linuxhintBox",你会得到以下的选项来填写。

根据你的喜好简单地设置,并设置你希望主机警报产生的秒数,最后保存它。

监测RAM的使用情况

为了检查RAM的使用情况,有多少是可用的,并在它越过限制时产生警报,我们将创建一个公制警报。

在选择 "指标 "后,它将为我们提供生成警报类型的选项,我们将从中选择 "阈值警报"

在定义指标中,你必须选择 "system.mem.pct_usable"并选择你的主机。在警报条件中,我们简单地设置,只要RAM可用性低于5%,就产生警报,并保存设置。你可以为各种条件设置信息,如下。

监测CPU使用情况

为了在CPU使用率超过阈值时向系统发出警报,我们将创建另一个 "度量"监视器,因此再次选择度量监视器并设置以下设置。

这里的警报类型仍然是 "阈值",但这次的度量标志是 "system.cpu.user",当CPU使用率超过90%时,就会产生警报。我们还设置了当CPU使用率超过80%时产生警告,并根据情况显示适当的信息。

进程监控

为了对我们系统上运行的各种进程进行检查,或者检查某个特定的进程,我们将创建一个监视器来产生警报。这很有帮助,因为它告诉我们哪个进程正在运行,哪些应用程序进程被杀死。但是,这个监控器也有缺点,比如有时监控器没有杀死进程,或者由于进程的内部故障而不能工作,就会产生警报。

为了创建一个进程的监视器,我们将进入存放datadog配置文件的目录。

$ cd /etc/datadog-agent/conf.d

现在转到进程目录。

$ cd process.d

这里有一个名为 "conf.yaml.example"的文件,我们将其复制并命名为 "conf.yaml"。

$ sudo cp conf.yaml.example conf.yaml

现在打开conf.yaml文件并插入以下内容。

$ sudo nano conf.yaml

这将打开我们所定义的文件。

  • 名称:在Datadog上显示的我们进程的名称
  • Search_string:一个独特的字符串,当你在你的系统上搜索这个进程时显示出来。
  • exact_match:设置为False,这样就可以在不考虑格式的情况下搜索到字符串。
  • Tag: 元数据,用于搜索我们系统中的进程。
init_config:

instances:
- name: ssh
  search_string: ['ssh', 'sshd']
  exact_match: False

- name: postgres
  search_string: ['postgres']
  exact_match: False
  tags:
- env:dev

现在保存该文件,并通过运行下面的命令重启DataDog。

$ sudo systemctl start datadog-agent

在这之后,只需运行下面的命令来检查datadog的状态,它将显示我们各种进程的状态,cpu的使用情况等。

$ sudo datadog-agent status

此外,你可以通过点击仪表板上的管理监视器来检查各种监视器的状态。

结论

Datadog是一个了不起的服务,通过它我们可以跟踪CPU的使用情况、RAM的使用情况以及系统上运行的各种进程。我们可以通过创建监控器来做到这一点,每当每个监控器上的阈值达到时,就会给我们发出警报。在这篇文章中,我们指导你如何创建监控器来检查各种CPU使用情况、进程运行情况和内存使用情况,并为我们提供警告,以保持我们的系统运行不出现任何问题。