prometheus联邦节点报错 write: broken pipe

144 阅读1分钟

现象

prometheus联邦集群,联邦节点日志出现错误信息:

level=error component=web msg="federation failed" err="write tcp xxx:9090->xxx:46463: write: broken pipe"

查看Prometheus服务target,抓取间隔超时 image.png

原因

prometheus服务的联邦集群配置,将所有的抓取数据都集成在一个job中,当监控规模不断增加,job需要抓取的数据量也不断增加,单个job抓取任务遇到性能瓶颈。

解决方案

1、调整scrape_interval抓取间隔和scrape_timeout抓取超时时间

2、修改prometheus-additional.yaml,将联邦配置拆成多个job,分散原单个job抓取的数据量;