Redis的运维监控指标简述

自身状态

Redis慢查询监控

因redis是单线程模型(single-threaded server)，即一次只能执行一个命令，如果命令耗时较长，其他命令就会被阻塞，进入队列排队等待

命令

#获取慢查询日志个数
slowlog len

#获取慢查询日志
slowlog get number

#清空慢查询日志
slowlog reset

配置

#慢查询日志长度，默认128个。建议大于1024个，因监控采集周期1分钟
slowlog-max-len

#慢查询日志阀值，建议1ms，命令执行耗时超过 1 毫秒，记录慢日志
slowlog-log-slower-than

具体的监控指标有哪些呢

服务器系统数据采集

服务器存活监控
CPU
内存和swap
磁盘
网络

Redis Server数据采集

Redis存活监控
Redis 连接数监控
Redis内存监控

综合性能监控

Redis Keyspace。redis键空间的状态监控
Redis qps
Redis cmdstat_xxx
Redis Keysapce hit ratio
Redis fork

持久化监控指标

最近一次rdb持久化是否成功
最近一次成功生成rdb文件耗时秒数
离最近一次成功生成rdb文件，写入命令的个数
离最近一次成功rdb持久化的秒数

复制监控指标

复制连接状态
redis角色
复制连接断开时间长度
主库多少秒未发送数据到从库
从库多少秒未向主库发送REPLCONF命令
从库是否设置只读
主库挂载的从库个数
复制积压缓冲区是否开启
复制积压缓冲大小

集群监控

实例是否启用集群模式
集群健康状态
集群数据槽slots分配情况
检测下线的数据槽slots个数
集群的分片数
集群的节点数

响应时间监控

最长响应时间（respond_time_max）
99%的响应时间长度 (respond_time_99_max)
99%的平均响应时间长度 (respond_time_99_avg)
95%的响应时间长度（respond_time_95_max)
95%的平均响应时间长度 (respond_time_95_avg)

方案设计思路

指标采集。即采集redis提供的metric指标，所以方案中有时候会出现Agent，比如metricBeat
监控的数据持久化。只有将监控数据放到数据库，才能对比和长期监控
时序化。因为很多场景都会按照时间序列去展示 - 所以通常是用时序库或者针对时间列优化
可视化。比如常见的kibana，grafana等
按条件报警。因为运维不可能盯着看，只有引入报警配置，触发报警条件时即发出报警，比如短息提醒等；基于不同报警方式，平台可以提供插件支持等

Redis的运维监控指标简述

Redis的运维监控指标简述

自身状态

相关命令

Redis慢查询监控

命令

配置

具体的监控指标有哪些呢

服务器系统数据采集

Redis Server数据采集

综合性能监控

持久化监控指标

复制监控指标

集群监控

响应时间监控

方案设计思路

相关工具

常见工具

redis-stat

RedisLive

redmon

redis_exporter

grafana

工具选型

什么样的场景会谈到redis监控体系

构建Redis监控体系具备什么价值

监控体系化包含哪些维度

服务端

有哪些成熟的监控方案呢