返回

RocketMQ/Kafka监控项整理

目录
六、消费客户端监控项
复制

一、系统监控项

1.CPU

CPU使用率、CPU Load

2.内存

内存使用率

3.磁盘

磁盘使用率、磁盘IO、磁盘IOWAIT

4.带宽

带宽检测

5.实例存活

集群实例是否存活、实例端口是否可达

6.JVM监控

堆内存、Full GC时间等

二、集群监控项

1.集群节点数量

注:比如RocketMQ集群中有4主4从;当Master节点数量小于4时

2.集群节点可用性

注:检测集群节点是否可达以及RT Time

3.集群写入TPS

注:例如集群写入TPS压测值的40%

4.集群消费TPS

注:集群消费TPS需关注带宽及CPU

5.集群写入TPS变化率

注:例如5分钟内集群TPS陡增30%

6.集群写入TPS变化率

注:例如5分钟内集群TPS陡增30%

7.集群日消息总量的变化

注:例如集群中每日的消息总量监控

8.Broker写入/消费TPS

注:单节点的写入/消费TPS

三、主题监控项1.主题写入TPS

注:单一主题的写入速率

2.主题写入TPS的变化率

注:例如某一主题5分钟内速率陡增30%

3.主题日消息量

注:例如单一主题每日消息量

4.死信队列监控

注:RocketMQ被丢入死信队列的消息监控

四、消费组监控项1.消费积压

注:积压量的监控

2.消费TPS

注:消费速率监控

3.消费阻塞

注:消费者隔特定时间未消费数据

4.消费速率变化

注:例如5分钟之内消费速率陡降了30%

五、发送客户端监控项1.发送消息体大小变化

注:发送消息的大小在小于1K、1~2K、大于5K等的分布

2.发送耗时变化

注:单节点消息发送在不通时间范围内的分布

3.发送速率变化

注:单个发送节点速率变化

4.发送成功失败分布

注:消息发送成功/失败分布情况

六、消费客户端监控项1.消费速率变化

注:单节点速率变化

2.消费耗时变化

注:单节点发送耗时分布情况

3.消费成功失败分布

注:单节点消费成功失败的分布情况

七、系列文章

RocketMQ生产环境配置

RocketMQ性能测试

RocketMQ性能优化

RocketMQ同步复制性能优化

Kafka集群平滑扩容及Leader均衡

相关知识