跳转至

monitor故障处理

monitor故障恢复

在SeaboxMPP数据库集群中,monitor是集群监控服务,是确保集群整体可用性的关键组件,自身同样具有高可用性。但是monitor自身并没有存储的数据,其数据依赖于scdcs中存储的组件注册信息和组件拓扑信息,因此只要将monitor进程重新启动,即可恢复,而且在组件恢复期间,不会影响到整个集群的业务操作。

如果集群监控服务monitor的某个实例发生故障,系统会自动对其进行恢复操作,具体的恢复步骤如下:

  1. 将monitor实例的status设置为d(掉线)
  2. 向此monitor实例发送启动命令,尝试重新启动monitor
  3. 如果monitor已经启动,则monitor恢复成功
  4. 如果在设定的时间(默认30s)内,无法启动monitor,则将其status设置为b(损坏)
  5. 如果此monitor所在的主机已经掉线,则不再进行尝试对其进行恢复,直到monitor所在的主机再次上线后,再尝试重新启动monitor