monitor故障处理
monitor故障恢复¶
在SeaboxMPP数据库集群中,monitor是集群监控服务,是确保集群整体可用性的关键组件,自身同样具有高可用性。但是monitor自身并没有存储的数据,其数据依赖于scdcs中存储的组件注册信息和组件拓扑信息,因此只要将monitor进程重新启动,即可恢复,而且在组件恢复期间,不会影响到整个集群的业务操作。
如果集群监控服务monitor的某个实例发生故障,系统会自动对其进行恢复操作,具体的恢复步骤如下:
- 将monitor实例的
status
设置为d
(掉线) - 向此monitor实例发送启动命令,尝试重新启动monitor
- 如果monitor已经启动,则monitor恢复成功
- 如果在设定的时间(默认30s)内,无法启动monitor,则将其
status
设置为b
(损坏) - 如果此monitor所在的主机已经掉线,则不再进行尝试对其进行恢复,直到monitor所在的主机再次上线后,再尝试重新启动monitor