建议监测或维护的任务

建议监测或维护的任务¶

为确保集群的高可用性和高可用性，建议对集群进行高可用性维护。以下各节中的表格提供了SeaboxMPP系统管理员可以定期执行的活动，以确保系统的所有组件都以最佳方式运行。监视活动有助于您及早发现和诊断问题。维护活动可帮助您保持系统的最新状态，并避免性能恶化，例如系统表膨胀或可用磁盘空间减少。没有必要在每个集群中实施所有这些建议；使用频率和严重性建议作为指南，根据您的服务需求实施措施。

数据库状态监视活动¶

列出当前处于关闭状态的Executor实例¶

说明

如果返回任何行，则应生成警告或警报。

建议频率

每5到10分钟跑一次。

严重程度

重要

步骤

在seaboxsql数据库中运行以下查询：

SELECT * FROM sc_node_configuration WHERE status <> 'u';

纠正措施

如果查询返回任何行，请按照以下步骤更正问题：

1.验证具有断开段的主机是否响应。

2.如果主机正常，请检查关闭段的主映像和镜像的pg_日志文件，以找出导致段停止运行的根本原因。

检查当前处于更改跟踪模式的Executor实例¶

说明

如果返回任何行，则应生成警告或警报。

建议频率

每5到10分钟跑一次

严重程度

重要

步骤

在seaboxsql数据库中运行以下查询：

SELECT * FROM sc_node_configuration WHERE mode = 'c';

纠正措施

如果查询返回任何行，请按照以下步骤更正问题：1.验证具有断开段的主机是否响应。2.如果主机正常，请检查关闭段的主映像和镜像的pg_日志文件，以确定这些段停止运行的根本原因。3.如果未发现意外错误，请运行screcoverseg实用程序使段重新联机。

检查当前正在重新同步的Executor实例¶

说明

如果返回行，则应生成警告或警报。

建议频率

每5到10分钟跑一次

严重程度

重要

步骤

在seaboxsql数据库中运行以下查询：

SELECT * FROM sc_node_configuration WHERE mode = 'r';

纠正措施

当此查询返回行时，它意味着段正在被重新同步。如果状态没有从“r”更改为“s”，请检查受影响段的主映像和镜像的pg_日志文件是否有错误。

检查是否存在未按最佳角色运行的Executor实例¶

说明

如果找到任何段，集群可能不平衡。如果返回任何行，则应生成警告或警报。

建议频率

每5到10分钟跑一次

严重程度

重要

步骤

在seaboxsql数据库中运行以下查询：

SELECT * FROM sc_node_configuration WHERE preferred_role <> role;

纠正措施

当段不是以其首选角色运行时，主机在每台主机上的主段数量不均匀，这意味着处理是倾斜的。等待一个可能的窗口，然后重新启动数据库，使这些段进入它们的首选角色。

运行查询以测试其是否在所有主Executor实例上运行¶

活动

应为每个主Executor返回一行。

建议频率

每5到10分钟跑一次

严重程度

严重

步骤

在seaboxsql数据库中运行以下查询：

SELECT sc_dbindex_id, count(*)FROM sc_dist_random('pg_class')GROUP BY 1;

纠正措施

如果此查询失败，则在向群集中的某些段调度时出现问题。这是一个罕见的事件。检查无法调度的主机，以确保没有硬件或网络问题。

检查主机是否启动并正常工作¶

说明

执行基本检查，确认主机是否启动并正常工作。

建议频率

每5到10分钟跑一次

严重程度

严重

步骤

在seaboxsql数据库中运行以下查询：

sql SELECT count(*) FROM sc_node_configuration;

纠正措施

如果此查询失败，则活动主机可能关闭。再试几次，然后手动检查活动主机。如果活动主机关闭，请重新启动或关闭活动主机，以确保活动主机上没有进程，然后触发备用主机的激活。

硬件和操作系统监控¶

检查磁盘空间使用情况¶

说明: 检查用于SeaboxMPP数据库数据存储和操作系统的卷上的磁盘空间使用情况。
建议频率: 每5到30分钟
严重程度: 严重
步骤: 设置磁盘空间检查。1.设置一个阈值，以便在磁盘达到容量百分比时发出警报。建议的阈值为75%满。2.不建议在容量接近100%的情况下运行系统。
纠正措施: 通过删除一些数据或文件释放系统空间。

检查网络接口¶

说明: 检查网络接口上的错误或丢弃的数据包。
建议频率: 每小时
严重程度: 重要
步骤: 设置网络接口检查。
纠正措施: 与网络和操作系统团队合作解决错误。

检查RAID¶

说明: 检查RAID错误或降低的RAID性能。
建议频率: 每5分钟
严重程度: 严重
步骤: 设置RAID检查。
纠正措施: 尽快更换出现故障的磁盘。与系统管理团队合作，尽快解决其他RAID或控制器错误。

运行sccheckperf工具¶

说明: "运行SeaboxMPP sccheck实用程序来测试集群的配置是否符合当前的建议。
建议频率: 创建群集或向群集添加新计算机时
严重程度: 重要
步骤: 运行sccheck。
纠正措施: 与系统管理团队合作，根据sccheck实用程序的建议更新配置。

I/O监控¶

说明: 检查是否有足够的I/O带宽和I/O偏差。

建议频率：创建群集或怀疑硬件问题时。

步骤

运行SeaboxMPP sccheckperf实用程序。

纠正措施

如果数据传输速率与以下不相似，则可能未指定群集：

1.每秒2GB磁盘读取；

2.每秒1GB磁盘写入；

3.每秒10千兆位网络读写。如果传输速率低于预期，请咨询您的数据架构师以了解性能预期。如果集群上的计算机显示不均匀的性能配置文件，请与系统管理团队一起修复故障机器。

目录监视¶

一致性检查¶

说明: 确保目录在主机上的一致性检查和在集群上运行的每个目录的一致性。
建议频率: 每周
严重程度: 重要
步骤: 在每个数据库中运行SeaboxMPP sccheckcat实用程序：sccheckcat -O 对检测到的任何问题运行修复脚本。

持久表目录检查¶

说明: 运行持久表目录检查。
建议频率: 每月
严重程度: 严重
步骤: 在停机期间，如果系统上没有用户，请在每个数据库中运行SeaboxMPP sccheckcat实用程序：sccheckcat -R persistent
纠正措施: 对检测到的任何问题运行修复脚本。

检查pg_类条目¶

说明: 检查没有对应pg_属性项的pg_类条目。
建议频率: 每月
严重程度: 重要
步骤: 在停机期间，如果系统上没有用户，请在每个数据库中运行SeaboxMPP sccheckcat实用程序：sccheckcat -R pgclass
纠正措施: 对发现的任何问题运行修复脚本。

检查架构¶

说明: 检查泄漏的临时架构和缺少的架构定义。
建议频率: 每月
严重程度: 重要
步骤: 在停机期间，如果系统上没有用户，请在每个数据库中运行SeaboxMPP sccheckcat实用程序：sccheckcat -R namespace
纠正措施: 对发现的任何问题运行修复脚本。

检查随机分布表¶

说明: 检查随机分布表的约束。
建议频率: 每月
严重程度: 重要
步骤: 在停机期间，如果系统上没有用户，请在每个数据库中运行SeaboxMPP sccheckcat实用程序：sccheckcat -R distribution_policy
纠正措施: 对发现的任何问题运行修复脚本。

检查对象依赖关系¶

说明: 检查对不存在对象的依赖关系。
建议频率: 每月
严重程度: 重要
步骤: 在停机期间，如果系统上没有用户，请在每个数据库中运行SeaboxMPP sccheckcat实用程序：sccheckcat -R dependency
纠正措施: 对发现的任何问题运行修复脚本。

数据维护¶

检查表统计信息¶

说明

检查表上是否缺少统计信息。

步骤

检查每个数据库中的sc_stats_missing视图：

SELECT * FROM sc_toolkit.sc_stats_missing;

纠正措施

对缺少统计信息的表运行ANALYZE。

检查vacuum无法释放空间的表¶

说明: 检查数据文件中是否存在无法通过常规vacuum命令恢复的膨胀（死区）的表。
建议频率: 每周或每月
严重程度: 警告
步骤: 检查每个数据库中的sc_bloat_diag视图：SELECT * FROM sc_toolkit.sc_bloat_diag;
纠正措施: 在用户不访问表时执行VACUUM FULL语句以删除膨胀并压缩数据。

数据库维护¶

清理用户表¶

说明: 在堆表中标记已删除的行，以便可以重用它们所占用的空间。
建议频率: 每日
严重程度: 严重
步骤: 清理用户表：VACUUM <table>;
纠正措施: 定期清理表防止膨胀。