ANALYZE
ANALYZE¶
收集有关一个数据库的统计信息。
- 语法
-
``` sql ANALYZE [VERBOSE] [table [ (column [, …] ) ]]
ANALYZE [VERBOSE] {root_partition|leaf_partition} [ (column [, …] )]
ANALYZE [VERBOSE] ROOTPARTITION {ALL | root_partition [ (column [, …] )]} ```
- 描述
-
ANALYZE
收集有关数据库中表内容的统计信息,并将结果存储在系统表pg_statistic中。随后,P数据库使用这些统计信息来帮助确定最有效的查询执行计划。如果不使用任何参数,则
ANALYZE
会收集当前数据库中每个表的统计信息。 可以指定表名称以收集单个表的统计信息。也可以指定一组列名,在这种情况下,仅收集这些列的统计信息。ANALYZE
不会收集外部表的统计信息。对于分区表,
ANALYZE
在叶子分区上收集其他统计信息,即HyperLogLog(HLL)统计信息。HLL统计信息用于得出针对分区表的查询的不同值(NDV)数量。-
当汇总多个叶子分区的NDV估计值时,HLL统计信息比标准表统计信息生成更准确的NDV估计值。
-
更新HLL统计信息时,仅在已更改的叶子分区上才需要
ANALYZE
操作。如果叶子子分区数据已更改,或者叶子子分区已与另一个表交换,则
ANALYZE
是必需的。
重要:如果要在启用ORCA优化器的分区表上执行查询(默认设置),则必须使用
ANALYZE
或ANALYZE ROOTPARTITION
命令在分区表的根分区上收集统计信息。注意:还可以使用SeaboxMPP数据库实用程序
analyzedb
更新表统计信息。analyzedb
可以同时更新多个表的统计信息。 该实用程序还可以检查表统计信息并仅在统计信息不是当前统计信息或不存在时更新统计信息。 -
- 参数
-
该SQL命令参数说明见下
{ root_partition | leaf_partition } [ (column [, ...] ) ]
-
收集分区表的统计信息,包括HLL统计信息。 HLL统计信息仅在叶子分区上收集。
ANALYZE root_partition
, 收集所有叶子分区和根分区的统计信息。ANALYZE leaf_partition
, 收集有关叶子分区的统计信息。 默认情况下,如果指定叶子分区,并且所有其他叶子分区都具有统计信息,则ANALYZE
更新根分区统计信息。 如果不是所有叶子子分区都具有统计信息,则ANALYZE
记录有关没有统计信息的叶子子分区的信息。 ROOTPARTITION [ALL]
-
仅基于分区表中的数据收集分区表的根分区上的统计信息。 如果可能,
ANALYZE
使用叶子分区统计信息生成根分区统计信息。否则,ANALYZE
通过对叶子分区数据进行采样来收集统计信息。 未在叶子分区上收集统计信息,仅对数据进行采样。 不会收集HLL统计信息。指定
ROOTPARTITION
时,必须指定ALL或分区表的名称。: 如果将ROOTPARTITION
指定为ALL
,则会收集数据库中所有分区表的根分区的统计信息。如果数据库中没有分区表,则会返回一条消息,指出没有分区表。对于不是分区表的表,不会收集统计信息。如果使用
ROOTPARTITION
指定表名,并且该表不是分区表,则不会为该表收集任何统计信息,并且会返回警告消息。ROOTPARTITION
子句不适用于VACUUM ANALYZE
。VACUUM ANALYZE ROOTPARTITION
命令返回错误。运行
ANALYZE ROOTPARTITION
的时间类似于分析具有相同数据的非分区表的时间,因为ANALYZE ROOTPARTITION
仅采样叶子分区数据。对于分区表 sales_curr_yr,此示例命令仅在分区表的根分区上收集统计信息。
ANALYZE ROOTPARTITION sales_curr_yr;
此示例
ANALYZE
命令收集有关数据库中所有分区表的根分区的统计信息。ANALYZE ROOTPARTITION ALL;
VERBOSE
-
启用显示进度消息。 启用显示进度消息。 指定时,
ANALYZE
发出此信息-
正在处理的表。
-
执行该查询以生成示例表。
-
要为其计算统计信息的列。
-
发出以收集单个列的不同统计信息的查询。
-
收集的统计信息。
-
table
- 要分析的特定表的名称(可能是模式限定的)。 如果省略,则分析当前数据库中的所有常规表(而不是外部表)。
column
- 要分析的特定列的名称。 默认为所有列。
- 注意
-
- 仅在明确选择外表时才进行分析。 并非所有外部数据包装器都支持
ANALYZE
。如果表的包装器不支持ANALYZE
,则该命令将显示警告并且不执行任何操作。
最好定期或在对表内容进行重大更改之后立即运行
ANALYZE
。准确的统计信息有助于SeaboxMPP数据库选择最合适的查询计划,从而提高查询处理的速度。 只读数据库的常见策略是在一天的低使用时间内每天运行一次VACUUM
和ANALYZE
。 (如果有大量更新活动,这是不够的。)您可以使用sc_toolkit
模式中的sc_stats_missing
视图来检查缺少统计信息的表:SELECT * from sc_toolkit.sc_stats_missing;
ANALYZE
要求对目标表进行SHARE UPDATE EXCLUSIVE
锁定。 此锁与以下锁冲突:SHARE UPDATE EXCLUSIVE
,SHARE
,SHARE ROW EXCLUSIVE
,EXCLUSIVE
,ACCESS EXCLUSIVE
。如果您在不包含数据的表上运行
ANALYZE
,则不会为该表收集统计信息。 例如,如果您对具有统计信息的表执行TRUNCATE
操作,然后对该表运行ANALYZE
,则统计信息不会更改。对于分区表,如果分区表具有大量已分析的分区,而只有几个叶子分区具有分区,则指定要分析的表部分,根分区或子分区(叶子分区表)可能会有用 改变了。
-
当使用
CREATE TABLE
命令创建分区表时,SeaboxMPP数据库将创建您指定的表(根分区或父表),并根据您指定的分区层次结构(子表)创建表层次结构。 -
在根分区表上运行
ANALYZE
时,将收集所有叶子分区的统计信息。叶子子分区是SeaboxMPP数据库创建供子表使用的子表层次结构中的最低级表。 -
在叶子分区上运行
ANALYZE
时,仅收集该叶子分区和根分区的统计信息。如果叶子分区中的数据已更改(例如,您对叶子子分区数据进行了重大更新或交换了叶子子分区),则可以在叶子子分区上运行ANALYZE
来收集表统计信息。默认情况下,如果所有其他叶子分区都具有统计信息,则该命令将更新根分区统计信息。
例如,如果您在具有大量分区的分区表上收集统计信息,然后仅在几个叶子分区中更新数据,则可以仅在那些分区上运行
ANALYZE
来更新分区的统计信息和根分区的统计信息。- 在不是叶子分区的子表上运行
ANALYZE
时,不会收集统计信息。
例如,可以创建一个分区表,其中包含2006年至2016年的分区以及每年每个月的子分区。如果在2013年的子表上运行
ANALYZE
,则不会收集任何统计信息。如果在2013年3月在叶子分区上运行ANALYZE
,则仅收集该叶子分区的统计信息。-
对于包含已被交换以使用外部表的叶子分区的分区表,
ANALYZE
不会收集外部表分区的统计信息: -
如果在外部表分区上运行
ANALYZE
,则不会分析该分区。 -
如果在根分区上运行
ANALYZE
或ANALYZE ROOTPARTITION
,则不对外部表分区进行采样,并且根表统计信息不包括外部表分区。 -
如果指定了
VERBOSE
子句,则会显示一条参考消息:skipping external table
。 -
配置参数
optimizer_analyze_root_partition
影响何时在分区表的根分区上收集统计信息。如果该参数为on
(默认值),则在运行ANALYZE
时,不需要ROOTPARTITION
关键字来收集根分区上的统计信息。在根分区上运行ANALYZE
或在分区表的子叶分区上运行ANALYZE
且其他子叶分区具有统计信息时,将收集根分区统计信息。如果该参数是off
,则必须运行ANALZYE ROOTPARTITION
来收集根分区统计信息。 -
ANALYZE
收集的统计信息通常包括每列中一些最常用值的列表以及显示每列中近似数据分布的直方图。如果ANALYZE
认为它们不重要(例如,在唯一键列中没有公共值),或者列数据类型不支持适当的运算符,则可以忽略其中一个或两个。 -
对于大型表,
ANALYZE
会从表内容中随机抽取一个样本,而不是检查每一行。这样就可以在很短的时间内分析非常大的表。但是请注意,统计信息仅是近似的,并且每次运行ANALYZE
都会略有变化,即使实际的表内容没有变化。这可能会导致EXPLAIN
所显示的计划者估算成本发生细微变化。在极少数情况下,这种不确定性将导致查询优化器在ANALYZE
运行之间选择不同的查询计划。为了避免这种情况,请通过调整default_statistics_target
配置参数来提高ANALYZE
收集的统计信息的数量,或者通过使用ALTER TABLE ... ALTER COLUMN ... SET (n_distinct ...)
。目标值设置最常用值列表中的最大条目数和直方图中的最大bin数。默认目标值是100,但是可以向上或向下调整该值以权衡规划器估计的准确性与ANALYZE
v所花费的时间以及pg_statistic
中占用的空间量。特别是,将统计目标设置为零会禁用该列的统计收集。对于从未用作查询的WHERE
,GROUP BY
或ORDER BY
子句一部分的列,执行此操作可能很有用,因为计划器将不会使用此类列的统计信息。 -
要分析的列中最大的统计信息目标确定为准备统计信息而采样的表行数。 增加目标会导致进行
ANALYZE
所需的时间和空间成比例增加。 -
ANALYZE
估计的值之一是出现在每列中的不同值的数量。 因为仅检查了行的子集,所以即使使用最大可能的统计目标,此估计有时也可能非常不准确。如果此错误导致查询计划不正确,则可以手动确定更准确的值,然后与ALTER TABLE ... ALTER COLUMN ... SET STATISTICS DISTINCT
一起安装。 -
当P数据库执行
ANALYZE
操作以收集表的统计信息并检测到所有采样的表数据页均为空(不包含有效数据)时,SeaboxMPP数据库将显示一条消息,指出应该执行VACUUM FULL
操作。 如果采样页为空,则表统计信息将不准确。 对表进行大量更改(例如删除大量行)后,页面将变为空。VACUUM FULL
操作可删除空白页,并允许ANALYZE
操作收集准确的统计信息。 -
如果表没有统计信息,则服务器配置参数
sc_enable_relsize_collection
将控制Seabox查询优化器使用默认统计信息文件还是使用pg_relation_size
函数估计表的大小。 -
默认情况下,如果统计信息不可用,Seabox优化器将使用默认的统计信息文件来估计行数。
- 仅在明确选择外表时才进行分析。 并非所有外部数据包装器都支持
- 示例
-
收集表
mytable
的统计信息:ANALYZE mytable;
- 兼容性说明
- SQL标准中没有
ANALYZE
语句。 - 相关SQL命令
ALTER TABLE
,EXPLAIN
,VACUUM
,analyzedb
工具