[SQL Optimizer解析]学习笔记|青训营笔记

这是我参与【第四届青训营】笔记创作活动的第1天。

[SQL Optimizer解析]学习笔记

大数据体系——One SQL rules big data all，其中包括七个模块分别对应七种功能模式：

 BI报表、数据挖掘、营销分析、精准推荐；

 Airflow、DAG；

 Apache Ranger、GDPR；

 YARN、K8S；——Kafka

 HDFS、HBase、NAS、Object Store、数据湖；——Pulsar

 ECS、存储、VPC；——NSQ

String->AST(抽象语法树abstract syntax tree)

词法分析：拆分字符串，得到关键词、数值常量、字符串常量、运算符号等token；

语法分析：将token组成AST node，最终得到一个AST。
实现：递归下降（ClickHouse），Flex和Bison（PostgreSQL），JavaCC（Flink),Antlr(Presto,Spark).

基于关系代数等价规则对逻辑计划进行变换
实现上：
- Pattern：定义了特定结构的 Operator 子树（结构）;
- Rule：定义了如何将其匹配的节点替换（Substitute）为新形态，从而生成新的、等价的Operator 树（原地替换）;
- 优化器搜索过程被抽象为不断匹配 Pattern 然后应用 Rule 转换，直到没有可以匹配的 rule。
局限性：
- 无法解决多表连接问题；
- 无法确定和选择最优的分布式 Join/Aggregate 执行方式。

使用一个模型估算执行计划的代价，选择代价最小的执行计划;
分而治之，执行计划的代价等于所有算子的执行代价之和;
通过 RBO 得到（所有）可能的等价执行计划（非原地替换）;
算子代价包含 CPU，cache misses，memory，disk I/O，network I/O 等代价;
和算子的统计信息有关，比如输入、输出结果的行数，每行大小等;
叶子算子 scan：通过统计原始表数据得到。
- 中间算子：根据一定的推导规则，从下层算子的统计信息推导得到;
- 和具体的算子类型，以及算子的物理实现有关（e.g. hash join vs. sort join）;
- 使用动态规划枚举所有执行计划，选出执行代价最小的执行计划。
统计信息
- 基表统计信息
  - 表或者分区级别：行数、行平均大小、表在磁盘中占用了多少字节等；
  - 列级别：min、max、num nulls、num、not nulls、num、distinct value(NDV)、histogram 等。
- 推导统计信息
  - 选择率（selectivity） ：对于某一个过滤条件，查询会从表中返回多大比例的数据；
  - 基数（cardinality） ：基本含义是表的 unique 行数，在查询计划中常指算子需要处理的行数。
执行计划枚举
- 通常使用贪心算法或者动态规划选出最优执行计划；
- 动态规划：