这是我参与「第四届青训营」笔记创作活动的的第1天

SQL的处理流程

查询优化

执行计划子树
- 最小化网络数据传输
- 利用数据的物理分布
- 增加shuffle算子【有更多的map和reduce同时进行】
Executor
- 单机并行：cpu cache，指定的流水线（pipeline）乱序执行，SIMD（单指令流多数据流）
- 多机并行：同一个fragment对应多个实例，一个fragment在多个节点上并行执行

查询优化器分类

运算符和等价变换和学校里的数据库基础一样，这里不多做解释

优化原则

优点：实现简单

缺点：不保证最优

无法保证单表扫描的时候是索引还是全表

无法选择最优Join【Hash or SortMerge】

两表Hash Join的时候，优先选用小表构建哈希，但是RBO无法识别小表

多表Join时，无法选择最优连接顺序

使用模型估算执行计划的代价，选择最优执行

算子代价：CPU，内存，磁盘IO，网络IO

统计信息 + 推导规则 -> 计算算子代价 -> 计算执行计划代价 -> 执行计划枚举

自己用过的框架的查询优化器

Apache Calcite：

Hive，Flink，Alibaba MaxCompute

自研, RBO + CBO:

Spark, ClickHouse

解析SQL，进行优化。目的是做一个通用的SQL查询优化层，可以对接不同的存储系统

优点