这是我参与「第四届青训营 」笔记创作活动的的第1天
- 大数据体系
One SQL rules big data all
- SQL在分布式环境下的处理
- 处理流程
- SQL---|Parser|---AST---|Analyzer|---Logical Plan---|Optimizer|---Physical Plan---|Executor|
- Parser
- String->AST(Abstract syntax tree)
- 词法分析:拆分字符串,得到关键词、数值常量、字符串常量、运算符号Token
- 语法分析:将Token组成AST node,最终得到AST
- 实现
- 递归下降(ClickHouse)
- Flex与Bison(PostgreSQL)
- JavaCC(Flink)
- Antlr(Presto, Spark)
- String->AST(Abstract syntax tree)
- Analyzer
- AST->Logical Plan
- 检查并绑定Database,Table,Column等元信息
- SQL的合法化检查,比如min/max/avg的输入为数值
- Logical Plan
- 逻辑地描述SQL对应的分步骤计算操作
- 计算操作:算子(operator)
- AST->Logical Plan
- Optimizer
- why: SQL是一种声明式语言,用户只描述做什么,没有告诉数据库怎么做
- target:找到一个正确且执行代价最小的物理执行计划
- 查询优化器是数据库的大脑,最复杂的模块,很多相关问题都是NP的
- 一般SQL越复杂,Join的表越多,数据量越大,查询优化的意义就越大,因为不同执行方式的性能差别可能成百上千倍
- Physical Plan
- Plan Fragment:执行计划子树
- 目标:最小化网络数据传输
- 利用数据的物理分布(数据亲和性)
- 增加Shuffle算子
- Plan Fragment:执行计划子树
- Executor
- 单机并行:cache,pipeline,SIMD
- 多机并行:一个fragment对应多个实例
- 处理流程
- 常见的查询优化器
- Top-down Optimizer
- 从目标输出开始,由上往下遍历计划数,找到完整的最优执行计划
- Volcano/Cascade,SQLServer
- Bottom-up Optimizer
- 从零开始,由下往上遍历计划数,找到完整的执行计划
- System R,PostgreSQL,IBM DB2
- RBO(Rule-based Optimizer)
- 根据关系代数等价语义,重写查询
- 关系代数
- 运算符:Select,Project,Join,Rename,Union
- 等价变换:结合律,交换律,传递性
- 关系代数
- 基于启发式规则
- 会访问表的元信息(catalog),不会涉及具体的表数据(data)
- 优化原则
- Read data less and faster(I/O)
- Transfer data less and faster(Network)
- Process data less and faster(CPU&Memory)
- 优化方法
- 列裁剪
- 首先将不需要的列裁剪掉
- 谓词下推
- 谓词(where)
- 尽早过滤数据
- 传递闭包
- 根据表达式等价关系+过滤条件推导出新的过滤条件
- Runtime Filter
- 通过join右侧的表的特性(min-max,in-list,bloom filter)推导出左侧表的过滤条件
- 列裁剪
- 小结
- 主流RBO实现一般都有几百条基于经验归纳得到的优化规则
- 优点:实现简单,优化速度快
- 缺点:不保证得到最优的执行计划
- 单表扫描:索引扫描(随机I/O)vs全表扫描(顺序I/O)
- 如果查询数据分布非常不均衡,索引扫描可能不如全表扫描
- Join的实现:Hash Join vs. SortMerge Join
- 两表Hash Join:用小表构造哈希表——如何识别小表
- 多表Join:
- 哪种连接顺序最优
- 是否对每种组合都探索
- 单表扫描:索引扫描(随机I/O)vs全表扫描(顺序I/O)
- 根据关系代数等价语义,重写查询
- CBO(Cost-based Optimizer)
- |统计信息+推导规则|->|计算算子代价|->|计算执行计划代价|->|执行计划枚举|
- 使用一个模型估算执行计划的代价,选择代价最小的执行计划
- 执行计划的代价等于所有算子的执行代价之和
- 通过RBO得到(所有)可能的等价执行计划
- 算子代价:CPU,内存,磁盘I/O,网络I/O等代价
- 和算子输入数据的统计信息有关:输入、输出结果的行数,每行大小...
- 叶子算子Scan:通过统计原始表数据得出
- 中间算子:根据一定的推导规则,从下层算子的统计信息推导得出
- 和具体的算子类型,以及算子的物理实现有关
- 例子:Spark Join算子代价=
weight*row_count+(1.0-weight)*size
- 和算子输入数据的统计信息有关:输入、输出结果的行数,每行大小...
- 统计信息
- 原始表统计信息
- 表或者分区级别:行数、行平均大小、表在磁盘中占用了多少字节等
- 列级别:min,max,num nulls,num not nulls,num distinct value(NDV),histogram等
- 推导统计信息
- 选择率(Selectivity):对于某一个过滤条件,查询会从表中返回多大比例的数据
- 基数(Cardinality):在查询计划中常指算子需要处理的行数
- 准确的cardinality,远比代价模型本身重要
- 收集统计信息
- 在DDL里指定需要收集的统计信息,数据库会在数据写入时收集或者更新统计信息
- 手动执行explain analyze statement,触发数据库收集或者更新统计信息
- 动态采样
- 统计信息推导规则
- 假设列和列之间是独立的,列的值是均匀分布的
- Filter Selectivity
- AND条件
- OR条件
- NOT条件
- 等于条件
- 小于条件
cardinality(FILTER)=cardinality(A)*selectivity(FILTER)
- 原始表统计信息
- 执行计划枚举
- 通常使用贪心算法或者动态规划选出最优执行计划
- Top-down Optimizer
- 社区开源实践
- Apache Calcite
- One size fits all:统一的SQL查询引擎
- 模块化,插件化,稳定可靠
- 支持异构数据模型
- 关系型
- 半结构型
- 流式
- 地理空间数据
- 内置RBO和CBO
- RBO
- HepPlanner
- 优化规则
- Pattern:匹配表达式子树
- 等价交换:得到新的表达式
- 内置100+优化规则
- 四种匹配规则
- ARBITRARY/DEPTH_FIRST:深度优先
- TOP_DOWN:拓扑排序
- BOTTOM_UP:与TOP_DOWN相反
- 遍历所有规则,知道没有规则可以被触发
- 优化速度快,实现简单,但是不保证最优
- 优化规则
- HepPlanner
- CBO
- ValcanoPlanner
- 基于Valcano/Cascade框架
- 成本最优假设
- 应用规则搜索候选计划
- Memo:存储候选执行计划
- Group:等价计划集合
- 本质是AND/OR graph
- 共享子树减少内存开销
- Group Winner:目前的最优计划
- 剪枝(Branch-and-bound pruning):减少搜索空间
- TOP-DOWN遍历:选择winner构建最优执行计划
- ValcanoPlanner
- RBO
- Apache Calcite
- 前沿趋势
- 引擎架构的进化
- 存储计算分离
- 一体化(HTAP,HSAP,HTSAP)
- Cloud
- 云原生
- serverless
- 湖仓一体
- Query Federation
- DATA+AI
- AI4DB
- 自配置
- 智能调参(OtterTune,QTune)
- 负载预测/调度
- 自诊断和自愈合:错误恢复和迁移
- 自优化
- 统计信息估计(Learned cardinalities)
- 代价估计
- 学习型优化器(IBM,DB2,LEO)
- 索引/视图推荐
- 自配置
- DB4AI
- 内嵌人工智能算法(MLSQL,SQLFlow)
- 内嵌机器学习框架(SparkML,Alink,dl-on-flink)
- AI4DB
- 引擎架构的进化