RBO 的一个简单举例 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的的第2天 [第四届青训营笔记创作活动]

这是我参与「第四届青训营」笔记创作活动的的第2天
[第四届青训营笔记创作活动]

RBO

有两张表 pv 和 user
对于下面这样一条 SQL 语句

SELECT pv.siteId, user.name
FROM pv JOIN user
ON pv.siteId = user.siteId AND pv.userId = user.id
WHERE user.siteId > 123;

优化前的逻辑任务如下图

RBO 是如何进行优化的呢？

列裁剪
通过列裁剪，pv 表只需查询 siteId 和 userId 两个字段；user 表只需查询 id、siteId 和 name 三个字段。这样减少了数据的传输，而且如果底层的文件格式为列存（比如 Parquet），可以大大提高数据的扫描速度。
经过列裁剪优化的逻辑计划如下图
谓词下推
谓词下推将 Filter 算子直接下推到 Join 之前，也就是在扫描 user 表的时候使用条件过滤出满足条件的数据。经过这样的操作，可以大大减少 Join 算子处理的数据量，从而加快计算速度。 经过谓词下推优化的逻辑计划如下图
传递闭包
传递闭包根据 pv.siteId = user.siteId 这一条件，同时对 pv.siteId 进行过滤，可以大大减少 Join 算子处理的数据量，加快计算速度。 经过传递闭包优化的逻辑计划如下图
Runtime-Filter
Runtime-Filter 指在进行Join的build端拉取数据的过程中新增了一个RuntimeFilterBuilder的一个算子，这个算子的作用就是在运行的过程中收集build端的信息形成runtime filter，runtime filter中可能包含的信息有最小-最大值、布隆过滤器等，并且发送到probe端的scan节点中去，让probe端的节点可以在scan就减少输入的数据，从而实现性能的提升。 经过 Runtime-Filter 优化的逻辑计划如下图