1.1 什么是 Table API 和 Flink SQL
Flink 本身是批流统一的处理框架,所以 Table API 和 SQL,就是批流统一的上层处理 API。
目前功能尚未完善,处于活跃的开发阶段。
Table API 是一套内嵌在 Java 和 Scala 语言中的查询 API,它允许我们以非常直观的方式,
组合来自一些关系运算符的查询(比如 select、filter 和 join)。而对于 Flink SQL,就是直接可
以在代码中写 SQL,来实现一些查询(Query)操作。Flink 的 SQL 支持,基于实现了 SQL 标
准的 Apache Calcite(Apache 开源 SQL 解析工具)。
无论输入是批输入还是流式输入,在这两套 API 中,指定的查询都具有相同的语义,得
到相同的结果_大数据培训。
编辑
1.2 需要引入的依赖
Table API 和 SQL 需要引入的依赖有两个:planner 和 bridge。
org.apache.flink
flink-table-planner_2.12
1.10.1
org.apache.flink
flink-table-api-scala-bridge_2.12
1.10.1
flink-table-planner:planner 计划器,是 table API 最主要的部分,提供了运行时环境和生
成程序执行计划的 planner;
flink-table-api-scala-bridge:bridge 桥接器,主要负责 table API 和 DataStream/DataSet API
的连接支持,按照语言分 java 和 scala。
这里的两个依赖,是 IDE 环境下运行需要添加的;如果是生产环境,lib 目录下默认已
经有了 planner,就只需要有 bridge 就可以了。
当然,如果想使用用户自定义函数,或是跟 kafka 做连接,需要有一个 SQL client,这个
包含在 flink-table-common 里。
1.3 两种 planner(old & blink)的区别
- 批流统一:Blink 将批处理作业,视为流式处理的特殊情况。所以,blink 不支持表和
DataSet 之间的转换,批处理作业将不转换为 DataSet 应用程序,而是跟流处理一样,转换
为 DataStream 程序来处理_大数据视频。
- 因 为 批 流 统 一 , Blink planner 也 不 支 持 BatchTableSource , 而 使 用 有 界 的
StreamTableSource 代替。
-
Blink planner 只支持全新的目录,不支持已弃用的 ExternalCatalog。
-
旧 planner 和 Blink planner 的 FilterableTableSource 实现不兼容。旧的 planner 会把
PlannerExpressions 下推到 filterableTableSource 中,而 blink planner 则会把 Expressions 下推。
-
基于字符串的键值配置选项仅适用于 Blink planner。
-
PlannerConfig 在两个 planner 中的实现不同。
-
Blink planner 会将多个 sink 优化在一个 DAG 中(仅在 TableEnvironment 上受支持,而
在 StreamTableEnvironment 上不受支持)。而旧 planner 的优化总是将每一个 sink 放在一个新
的 DAG 中,其中所有 DAG 彼此独立。
- 旧的 planner 不支持目录统计,而 Blink planner