Apache SeaTunnel 2 月动态:过年也没闲着,社区都在忙些什么?

5 阅读3分钟

Apache SeaTunnel 社区近期非常活跃,从最新的 PR 提交情况来看,开发者的工作重点主要集中在 2.3.13 版本发布准备新连接器接入Zeta 引擎稳定性增强 以及 JDBC/CDC 连接器的深度优化 上。

以下是近期 Top PR 的详细盘点与分析:

1. 新连接器与生态扩展

社区正在不断扩展 SeaTunnel 的数据集成边界,不仅关注传统的数据库,也开始接入 SaaS 和云原生服务。

  • Airtable Source & Sink (#10469)
    • 这是一个重磅的新增连接器,支持从在线表格工具 Airtable 读取和写入数据,极大方便了业务数据与数仓的打通。
  • HubSpot Source (#10358)
    • 针对 CRM 领域的扩展,增加了 HubSpot 数据源的接入结构。
  • AWS Glue Catalog (#10401)
    • 增加了对 Glue Catalog 的支持,特别是在 S3 环境下凭证管理的灵活性。
  • Gravitino Integration (#10402)
    • 引入 Gravitino 作为非关系型连接器的元数据服务,进一步增强了元数据管理能力。

2. 现有连接器功能增强

这是 PR 最密集的区域,尤其是 JDBC 和 CDC 相关组件,开发者们正在抠细节、补短板。

  • JDBC 连接器:
    • PostgreSQL COPY 支持 (#10406): 为 PG 增加了 COPY 命令支持,这将显著提升大批量数据写入的性能。
    • SapHana CHAR 类型 (#10472): 完善了对 SapHana 数据库 CHAR 类型的支持。
    • Oracle 单元测试 (#10435): 为 Oracle JDBC 增加了基于 Testcontainers 的单元测试。
  • CDC (Change Data Capture):
    • MySQL & Postgres: 修复了 MySQL 无符号类型转换 (MYSQL_SET_UNSIGNED) 和 Postgres 复制槽 (replication slot) 的创建逻辑 (#10453, #10416)。
    • Oracle & SQLServer: 增加了对 CDC 时间戳 (timestamp) 类型的支持 (#10428)。
  • Elasticsearch:
    • 增加了切片 (slicing) 支持,这意味着在处理大规模 ES 数据读取时并行度将得到大幅提升 (#10454)。
  • S3 File Source:
    • 启用了文件切分 (file split) 功能,优化了大文件读取的性能 (#10450)。

3. Zeta 核心引擎稳定性

作为 SeaTunnel 的自研引擎,Zeta 的稳定性是重中之重。

  • Checkpoint 机制 (#10448): 修复了当 Checkpoint 触发失败时任务状态未正确置为失败的问题,保证了数据一致性的严谨性。
  • 任务调度 (#10430): 优化了 WAIT 策略下的队列重调度逻辑,并修复了查询挂起任务信息时的 NPE (#10456)。
  • 内存管理 (#10418): 修复了一处核心模块的内存泄漏 (Memory leak) 问题。

4. 开发者体验与文档

  • 架构文档 (#10429): 社区正在补充架构设计文档,帮助新贡献者更好地理解系统全貌。
  • 版本发布: Release Manager 正在紧锣密鼓地准备 2.3.13 版本 (#10466)。

感谢贡献者

感谢以下开发者(按 GitHub ID 字母顺序)为 Apache SeaTunnel 社区做出的卓越贡献(基于最近 30 个 PR):

  • AshharAhmadKhan (Socket Sink 多表支持)
  • chl-wxp (Gravitino Integration)
  • CNF96 (Postgres CDC 修复)
  • corgy-w (Zeta 调度优化 & LLM 指南 & 连接验证优化)
  • CosmosNi (Elasticsearch Slicing & Checkpoint 优化)
  • davidzollo (架构文档 & Data Lineage Stain Trace)
  • dik111 (SapHana CHAR 类型支持)
  • dybyte (Zeta NPE 修复)
  • krutoileshii (Glue Catalog 凭证支持)
  • kuleat (Airtable Connector)
  • LeonYoah (Kingbase Catalog & CDC Timestamp 支持)
  • LiJie20190102 (Flink Yarn 打包优化 & 客户端解耦)
  • misi1987107 (文档链接修复)
  • MukjepScarlet (SQLServer 类型转换修复)
  • Ruiii-w (PostgreSQL COPY 支持)
  • Sephiroth1024 (Zeta Checkpoint 状态修复)
  • Suresh-Krishna-Kusuma (HubSpot Connector)
  • wgzhao (MySQL CDC Unsigned 类型支持)
  • xiaochen-zhou (Release 2.3.13 Manager)
  • yzeng1618 (JDBC XA 事务修复 & S3 File Split)
  • zhangshenghang (Core 内存泄漏修复 & File System 错误处理)
  • zooo-code (Oracle JDBC 单元测试)