Apache SeaTunnel 社区近期非常活跃,从最新的 PR 提交情况来看,开发者的工作重点主要集中在 2.3.13 版本发布准备、新连接器接入、Zeta 引擎稳定性增强 以及 JDBC/CDC 连接器的深度优化 上。
以下是近期 Top PR 的详细盘点与分析:
1. 新连接器与生态扩展
社区正在不断扩展 SeaTunnel 的数据集成边界,不仅关注传统的数据库,也开始接入 SaaS 和云原生服务。
- Airtable Source & Sink (#10469)
- 这是一个重磅的新增连接器,支持从在线表格工具 Airtable 读取和写入数据,极大方便了业务数据与数仓的打通。
- HubSpot Source (#10358)
- 针对 CRM 领域的扩展,增加了 HubSpot 数据源的接入结构。
- AWS Glue Catalog (#10401)
- 增加了对 Glue Catalog 的支持,特别是在 S3 环境下凭证管理的灵活性。
- Gravitino Integration (#10402)
- 引入 Gravitino 作为非关系型连接器的元数据服务,进一步增强了元数据管理能力。
2. 现有连接器功能增强
这是 PR 最密集的区域,尤其是 JDBC 和 CDC 相关组件,开发者们正在抠细节、补短板。
- JDBC 连接器:
- CDC (Change Data Capture):
- Elasticsearch:
- 增加了切片 (
slicing) 支持,这意味着在处理大规模 ES 数据读取时并行度将得到大幅提升 (#10454)。
- 增加了切片 (
- S3 File Source:
- 启用了文件切分 (
file split) 功能,优化了大文件读取的性能 (#10450)。
- 启用了文件切分 (
3. Zeta 核心引擎稳定性
作为 SeaTunnel 的自研引擎,Zeta 的稳定性是重中之重。
- Checkpoint 机制 (#10448): 修复了当 Checkpoint 触发失败时任务状态未正确置为失败的问题,保证了数据一致性的严谨性。
- 任务调度 (#10430): 优化了
WAIT策略下的队列重调度逻辑,并修复了查询挂起任务信息时的 NPE (#10456)。 - 内存管理 (#10418): 修复了一处核心模块的内存泄漏 (
Memory leak) 问题。
4. 开发者体验与文档
感谢贡献者
感谢以下开发者(按 GitHub ID 字母顺序)为 Apache SeaTunnel 社区做出的卓越贡献(基于最近 30 个 PR):
- AshharAhmadKhan (Socket Sink 多表支持)
- chl-wxp (Gravitino Integration)
- CNF96 (Postgres CDC 修复)
- corgy-w (Zeta 调度优化 & LLM 指南 & 连接验证优化)
- CosmosNi (Elasticsearch Slicing & Checkpoint 优化)
- davidzollo (架构文档 & Data Lineage Stain Trace)
- dik111 (SapHana CHAR 类型支持)
- dybyte (Zeta NPE 修复)
- krutoileshii (Glue Catalog 凭证支持)
- kuleat (Airtable Connector)
- LeonYoah (Kingbase Catalog & CDC Timestamp 支持)
- LiJie20190102 (Flink Yarn 打包优化 & 客户端解耦)
- misi1987107 (文档链接修复)
- MukjepScarlet (SQLServer 类型转换修复)
- Ruiii-w (PostgreSQL COPY 支持)
- Sephiroth1024 (Zeta Checkpoint 状态修复)
- Suresh-Krishna-Kusuma (HubSpot Connector)
- wgzhao (MySQL CDC Unsigned 类型支持)
- xiaochen-zhou (Release 2.3.13 Manager)
- yzeng1618 (JDBC XA 事务修复 & S3 File Split)
- zhangshenghang (Core 内存泄漏修复 & File System 错误处理)
- zooo-code (Oracle JDBC 单元测试)