BitSail 是一个分布式高性能数据集成引擎,支持批处理、流式和增量场景。BitSail 被广泛用于每天同步数百万亿的数据。
介绍
BitSail是字节跳动开源的基于分布式架构的高性能数据集成引擎。支持多个异构数据源之间的数据同步,提供批量、流式、增量场景下的全局数据集成解决方案。目前,它服务于字节跳动的几乎所有业务线,如抖音、今日头条等,每天同步数百万亿数据。
为什么我们使用 BitSail
BitSail 已被广泛使用并支持数百万亿的大流量。同时在火山引擎云原生环境、本地私有云环境等多种场景下得到验证。
我们积累了很多经验,做了多项优化,提升了数据整合的功能
- 全局数据集成,涵盖批处理、流式和增量场景
- 分布式云原生架构,支持横向扩展
- 在准确性、稳定性和性能方面成熟度高
- 丰富的基础功能,如类型转换、脏数据处理、流量控制、数据湖集成、自动并行计算等。
- 任务运行状态监控,如流量、QPS、脏数据、延迟等。
BitSail 使用场景
- 异构数据源中的海量数据同步
- 流和批集成数据处理能力
- 数据湖与仓库一体化数据处理能力
- 高性能、高可靠的数据同步
- 分布式、云原生架构数据集成引擎
比特帆的特点
- 低启动成本和高灵活性
- 流批一体化和数据湖仓一体化架构,一个框架覆盖几乎所有数据同步场景
- 高性能、海量数据处理能力
- DDL 自动同步
- 类型系统,不同数据源类型之间的转换
- 引擎独立读写接口,开发成本低
- 实时显示任务进度,正在开发中
- 实时监控任务状态
BitSail的架构
Source[Input Sources] -> Framework[Data Transmission] -> Sink[Output Sinks]
数据处理流水线如下。首先通过Input Sources拉取源数据,然后通过中间框架层进行处理,最后通过Output Sinks将数据写入目标
在框架层,我们提供了丰富的功能并对所有同步场景生效,例如脏数据收集、自动并行计算、任务监控等。
在数据同步场景下,涵盖批量、流式、增量数据同步
在Runtime层,支持yarn、local等多种执行模式,k8s正在开发中
支持的连接器
| 数据源 | 子模块 | 读者 | 作家 |
|---|---|---|---|
| 蜂巢 | - | ✅ | ✅ |
| Hadoop | - | ✅ | ✅ |
| Hbase | - | ✅ | ✅ |
| 坏的 | - | ✅ | ✅ |
| 卡夫卡 | - | ✅ | ✅ |
| RocketMQ | - | ✅ | |
| 雷迪斯 | - | ✅ | |
| 多丽丝 | - | ✅ | |
| MongoDB | - | ✅ | ✅ |
| JDBC | MySQL | ✅ | ✅ |
| 甲骨文 | |||
| PostgreSQL | |||
| SqlServer | |||
| 伪造的 | - | ✅ | |
| FTP/SFTP | - | ✅ | |
| 打印 | - | ✅ |
连接器文档。