BitSail 是一个分布式高性能数据集成引擎,支持批处理、流式和增量场景

476 阅读2分钟

BitSail 是一个分布式高性能数据集成引擎,支持批处理、流式和增量场景。BitSail 被广泛用于每天同步数百万亿的数据。

github.com/bytedance/b…

介绍

BitSail是字节跳动开源的基于分布式架构的高性能数据集成引擎。支持多个异构数据源之间的数据同步,提供批量、流式、增量场景下的全局数据集成解决方案。目前,它服务于字节跳动的几乎所有业务线,如抖音、今日头条等,每天同步数百万亿数据。

为什么我们使用 BitSail

BitSail 已被广泛使用并支持数百万亿的大流量。同时在火山引擎云原生环境、本地私有云环境等多种场景下得到验证。

我们积累了很多经验,做了多项优化,提升了数据整合的功能

  • 全局数据集成,涵盖批处理、流式和增量场景
  • 分布式云原生架构,支持横向扩展
  • 在准确性、稳定性和性能方面成熟度高
  • 丰富的基础功能,如类型转换、脏数据处理、流量控制、数据湖集成、自动并行计算等。
  • 任务运行状态监控,如流量、QPS、脏数据、延迟等。

BitSail 使用场景

  • 异构数据源中的海量数据同步
  • 流和批集成数据处理能力
  • 数据湖与仓库一体化数据处理能力
  • 高性能、高可靠的数据同步
  • 分布式、云原生架构数据集成引擎

比特帆的特点

  • 低启动成本和高灵活性
  • 流批一体化和数据湖仓一体化架构,一个框架覆盖几乎所有数据同步场景
  • 高性能、海量数据处理能力
  • DDL 自动同步
  • 类型系统,不同数据源类型之间的转换
  • 引擎独立读写接口,开发成本低
  • 实时显示任务进度,正在开发中
  • 实时监控任务状态

BitSail的架构

img

Source[Input Sources] -> Framework[Data Transmission] -> Sink[Output Sinks]

数据处理流水线如下。首先通过Input Sources拉取源数据,然后通过中间框架层进行处理,最后通过Output Sinks将数据写入目标

在框架层,我们提供了丰富的功能并对所有同步场景生效,例如脏数据收集、自动并行计算、任务监控等。

在数据同步场景下,涵盖批量、流式、增量数据同步

在Runtime层,支持yarn、local等多种执行模式,k8s正在开发中

支持的连接器

数据源子模块读者作家
蜂巢-
Hadoop-
Hbase-
坏的-
卡夫卡-
RocketMQ-
雷迪斯-
多丽丝-
MongoDB-
JDBCMySQL
甲骨文
PostgreSQL
SqlServer
伪造的-
FTP/SFTP-
打印-

连接器文档。