Databricks 公司今日宣布其 Lakeflow Connect 套件中的新无服务器服务 Zerobus Ingest 正式可用,该服务旨在简化和加速向 Databricks Lakehouse 的实时数据摄取。
Zerobus Ingest 允许应用程序将事件级数据直接流式传输到受治理的 Delta 表中,无需依赖 Apache Kafka 等中间消息代理。Databricks 表示,这种简化的流程减少了基础设施开销,降低了运营成本,并将延迟低至 5 秒。
Zerobus Ingest 支持数千个并发客户端,可实现向单个表的聚合吞吐量超过每秒 10 吉比特,每个连接每秒可处理高达 100 兆字节的数据。该托管服务是无服务器的,意味着它可以根据工作负载自动扩展,无需手动配置。
Zerobus 没有采用通用消息总线通常使用的、用于将事件路由到多个消费者的多接收器架构,而是采用了一种针对数据摄取优化的单接收器方法。该公司表示,这种方法减少了工程开销,消除了调整代理或监控消费者群组的需求,并大大减少了基于 Kafka 的管道通常所需的维护工作。
开发者可以使用 Google 远程过程调用和表述性状态传递应用程序编程接口,以及适用于 Python、Java、Rust、Go 和 TypeScript 的特定语言软件开发工具包与 Zerobus Ingest 集成。这使得应用程序能够以最少的代码将记录直接写入 Lakehouse,并通过公司的 Unity Catalog 进行治理。
Databricks 表示,Zerobus Ingest 最适合用于遥测和物联网数据、点击流分析、网络安全事件流以及其他场景,在这些场景中,近乎实时地访问大量数据可以提升运营洞察力。通过消除外部流层,组织可以减少与多个存储和计算资源相关的成本,同时将多组件摄取堆栈整合为一个托管服务。
该服务现已作为 Lakeflow Connect 产品组合的一部分在主流云平台上可用。FINISHED