2025 开源流处理引擎(Streaming Engine)整理

218 阅读2分钟

流处理引擎(Streaming Engine)

  • Apache Apex【Java】 - 大数据流处理与批处理的统一平台。
  • Apache Ballista【Rust】 - 基于 Apache Arrow 的分布式计算平台。
  • Apache Flink【Java】 - 高吞吐、低延迟的数据流处理系统,支持有状态计算、数据驱动的窗口语义和迭代处理。
  • Apache Samza【Scala/Java】 - 基于 Kafka(消息与存储)和 YARN(容错、隔离、安全、资源管理)的分布式流处理框架。
  • Apache Spark Streaming【Scala】 - 构建可扩展、容错的流处理应用程序的简易方案。
  • Apache Storm【Clojure/Java】 - 分布式实时计算系统,相当于流处理领域的 Hadoop。
  • Arroyo【Rust】 - 分布式流处理引擎,支持 SQL 与 Rust 管道,支持状态操作、窗口、连接、容错与恢复,基于 Timely Dataflow 模型。
  • AthenaX【Java】 - Uber 的生产级流分析框架。
  • Bytewax【Python】 - 数据并行、分布式、有状态的流处理框架。
  • CocoIndex【Rust/Python】 - 构建 AI 新鲜索引的 ETL 框架,支持实时增量更新。
  • Faust【Python】 - 将 Kafka Streams 的思想移植到 Python 的流处理库。
  • Gearpump【Scala】 - 基于 Akka 的轻量级实时分布式流引擎。
  • Hazelcast Jet【Java】 - 构建于 Hazelcast 之上的通用分布式数据处理引擎。
  • hailstorm【Haskell】 - 基于 Storm 的具有精确一次语义的分布式流处理。
  • Maki Nage【Python】 - 面向数据科学家的流处理框架,基于 Kafka 和 ReactiveX。
  • mantis【Java】 - Netflix 的实时流处理应用生态平台。
  • mupd8(muppet)【Scala/Java】 - 处理快速/流数据的 MapReduce 风格框架。
  • Numaflow【Java/Python/Go/Rust】 - Kubernetes 原生的语言无关流处理平台,具备可扩展性和成本效率。
  • Onyx【Clojure】 - 分布式、无主、高性能且容错的数据处理平台。
  • Pathway【Python】 - 支持批处理、流处理和 LLM 应用的极速数据处理引擎。
  • s4【Java】 - 通用、分布式、可扩展、容错、可插拔的平台,用于处理连续无限数据流。
  • SABER【Java/C】 - 基于窗口的 CPU/GPU 混合流处理引擎。
  • Scramjet Cloud Platform【Python/JavaScript/Node.js】 - 支持 Python、JavaScript 和 TypeScript 数据处理序列的多应用处理引擎。
  • SPQR【Java】 - 面向高容量数据流管道的动态处理框架。
  • tigon【C++/Java】 - 基于 Hadoop 和 HBase 的高吞吐实时流处理框架。
  • Teknek【Java】 - 拥有交互式原型开发 shell(SOL)的简洁优雅流处理引擎,设计用于灵活且高性能的数据处理任务。
  • Trill【.NET/C#】 - 微软研究院开发的高性能单次内存流分析引擎。
  • Wallaroo【Python】 - 快速的流处理框架,简化从原型到生产的全过程。
  • Kuiper【Golang】 - 轻量级边缘 IoT 数据分析/流处理软件,可运行在资源受限的边缘设备上。
  • RisingWave【Rust】 - 兼容 PostgreSQL 的流数据库,适用于事件驱动应用、实时 ETL、持续分析和 AI 特征存储,统一流与批处理,毫秒级响应。