流式处理和批处理

分布式数据处理的演进

Spark 和 Flink 是第三代和第四代数据处理框架。

MapReduce 是第一代分布式数据处理系统。

该框架在水平扩展的分布式基础架构上处理可并行数据和计算。除了并行化和数据分发之外，MapReduce还从开发人员那里抽象出分布式系统的所有系统级复杂性，并提供容错功能。它支持批处理。

随后，一些第二代分布式处理系统框架对 MapReduce 模型进行了改进。例如，Tez 提供了交互式编程和批处理。

Spark 被认为是第三代数据处理框架，原生支持批处理和流处理。

Flink 是第四代数据处理框架，是 Apache 的顶级项目之一。

Flink 支持批处理和流处理，并且是为原生流处理而设计的。Flink促进了连续流式传输，其中一旦收到事件就会触发事件计算。

Spark和Flink中的功能集在很多方面都不同，如下表所示：

虽然 Flink 更新，但 Spark 更成熟，使用范围更广。此外，Spark 具有托管支持，并且很容易找到许多现有用例以及其他用户共享的最佳实践。

虽然 Flink 并不成熟，但它对于复杂的事件处理或原生流用例很有用，因为它提供了更好的性能、延迟和可扩展性。此外，它对窗口和状态管理有更好的支持。 Flink 能够使用原始操作完成许多需要在 Spark 中开发自定义逻辑的操作。

Spark 与 Flink 究竟哪家强？：zhuanlan.zhihu.com/p/549490227