大数据一锅端

大数据一锅端

大数据一锅端

详细记录大数据的踩坑，包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件，覆盖离线+实时数仓全栈。让我们一起无限进步！

等 20 人订阅共157篇文章创建于2024-10-12

大数据-118 - Flink 批处理 DataSet API 全面解析：应用场景、代码示例与优化机制

Flink 的 DataSet API 是批处理的核心编程接口，专为处理静态、有限数据集设计，支持 TB 级甚至 PB 级大数据分析。相比 DataStream API 的流处理

1月前
121
5
2

大数据-118 - Flink 批处理 DataSet API 全面解析：应用场景、代码示例与优化机制

大数据-117 - Flink JDBC Sink 详细解析：MySQL 实时写入、批处理优化与最佳实践写出Kafka

JDBC Sink 是最常用的数据输出组件之一，常用于将流处理与批处理结果写入 MySQL、PostgreSQL、Oracle 等关系型数据库。通过 JdbcSink.sink() 方法，开发者

1月前
145
3
2

大数据-117 - Flink JDBC Sink 详细解析：MySQL 实时写入、批处理优化与最佳实践写出Kafka

大数据-116 - Flink Sink 使用指南：类型、容错语义与应用场景多种输出方式与落地实践

Flink 的 Sink 是数据流处理的最终输出端，用于将处理结果写入外部系统或存储介质。它是流式应用的终点，决定数据如何被保存、传输或消费。Sink 具备数据输出、容错性和可扩展性等特点

1月前
87
2
评论

大数据-116 - Flink Sink 使用指南：类型、容错语义与应用场景多种输出方式与落地实践

大数据-115 - Flink DataStream Transformation Map、FlatMap、Filter 到 Window 的全面讲解

Flink 针对 DataStream 提供了丰富的算子，支持数据流在不同场景下的灵活处理。常见的算子包括 Map、FlatMap 和 Filter，用于元素转换、拆分与条件筛选；KeyBy

1月前
102
1
评论

大数据-115 - Flink DataStream Transformation Map、FlatMap、Filter 到 Window 的全面讲解

大数据-114 Flink DataStreamAPI 从 SourceFunction 到 RichSourceFunction 源函数的增强与实战

RichSourceFunction 和 RichParallelSourceFunction 是功能增强型的源函数，适用于需要复杂逻辑和资源管理的场景。相比基础的 SourceFunction

1月前
63
1
评论

大数据-114 Flink DataStreamAPI 从 SourceFunction 到 RichSourceFunction 源函数的增强与实战

大数据-113 Flink 源算子详解：非并行源（Non-Parallel Source）的原理与应用场景

非并行源（Non-Parallel Source）**是一种特殊的数据源操作，其并行度始终固定为 1。无论集群规模如何，它都只能在单一实例中运行，确保任务按顺序处理。非并行源的主要特点包括：单线程执行

1月前
145
1
评论

大数据-113 Flink 源算子详解：非并行源（Non-Parallel Source）的原理与应用场景

大数据-112 Flink DataStream API ：数据源、转换与输出文件、Socket 到 Kafka 的完整流程

DataSource、Transformation 和 Sink。DataSource 提供多样化的数据输入方式，包括文件系统、消息队列、数据库及自定义数据源；Transformation

1月前
66
1
评论

大数据-112 Flink DataStream API ：数据源、转换与输出文件、Socket 到 Kafka 的完整流程

大数据-111 Flink 安装部署 On YARN 部署全流程详解：环境变量、配置与资源申请

在 YARN 模式下部署 Flink 需要完成一系列环境配置和集群管理操作。首先，在各节点配置环境变量，包括 HADOOP_CONF_DIR、YARN_CONF_DIR 和 HADOOP_CLASSP

1月前
74
1
评论

大数据-111 Flink 安装部署 On YARN 部署全流程详解：环境变量、配置与资源申请

大数据-110 Flink 安装与部署指南支持 Local/Standalone/YARN 的多种模式

Flink 提供多种安装模式以适应不同场景需求。Local 模式适合个人学习与小规模调试，配置简单，可直接在本地 IDE 中运行。Standalone 模式是 Flink 内置的集群管理方式

1月前
107
2
评论

大数据-110 Flink 安装与部署指南支持 Local/Standalone/YARN 的多种模式

大数据-109 Flink 架构深度解析：JobManager、TaskManager 与核心角色全景图

Flink 的运行架构采用典型的 Master/Slave 模式，各核心组件分工明确。JobManager 作为 Master，负责作业的解析、调度、检查点协调以及故障恢复，同时支持高可用设计和多种作

1月前
191
2
评论

大数据-109 Flink 架构深度解析：JobManager、TaskManager 与核心角色全景图

大数据-108 Flink 流批一体化入门：概念解析与WordCount代码实践批数据+流数据

Apache Flink 既支持流处理（Stream Processing），也支持批处理（Batch Processing）。流处理适用于实时数据，如传感器、日志或交易流，特点是处理无界数据流、支持

1月前
82
2
评论

大数据-108 Flink 流批一体化入门：概念解析与WordCount代码实践批数据+流数据

大数据-107 Flink Apache Flink 入门全解：流批一体的实时计算引擎从起源到技术特点的全面解析

Apache Flink 是一个开源的大数据流处理框架，支持无界流和有界批数据的高效计算，以“流批一体”为核心理念，将批处理视为流处理的特例。其具备高性能、分布式执行和弹性扩展能力，能够在 YARN、

1月前
187
2
1

大数据-107 Flink Apache Flink 入门全解：流批一体的实时计算引擎从起源到技术特点的全面解析

大数据-106 Spark Graph X案例：1图计算、2连通图算法、3寻找相同用户高效分区、负载均衡与迭代优化

合理选择分区策略可显著降低网络通信开销、避免数据倾斜，并提升迭代计算效率。GraphX 提供了多种分区方式：边分区（默认，简单但可能产生倾斜）、顶点分区（适合顶点度不均匀的图）、以及 2D 分区（能有

1月前
340
1
评论

大数据-106 Spark Graph X案例：1图计算、2连通图算法、3寻找相同用户高效分区、负载均衡与迭代优化

大数据-105 Spark GraphX 入门详解：分布式图计算框架全面解析架构、算法与应用场景

属性图为核心，支持顶点和边的任意属性类型，能灵活表达复杂关系。GraphX 提供丰富的图操作，包括顶点和边的映射、子图提取以及聚合计算，并通过 Pregel API 实现迭代式图计算模型，适合大规模并

1月前
69
1
评论

大数据-105 Spark GraphX 入门详解：分布式图计算框架全面解析架构、算法与应用场景

大数据-104 Spark Streaming 与 Kafka 集成：Offset 管理机制详解与最佳实践 Scala实现

Offset 用于标记 Kafka 分区内消息的位置，正确管理能够实现“至少一次”甚至“仅一次”的数据处理语义。通过持久化 Offset，应用在故障恢复时可从上次处理的位置继续消费，避免消息丢失或重复

1月前
61
1
评论

大数据-104 Spark Streaming 与 Kafka 集成：Offset 管理机制详解与最佳实践 Scala实现

大数据-103 Spark Streaming 消费 Kafka：Offset 获取、存储与恢复详解

Spark Streaming 集成 Kafka 时，Offset 管理是保证数据处理连续性与一致性的关键环节。Offset 用于标记消息在分区中的位置，应用可通过它来控制消费进度。若在程序异常退出前

1月前
59
1
评论

大数据-103 Spark Streaming 消费 Kafka：Offset 获取、存储与恢复详解

大数据-102 Spark Streaming 与 Kafka 集成全解析：Receiver 与 Direct 两种方式详解附代码案例

早期 Kafka-0.8 接口基于 Receiver Approach，通过 Executor 上的 Receiver 持续接收数据，并依赖 BlockManager 管理数据块。该方式实现简单

2月前
102
2
评论

大数据-102 Spark Streaming 与 Kafka 集成全解析：Receiver 与 Direct 两种方式详解附代码案例

大数据-101 Spark Streaming 有状态转换详解：窗口操作与状态跟踪实战附多案例代码

窗口操作通过设置窗口长度（windowDuration）和滑动间隔（slideDuration），在比 batchDuration 更长的时间范围内整合多个批次的数据，实现动态的流式计算。

2月前
68
1
评论

大数据-101 Spark Streaming 有状态转换详解：窗口操作与状态跟踪实战附多案例代码

大数据-100 Spark DStream 转换操作全面总结：map、reduceByKey 到 transform 的实战案例

DStream 的转换操作是 Spark Streaming 的核心，分为无状态（stateless）和有状态（stateful）两类。无状态操作如 map、flatMap、filter、reduce

2月前
64
1
评论

大数据-100 Spark DStream 转换操作全面总结：map、reduceByKey 到 transform 的实战案例

大数据-99 Spark Streaming 数据源全面总结：原理、应用文件流、Socket、RDD队列流

Spark Streaming 提供多种数据源以满足不同场景下的实时处理需求。文件系统数据源可持续监控目录并处理新文件，适合日志分析与报表处理；Socket 流通过 TCP 套接字接收文本数据

2月前
85
1
评论

大数据-99 Spark Streaming 数据源全面总结：原理、应用文件流、Socket、RDD队列流