大数据一锅端

大数据一锅端

大数据一锅端

详细记录大数据的踩坑，包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件，覆盖离线+实时数仓全栈。让我们一起无限进步！

等 37 人订阅共275篇文章创建于2024-10-12

大数据-136 - ClickHouse 集群表引擎详解选型实战：TinyLog/Log/StripeLog/Memory/Merge

梳理 ClickHouse 表引擎：TinyLog、Log、StripeLog、Memory、Merge 的原理、适用与坑点，并给出可复制的最小可运行示例（MRE）

7月前
180
1
评论

大数据-136 - ClickHouse 集群表引擎详解选型实战：TinyLog/Log/StripeLog/Memory/Merge

大数据-135 ClickHouse 集群连通性自检 + 数据类型避坑实战｜10 分钟跑通 ON CLUSTER

先完成集群连通性自检：system.clusters 校验 → ON CLUSTER 创建 ReplicatedMergeTree/Distributed，然后研究ClickHouse各种数据类型

7月前
172
1
评论

大数据-135 ClickHouse 集群连通性自检 + 数据类型避坑实战｜10 分钟跑通 ON CLUSTER

大数据-134 ClickHouse 单机+集群节点落地手册 | 安装配置 | systemd 管理 / config.d

官方推荐的 keyring + signed-by 在 Ubuntu 安装 ClickHouse，并用 systemd 启动与自检；提供单机与集群多节点的最小示例。

7月前
198
2
评论

大数据-134 ClickHouse 单机+集群节点落地手册 | 安装配置 | systemd 管理 / config.d

大数据-133 ClickHouse 概念与基础｜为什么快？列式 + 向量化 + MergeTree 对比

面向“高并发、低延迟 OLAP”场景，本文从工程视角讲清 ClickHouse 的底层优势（列式+压缩+向量化、MergeTree 家族）、适用与不适用边界（OLAP vs 强事务）、数据建模基本法

7月前
295
3
评论

大数据-133 ClickHouse 概念与基础｜为什么快？列式 + 向量化 + MergeTree 对比

大数据-132 Flink SQL 实战入门 | 3 分钟跑通 Table API + SQL 含 toChangelogStream 新写法

工程视角快速跑通 Flink SQL：提供现代依赖（不再使用 blink 规划器）、最小可运行示例（MRE）、Table API 与 SQL 互操作；输出使用 toChangelogStream 验证

7月前
243
3
评论

大数据-132 Flink SQL 实战入门 | 3 分钟跑通 Table API + SQL 含 toChangelogStream 新写法

大数据-131 Flink CEP 实战 24 小时≥5 次交易 & 10 分钟未支付检测案例附代码

Flink CEP（Complex Event Processing）复杂事件处理机制，结合实际案例深入讲解其在实时流式计算中的应用原理与实战实现。通过定义事件模式（Pattern）、模式流

7月前
129
1
评论

大数据-131 Flink CEP 实战 24 小时≥5 次交易 & 10 分钟未支付检测案例附代码

大数据-130 - Flink CEP 详解 - 捕获超时事件提取全解析：从原理到完整实战代码教程恶意登录案例实现

Flink CEP 超时事件提取是流处理中的关键环节，用于在模式匹配过程中捕获超过窗口时间（within）的部分匹配事件。通过 select()、flatSelect() 和 process()

7月前
93
2
评论

大数据-130 - Flink CEP 详解 - 捕获超时事件提取全解析：从原理到完整实战代码教程恶意登录案例实现

大数据-129 - Flink CEP详解：实时流式复杂事件处理（Complex Event Processing）全解析

Flink中专用于复杂事件流实时分析的核心组件，提供完整的模式匹配框架，支持基于事件时间（Event Time）的乱序处理与高性能NFA（非确定性有限自动机）匹配机制。

7月前
383
1
评论

大数据-129 - Flink CEP详解：实时流式复杂事件处理（Complex Event Processing）全解析

大数据-128 - Flink 并行度详解：从概念到最佳实践，一文读懂任务并行执行机制代码示例与性能优化

Flink 中，并行度（Parallelism）是衡量任务并发处理能力的核心参数，决定了每个算子（Operator）可以同时运行的任务数量。合理设置并行度能显著提升作业的吞吐量与资源利用率。

7月前
210
1
评论

大数据-128 - Flink 并行度详解：从概念到最佳实践，一文读懂任务并行执行机制代码示例与性能优化

大数据-127 - Flink StateBackend详解：Memory、Fs、RocksDB 与 OperatorState 管理机制与重分配原理

Flink ManagedOperatorState用于管理无键（non-keyed）状态，实现算子在故障恢复或扩缩容时的状态一致性。开发者可通过实现CheckpointedFunction

7月前
137
1
评论

大数据-127 - Flink StateBackend详解：Memory、Fs、RocksDB 与 OperatorState 管理机制与重分配原理

大数据-126 - Flink一文搞懂有状态计算：State Backend 工作原理与性能差异详解核心原理与作用

状态存储（State Backend）是其实现有状态流计算的核心机制，决定了数据的可靠性、性能与容错性。Flink 提供三种内置存储后端：MemoryStateBackend、FsStateBacke

7月前
222
3
评论

大数据-126 - Flink一文搞懂有状态计算：State Backend 工作原理与性能差异详解核心原理与作用

大数据-125 - Flink 实时流计算中的动态逻辑更新：广播状态（Broadcast State）全解析

广播状态（Broadcast State）是 Apache Flink 中支持流式应用动态更新逻辑的重要机制，广泛应用于实时风控、用户行为分析、动态规则评估等场景。它允许低吞吐量的配置流（如规则、模型

7月前
145
1
评论

大数据-125 - Flink 实时流计算中的动态逻辑更新：广播状态（Broadcast State）全解析

大数据-124 - Flink State：Keyed State、Operator State KeyGroups 工作原理案例解析

根据是否依赖中间状态，Flink 计算可分为有状态和无状态两种类型：无状态计算（Stateless Computation）如 Map、Filter、FlatMap 等操作，每条数据独立处理，执行效率

7月前
135
2
评论

大数据-124 - Flink State：Keyed State、Operator State KeyGroups 工作原理案例解析

大数据-123 - Flink 并行度设置优先级讲解原理、配置与最佳实践从Kafka到HDFS的案例分析

一个Flink程序由多个Operator组成（Source、Transformation、Sink）。一个Operator由多个并行的Task（线程）来执行，一个Operator的并行Task（线程）

7月前
180
2
评论

大数据-123 - Flink 并行度设置优先级讲解原理、配置与最佳实践从Kafka到HDFS的案例分析

大数据-122 - Flink Watermark 全面解析：事件时间窗口、乱序处理与迟到数据完整指南

Flink 的 Watermark（水印）机制是事件时间窗口计算中最核心的概念之一，用于处理乱序事件（Out-of-Order Events）并确保窗口准确触发。它通过定义系统认为“之前事件

7月前
161
1
2

大数据-122 - Flink Watermark 全面解析：事件时间窗口、乱序处理与迟到数据完整指南

大数据-121 - Flink 时间语义详解：EventTime、ProcessingTime、IngestionTime 与 Watermark机制全解析

Watermark 是一个特殊的标志，它用于告诉 Flink 数据流中事件的进展情况。简单来说，Watermark 是 Flink 中估计的“当前时间”，表示所有早于该时间戳的事件都已经到达。

7月前
168
1
评论

大数据-121 - Flink 时间语义详解：EventTime、ProcessingTime、IngestionTime 与 Watermark机制全解析

大数据-120 - Flink滑动窗口（Sliding Window）详解：原理、应用场景与实现示例基于时间驱动&基于事件驱动

滑动窗口（Sliding Window）是Apache Flink流处理中的核心机制之一，比固定窗口更灵活，广泛应用于实时监控、异常检测、趋势分析和用户行为统计等场景。滑动窗口由两个关键参数组成

7月前
461
2
评论

大数据-120 - Flink滑动窗口（Sliding Window）详解：原理、应用场景与实现示例基于时间驱动&基于事件驱动

大数据-119 - Flink Flink 窗口(Window)全解析：Tumbling、Sliding、Session 应用场景使用详解最佳实践

Flink 的 Window 窗口机制是流处理与批处理统一架构的核心桥梁。Flink 将批处理视为流处理的特例，通过时间窗口（Tumbling、Sliding、Session）和计数窗口

7月前
160
1
评论

大数据-119 - Flink Flink 窗口(Window)全解析：Tumbling、Sliding、Session 应用场景使用详解最佳实践

大数据-118 - Flink 批处理 DataSet API 全面解析：应用场景、代码示例与优化机制

Flink 的 DataSet API 是批处理的核心编程接口，专为处理静态、有限数据集设计，支持 TB 级甚至 PB 级大数据分析。相比 DataStream API 的流处理

7月前
241
5
2

大数据-118 - Flink 批处理 DataSet API 全面解析：应用场景、代码示例与优化机制

大数据-117 - Flink JDBC Sink 详细解析：MySQL 实时写入、批处理优化与最佳实践写出Kafka

JDBC Sink 是最常用的数据输出组件之一，常用于将流处理与批处理结果写入 MySQL、PostgreSQL、Oracle 等关系型数据库。通过 JdbcSink.sink() 方法，开发者

7月前
402
3
2

大数据-117 - Flink JDBC Sink 详细解析：MySQL 实时写入、批处理优化与最佳实践写出Kafka