大数据一锅端

大数据一锅端

大数据一锅端

详细记录大数据的踩坑，包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件，覆盖离线+实时数仓全栈。让我们一起无限进步！

等 20 人订阅共157篇文章创建于2024-10-12

大数据-158 Apache Kylin 3.1.1 在 Hadoop 2.9/Hive 2.3/HBase 1.3 的最小可用部署实录（含坑位与修复）

Hadoop 2.9.2、Hive 2.3.9、HBase 1.3.1、Spark 2.4.5、Apache Kylin 3.1.1 与三节点 ZooKeeper/YARN。

5小时前
12
1
评论

大数据-158 Apache Kylin 3.1.1 在 Hadoop 2.9/Hive 2.3/HBase 1.3 的最小可用部署实录（含坑位与修复）

大数据-157 Apache Kylin 全面指南：MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地

Apache Kylin 的背景、演进与工程实践，聚焦 MOLAP 方案在海量数据分析中的落地路径。核心关键词：Apache Kylin、MOLAP、Cube、Cuboid、Hive、Kafka

1天前
34
2
评论

大数据-157 Apache Kylin 全面指南：MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地

大数据-156 Apache Druid+Kafka 实时分析实战：JSON 拉平摄取与 SQL 指标全流程

Scala Kafka Producer 将订单/点击数据写入 Kafka Topic（示例 topic: druid2），在 Druid 中通过 Kafka Indexing Service

1天前
36
2
评论

大数据-156 Apache Druid+Kafka 实时分析实战：JSON 拉平摄取与 SQL 指标全流程

大数据-155 Apache Druid 存储与查询架构实战：Segment/Chunk/Roll-up/Bitmap 一文讲清

Apache Druid 的数据存储与高性能查询路径：从 DataSource/Chunk/Segment 的分层，到列式存储、Roll-up 预聚合、Bitmap 索引、mmap 文件映射、查询

3天前
31
2
评论

大数据-155 Apache Druid 存储与查询架构实战：Segment/Chunk/Roll-up/Bitmap 一文讲清

大数据-154 Apache Druid 架构与组件职责全解析版本架构：Coordinator/Overlord/Historical 实战

Apache Druid 在 0.13.0～当前（2025）的组件职责与部署要点：Coordinator 负责历史节点 Segment 的均衡/复制与生命周期管理；Overlord 调度摄入任务

4天前
25
2
评论

大数据-154 Apache Druid 架构与组件职责全解析版本架构：Coordinator/Overlord/Historical 实战

大数据-153 Apache Druid 实时接入 Kafka：从摄取到查询的完整实战

「Kafka→Apache Druid」的实时摄取实战：以网络流量 JSON 为例，通过 Druid 控制台的 Streaming/Kafka 向导完成接入、解析时间列（ts→__time）、设定维度

5天前
25
3
评论

大数据-153 Apache Druid 实时接入 Kafka：从摄取到查询的完整实战

大数据-152 Apache Druid 集群模式 [下篇] 低内存集群实操：JVM/DirectMemory与启动脚本

三台节点上落地 Apache Druid 30.0.0 的低内存集群实践：给出 Broker/Historical/Router 的 JVM 参数（-Xms/-Xmx 与 -XX:MaxDirectM

6天前
34
2
评论

大数据-152 Apache Druid 集群模式 [下篇] 低内存集群实操：JVM/DirectMemory与启动脚本

大数据-151 Apache Druid 集群落地 [上篇] MySQL 元数据 + HDFS 深存与低配调优

Apache Druid 30.0.0 的可落地方案，覆盖 MySQL 元数据存储（mysql-connector-java 8.0.19）、HDFS 深度存储与 HDFS 上的 indexing

7天前
25
2
评论

大数据-151 Apache Druid 集群落地 [上篇] MySQL 元数据 + HDFS 深存与低配调优

大数据-150 Apache Druid 单机部署实战：架构速览、启动清单与故障速修

Apache Druid 30.0.0，面向单机快速验证与工程落地，系统梳理 Druid 架构（Coordinator、Historical、Broker、Ingestion、Deep Storage

8天前
33
1
评论

大数据-150 Apache Druid 单机部署实战：架构速览、启动清单与故障速修

大数据-149 Apache Druid 实时 OLAP 架构与选型要点

Apache Druid 的实时 OLAP 实战：适合以时间为主键的事件明细、亚秒级聚合与高并发自助分析。Druid 采用列式存储与时间分区，核心组件包括 Broker、Historical、Midd

9天前
45
1
评论

大数据-149 Apache Druid 实时 OLAP 架构与选型要点

大数据-148 Flink 写入 Kudu 实战：自定义 Sink 全流程（Flink 1.11/Kudu 1.17/Java 11）

Kudu 的完整可运行示例，基于 Flink 1.11.1（Scala 2.12）/Java 11 与 kudu-client 1.17.0（2025 实测）。通过 RichSinkFunction

10天前
52
1
评论

大数据-148 Flink 写入 Kudu 实战：自定义 Sink 全流程（Flink 1.11/Kudu 1.17/Java 11）

大数据-147 Java 访问 Apache Kudu：从建表到 CRUD（含 KuduSession 刷新模式与多 Master 配置）

Java 客户端（kudu-client 1.4.0）连接 Apache Kudu 多 Master（示例端口 7051/7151/7251），完成建表、插入、查询、更新、删除全流程

10天前
53
2
评论

大数据-147 Java 访问 Apache Kudu：从建表到 CRUD（含 KuduSession 刷新模式与多 Master 配置）

大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群启动测试

Apache Kudu 在 Ubuntu 22.04 云主机上的 Docker Compose 快速部署方案，覆盖 Kudu Master 与 Tablet Server 组件、KUDU_MASTER

12天前
21
1
评论

大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群启动测试

大数据-145 Apache Kudu 架构与实战：RowSet、分区与 Raft 全面解析

Apache Kudu 的 Master/TabletServer 架构、RowSet（MemRowSet/DiskRowSet）写读路径、MVCC、以及 Raft 共识在副本与故障切换中的作用

13天前
21
1
评论

大数据-145 Apache Kudu 架构与实战：RowSet、分区与 Raft 全面解析

大数据-144 Apache Kudu：实时写 + OLAP 的架构、性能与集成

Apache Kudu 在 2025 年的版本与生态集成：最新 Kudu 1.18.0（2025/07）上线，带来分段 LRU Block Cache 与基于 RocksDB 的元数据存储（实验特性）

15天前
59
1
评论

大数据-144 Apache Kudu：实时写 + OLAP 的架构、性能与集成

大数据-143 ClickHouse 实战MergeTree 分区/TTL、物化视图、ALTER 与 system.parts 全流程示例

ClickHouse 初学与运维实战，基于真实集群（h121/h122/h123）演示从连接到建库建表的完整流程，系统讲解 MergeTree 的 ORDER BY/PRIMARY KEY/PARTI

16天前
65
1
评论

大数据-143 ClickHouse 实战MergeTree 分区/TTL、物化视图、ALTER 与 system.parts 全流程示例

大数据-142 ClickHouse分片×副本×Distributed 实战 ReplicatedMergeTree、Keeper、insert_quorum

ClickHouse 分片×副本×Distributed 架构：基于 ReplicatedMergeTree + Distributed，在 3 分片×2 副本集群上用 ON CLUSTER

17天前
76
1
评论

大数据-142 ClickHouse分片×副本×Distributed 实战 ReplicatedMergeTree、Keeper、insert_quorum

大数据-141 ClickHouse 副本实战 | ReplicatedMergeTree + ZooKeeper 从 0–1：创建、选举、日志复制、排障

ClickHouse 副本全链路：ZK/Keeper 准备、macros 宏配置、集群 ON CLUSTER 一致建表、写入去重与复制机制、system.* 视图健康检查、insert_quorum

19天前
46
1
评论

大数据-141 ClickHouse 副本实战 | ReplicatedMergeTree + ZooKeeper 从 0–1：创建、选举、日志复制、排障

大数据-140 ClickHouse CollapsingMergeTree详解外部数据源最小闭环HDFS/MySQL/Kafka

ClickHouse 外部数据源引擎的最小可行方案：ENGINE=HDFS、ENGINE=MySQL、ENGINE=Kafka 的 DDL 模板、关键参数与读写链路。示范 Kafka→Material

20天前
34
2
评论

大数据-140 ClickHouse CollapsingMergeTree详解外部数据源最小闭环HDFS/MySQL/Kafka

大数据-139 ClickHouse MergeTree 最佳实践：Replacing 去重、Summing 求和、分区设计与物化视图替代方案

ClickHouse 两大轻聚合引擎 ReplacingMergeTree 与 SummingMergeTree，结合最小可运行示例（MRE）与对照查询，解释为何去重/求和仅在合并阶段生效

20天前
53
2
评论

大数据-139 ClickHouse MergeTree 最佳实践：Replacing 去重、Summing 求和、分区设计与物化视图替代方案