大数据一锅端

大数据一锅端

大数据一锅端

详细记录大数据的踩坑，包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件，覆盖离线+实时数仓全栈。让我们一起无限进步！

等 37 人订阅共275篇文章创建于2024-10-12

大数据-177 Elasticsearch 聚合实战：指标聚合 + 桶聚合完整用法与 DSL 解析

覆盖指标聚合 Metrics Aggregations 与桶聚合 Bucket Aggregations 的完整实践，适用于 2025 年常见的 Elasticsearch 7.x / 8.x 版本。

5月前
192
1
评论

大数据-177 Elasticsearch 聚合实战：指标聚合 + 桶聚合完整用法与 DSL 解析

大数据-176 Elasticsearch Filter DSL 全面实战：过滤查询、排序分页、高亮与批量操作

过滤查询与普通 query 查询的区别：Filter DSL 不参与相关度评分，只负责高效筛选，是日志分析、数据分类等场景的首选。文章通过 bool + filter + range 的组合示例

5月前
138
1
评论

大数据-176 Elasticsearch Filter DSL 全面实战：过滤查询、排序分页、高亮与批量操作

大数据-175 Elasticsearch Term 精确查询与 Bool 组合实战：range/regexp/fuzzy 全示例

term-level queries 在实战中的完整用法，包括 term、terms、range、exists、prefix、regexp、fuzzy、ids 以及 bool 复合查询。

5月前
84
1
评论

大数据-175 Elasticsearch Term 精确查询与 Bool 组合实战：range/regexp/fuzzy 全示例

大数据-174 Elasticsearch 查询 DSL 实战：match/match_phrase/query_string/multi_match 全解析

DSL 的核心用法，重点拆解 match、match_phrase、query_string、multi_match 等全文检索语句在真实业务中的差异和坑位。通过完整的索引 mapping 配置

5月前
179
2
评论

大数据-174 Elasticsearch 查询 DSL 实战：match/match_phrase/query_string/multi_match 全解析

大数据-173 Elasticsearch 映射与文档增删改查实战（基于 7.x/8.x）JSON

基于 7.x/8.x 版本环境，覆盖索引与字段映射创建、一次性建立索引+映射、映射属性（type、index、store、analyzer）、以及文档新增（手动指定 id、自动生成 id）、查询（单条

5月前
116
1
评论

大数据-173 Elasticsearch 映射与文档增删改查实战（基于 7.x/8.x）JSON

大数据-172 Elasticsearch 索引操作与 IK 分词器落地实战：7.3/8.15 全流程速查

Elasticsearch 的索引创建、存在性判断（单/多/全量）、打开/关闭/删除与健康度排查，以及 IK 分词器的安装、ik_max_word / ik_smart 分析与远程扩展词典/停用词

5月前
190
1
评论

大数据-172 Elasticsearch 索引操作与 IK 分词器落地实战：7.3/8.15 全流程速查

大数据-171 Elasticsearch-Head 与 Kibana 7.3.0 实战：安装要点、连通性与常见坑

Elasticsearch-Head 插件与 Kibana 7.3.0 的安装与连通性要点，覆盖 Chrome 扩展快速接入、ES 集群健康与分片可视化、REST API 调试、Kibana

5月前
201
1
评论

大数据-171 Elasticsearch-Head 与 Kibana 7.3.0 实战：安装要点、连通性与常见坑

大数据-170 Elasticsearch 7.3.0 三节点集群实战：目录/参数/启动到联机

Elasticsearch 7.3.0 的可落地流程：创建 /opt/servers/es/{data,logs} 目录并授权 es_server，设置 vm.max_map_count=65536

5月前
163
2
评论

大数据-170 Elasticsearch 7.3.0 三节点集群实战：目录/参数/启动到联机

大数据-169 Elasticsearch 入门到可用：索引/文档 CRUD 与搜索最小示例

Elasticsearch（ES 7.x/8.x）最小示例：创建索引、插入文档、按 ID 查询、更新与 _search 搜索流程，配合返回样例与截图，帮助读者在 3–10 分钟内完成「索引/文档

5月前
93
1
评论

大数据-169 Elasticsearch 入门到可用：索引/文档 CRUD 与搜索最小示例

大数据-167 ELK Elastic Stack(ELK) 实战：架构要点、索引与排错清单

Elasticsearch 8.x、Logstash 8.x、Kibana 8.x 的核心能力与常见实践，覆盖集中式日志系统的采集、传输、索引、分片/副本、查询 DSL、聚合与 ILM 生命周期管理等

6月前
150
1
评论

大数据-167 ELK Elastic Stack(ELK) 实战：架构要点、索引与排错清单

大数据-166 Apache Kylin 1.6 Streaming Cubing 实战：Kafka 到分钟级 OLAP

Kafka→Kylin 的实时 OLAP 链路，面向 2025 年常见业务（电商交易、用户行为、IoT 监控）提供分钟级聚合查询。核心做法：使用 TimedJsonStreamParser 解析三段式

6月前
146
1
评论

大数据-166 Apache Kylin 1.6 Streaming Cubing 实战：Kafka 到分钟级 OLAP

大数据-165 Apache Kylin Cube7 实战：聚合组/RowKey/编码与体积精度对比

覆盖 Aggregation Group（聚合组）、Mandatory Dimension（强制维度）、Hierarchy（层级维度）、Joint（联合维度）的使用取舍，并结合 CubeStats

6月前
127
1
评论

大数据-165 Apache Kylin Cube7 实战：聚合组/RowKey/编码与体积精度对比

大数据-164 Apache Kylin Cuboid 剪枝实战：Derived 维度与膨胀率控制

Cuboid 剪枝优化：当维度较多时，Cuboid 数量指数级增长，导致构建时间长与存储膨胀。我们给出工程化做法：通过 CubeStatsReader 命令核查已物化 Cuboid 的行数

6月前
102
1
评论

大数据-164 Apache Kylin Cuboid 剪枝实战：Derived 维度与膨胀率控制

大数据-163 Apache Kylin Segment 合并实战：手动/自动合并、保留策略与 JDBC 示例

包括手动合并（MERGE Job 提交流程、连续 Segment 要求）、自动合并（Auto Merge Thresholds 多级阈值策略与触发时机）、保留策略Retention Threshol

6月前
119
1
评论

大数据-163 Apache Kylin Segment 合并实战：手动/自动合并、保留策略与 JDBC 示例

大数据-162 Apache Kylin 增量 Cube 与 Segment 实战：按天分区增量构建指南

以 Hive 分区表的日期字段作为 Partition Date Column，将 Cube 拆分为多个 Segment，按区间增量构建，避免对历史数据的重复计算；并对比全量构建与增量构建在查询路径上

6月前
68
1
评论

大数据-162 Apache Kylin 增量 Cube 与 Segment 实战：按天分区增量构建指南

大数据-161 Apache Kylin Cube 实战：建模、构建与查询加速完整指南

Apache Kylin 4.0 的 Cube 建模与查询加速方法：围绕事实表与维度表完成星型建模，设计维度与度量，利用 Aggregation Group、层级维度、联合维度、必要维度等策略减少

6月前
192
1
评论

大数据-161 Apache Kylin Cube 实战：建模、构建与查询加速完整指南

大数据-160 Apache Kylin Cube 实战：从建模到构建与查询（含踩坑与优化）

Apache Kylin（3.x/4.x）Cube 的搭建与优化：从 DataSource → Model → Cube 的完整流程，覆盖维度建模、度量设计、Cuboid 预计算、Aggregatio

6月前
146
1
评论

大数据-160 Apache Kylin Cube 实战：从建模到构建与查询（含踩坑与优化）

大数据-159 Apache Kylin Cube 实战：Hive 装载与预计算加速（含 Cuboid/实时 OLAP，Kylin 4.x）

OLAP 示例：用 Python 生成维度与事实数据，经 Hive（wzk_kylin）装载后，在 Kylin 侧设计 Cube（维度/度量/Cuboid），并给出分组聚合 SQL 的验证结果。

6月前
140
1
评论

大数据-159 Apache Kylin Cube 实战：Hive 装载与预计算加速（含 Cuboid/实时 OLAP，Kylin 4.x）

大数据-158 Apache Kylin 3.1.1 在 Hadoop 2.9/Hive 2.3/HBase 1.3 的最小可用部署实录（含坑位与修复）

Hadoop 2.9.2、Hive 2.3.9、HBase 1.3.1、Spark 2.4.5、Apache Kylin 3.1.1 与三节点 ZooKeeper/YARN。

6月前
179
1
评论

大数据-158 Apache Kylin 3.1.1 在 Hadoop 2.9/Hive 2.3/HBase 1.3 的最小可用部署实录（含坑位与修复）

大数据-157 Apache Kylin 全面指南：MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地

Apache Kylin 的背景、演进与工程实践，聚焦 MOLAP 方案在海量数据分析中的落地路径。核心关键词：Apache Kylin、MOLAP、Cube、Cuboid、Hive、Kafka

6月前
190
2
评论

大数据-157 Apache Kylin 全面指南：MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地