大数据一锅端

大数据一锅端

大数据一锅端

详细记录大数据的踩坑，包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件，覆盖离线+实时数仓全栈。让我们一起无限进步！

等 26 人订阅共207篇文章创建于2024-10-12

大数据-189 Nginx JSON 日志接入 ELK：ZK+Kafka+Elasticsearch 7.3.0+Kibana 实战搭建

通过 Nginx 配置 log_format json 输出结构化 access_log（包含 @timestamp、request_time、status、request_uri、ua 等字段）

22天前
58
1
2

大数据-189 Nginx JSON 日志接入 ELK：ZK+Kafka+Elasticsearch 7.3.0+Kibana 实战搭建

大数据-188 Logstash Output 插件实战：stdout/file/Elasticsearch 输出配置与调优

Logstash Output 插件（Logstash 7.3.0）给出可复用的工程化落地：stdout（rubydebug）用于联调验数，file 输出用于本地归档与排障留痕

23天前
55
1
评论

大数据-188 Logstash Output 插件实战：stdout/file/Elasticsearch 输出配置与调优

大数据-187 Logstash Filter 插件实战：grok 解析控制台与 Nginx 日志（7.3.0 配置可复用）

在 Logstash 7.3.0 环境下，用 grok 从控制台 stdin 与 Nginx 访问日志中提取结构化字段（IP、time_local、method、request、status、body

24天前
50
1
评论

大数据-187 Logstash Filter 插件实战：grok 解析控制台与 Nginx 日志（7.3.0 配置可复用）

大数据-186 Logstash JDBC vs Syslog Input：原理、场景对比与可复用配置（基于 Logstash 7.3.0）

Logstash Input 插件对比，拆解 JDBC Input 与 Syslog 采集链路的技术差异、适用场景与关键配置。JDBC 通过 JDBC 驱动连接 MySQL 等关系型数据库

25天前
58
1
评论

大数据-186 Logstash JDBC vs Syslog Input：原理、场景对比与可复用配置（基于 Logstash 7.3.0）

大数据-185 Logstash 7 入门实战：stdin/file 采集、sincedb/start_position 机制与排障

先用 stdin{} + stdout{codec=>rubydebug} 验证 pipeline 运行链路，再切到 file{} 监听真实日志文件，解释 sincedb 如何记录读取偏移

26天前
55
1
评论

大数据-185 Logstash 7 入门实战：stdin/file 采集、sincedb/start_position 机制与排障

大数据-184 Elasticsearch Doc Values 机制详解：列式存储如何支撑排序/聚合/脚本

索引时生成的磁盘列式数据结构，面向排序、聚合与脚本取值优化；多数支持类型默认开启，text 字段默认不提供 doc values，需通过 keyword 子字段或启用 fielddata 才能聚合

27天前
65
1
评论

大数据-184 Elasticsearch Doc Values 机制详解：列式存储如何支撑排序/聚合/脚本

大数据-183 Elasticsearch - 并发冲突与乐观锁、分布式数据一致性剖析

Elasticsearch 并发冲突（库存扣减的读-改-写）拆解“写覆盖”成因，并用 ES 的乐观并发控制（Optimistic Concurrency Control, OCC）给出可复现的工程解法

28天前
64
点赞
评论

大数据-183 Elasticsearch - 并发冲突与乐观锁、分布式数据一致性剖析

大数据-182 Elasticsearch 倒排索引底层拆解：Terms 字典、FST、SkipList 与 Lucene 索引文件

Elasticsearch 倒排索引的核心数据结构展开：Terms Dictionary（词典）、Posting List（倒排表）、以及 Lucene 的 FST（有限状态转换器）与 Skip

29天前
87
3
评论

大数据-182 Elasticsearch 倒排索引底层拆解：Terms 字典、FST、SkipList 与 Lucene 索引文件

大数据-181 Elasticsearch 段合并与磁盘目录拆解：Merge Policy、Force Merge、Shard 文件结构一文搞清

解释 refresh 导致小段增多、段合并如何在后台把小段并入大段并清理已删除文档，为什么段过多会带来句柄/内存/CPU与查询开销。工程侧给出 merge 相关配置点：merge scheduler

1月前
48
1
评论

大数据-181 Elasticsearch 段合并与磁盘目录拆解：Merge Policy、Force Merge、Shard 文件结构一文搞清

大数据-180 Elasticsearch 近实时搜索：Segment、Refresh、Flush、Translog 全流程解析

Lucene Segment、Memory Buffer、File System Cache、Refresh、Flush 以及 Translog（事务日志）几个核心组件展开，解释为什么 Elastic

1月前
36
1
评论

大数据-180 Elasticsearch 近实时搜索：Segment、Refresh、Flush、Translog 全流程解析

大数据-179 Elasticsearch 倒排索引与读写流程全解析：从 Lucene 原理到 Query/Fetch 实战

Elasticsearch 中倒排索引（Inverted Index）的原理与实现，从正向索引 vs 倒排索引的差异入手，结合分词流程、Term Dictionary、Posting List 等核心

1月前
63
1
评论

大数据-179 Elasticsearch 倒排索引与读写流程全解析：从 Lucene 原理到 Query/Fetch 实战

大数据-178 Elasticsearch 7.3 Java 实战：索引与文档 CRUD 全流程示例

elasticsearch-rest-high-level-client 实现索引和文档的增删改查，包括：通过 JSON 与 XContentBuilder 两种方式创建索引、配置分片与副本、删除索引

1月前
54
1
评论

大数据-178 Elasticsearch 7.3 Java 实战：索引与文档 CRUD 全流程示例

大数据-177 Elasticsearch 聚合实战：指标聚合 + 桶聚合完整用法与 DSL 解析

覆盖指标聚合 Metrics Aggregations 与桶聚合 Bucket Aggregations 的完整实践，适用于 2025 年常见的 Elasticsearch 7.x / 8.x 版本。

1月前
71
1
评论

大数据-177 Elasticsearch 聚合实战：指标聚合 + 桶聚合完整用法与 DSL 解析

大数据-176 Elasticsearch Filter DSL 全面实战：过滤查询、排序分页、高亮与批量操作

过滤查询与普通 query 查询的区别：Filter DSL 不参与相关度评分，只负责高效筛选，是日志分析、数据分类等场景的首选。文章通过 bool + filter + range 的组合示例

1月前
64
1
评论

大数据-176 Elasticsearch Filter DSL 全面实战：过滤查询、排序分页、高亮与批量操作

大数据-175 Elasticsearch Term 精确查询与 Bool 组合实战：range/regexp/fuzzy 全示例

term-level queries 在实战中的完整用法，包括 term、terms、range、exists、prefix、regexp、fuzzy、ids 以及 bool 复合查询。

1月前
43
1
评论

大数据-175 Elasticsearch Term 精确查询与 Bool 组合实战：range/regexp/fuzzy 全示例

大数据-174 Elasticsearch 查询 DSL 实战：match/match_phrase/query_string/multi_match 全解析

DSL 的核心用法，重点拆解 match、match_phrase、query_string、multi_match 等全文检索语句在真实业务中的差异和坑位。通过完整的索引 mapping 配置

1月前
61
2
评论

大数据-174 Elasticsearch 查询 DSL 实战：match/match_phrase/query_string/multi_match 全解析

大数据-173 Elasticsearch 映射与文档增删改查实战（基于 7.x/8.x）JSON

基于 7.x/8.x 版本环境，覆盖索引与字段映射创建、一次性建立索引+映射、映射属性（type、index、store、analyzer）、以及文档新增（手动指定 id、自动生成 id）、查询（单条

1月前
33
1
评论

大数据-173 Elasticsearch 映射与文档增删改查实战（基于 7.x/8.x）JSON

大数据-172 Elasticsearch 索引操作与 IK 分词器落地实战：7.3/8.15 全流程速查

Elasticsearch 的索引创建、存在性判断（单/多/全量）、打开/关闭/删除与健康度排查，以及 IK 分词器的安装、ik_max_word / ik_smart 分析与远程扩展词典/停用词

1月前
79
1
评论

大数据-172 Elasticsearch 索引操作与 IK 分词器落地实战：7.3/8.15 全流程速查

大数据-171 Elasticsearch-Head 与 Kibana 7.3.0 实战：安装要点、连通性与常见坑

Elasticsearch-Head 插件与 Kibana 7.3.0 的安装与连通性要点，覆盖 Chrome 扩展快速接入、ES 集群健康与分片可视化、REST API 调试、Kibana

1月前
72
1
评论

大数据-171 Elasticsearch-Head 与 Kibana 7.3.0 实战：安装要点、连通性与常见坑

大数据-170 Elasticsearch 7.3.0 三节点集群实战：目录/参数/启动到联机

Elasticsearch 7.3.0 的可落地流程：创建 /opt/servers/es/{data,logs} 目录并授权 es_server，设置 vm.max_map_count=65536

1月前
68
2
评论

大数据-170 Elasticsearch 7.3.0 三节点集群实战：目录/参数/启动到联机