首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 25 人订阅
共184篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-186 Logstash JDBC vs Syslog Input:原理、场景对比与可复用配置(基于 Logstash 7.3.0)
Logstash Input 插件对比,拆解 JDBC Input 与 Syslog 采集链路的技术差异、适用场景与关键配置。JDBC 通过 JDBC 驱动连接 MySQL 等关系型数据库
大数据-185 Logstash 7 入门实战:stdin/file 采集、sincedb/start_position 机制与排障
先用 stdin{} + stdout{codec=>rubydebug} 验证 pipeline 运行链路,再切到 file{} 监听真实日志文件,解释 sincedb 如何记录读取偏移
大数据-184 Elasticsearch Doc Values 机制详解:列式存储如何支撑排序/聚合/脚本
索引时生成的磁盘列式数据结构,面向排序、聚合与脚本取值优化;多数支持类型默认开启,text 字段默认不提供 doc values,需通过 keyword 子字段或启用 fielddata 才能聚合
大数据-183 Elasticsearch - 并发冲突与乐观锁、分布式数据一致性剖析
Elasticsearch 并发冲突(库存扣减的读-改-写)拆解“写覆盖”成因,并用 ES 的乐观并发控制(Optimistic Concurrency Control, OCC)给出可复现的工程解法
大数据-182 Elasticsearch 倒排索引底层拆解:Terms 字典、FST、SkipList 与 Lucene 索引文件
Elasticsearch 倒排索引 的核心数据结构展开:Terms Dictionary(词典)、Posting List(倒排表)、以及 Lucene 的 FST(有限状态转换器) 与 Skip
大数据-181 Elasticsearch 段合并与磁盘目录拆解:Merge Policy、Force Merge、Shard 文件结构一文搞清
解释 refresh 导致小段增多、段合并如何在后台把小段并入大段并清理已删除文档,为什么段过多会带来句柄/内存/CPU与查询开销。工程侧给出 merge 相关配置点:merge scheduler
大数据-180 Elasticsearch 近实时搜索:Segment、Refresh、Flush、Translog 全流程解析
Lucene Segment、Memory Buffer、File System Cache、Refresh、Flush 以及 Translog(事务日志)几个核心组件展开,解释为什么 Elastic
大数据-179 Elasticsearch 倒排索引与读写流程全解析:从 Lucene 原理到 Query/Fetch 实战
Elasticsearch 中倒排索引(Inverted Index)的原理与实现,从正向索引 vs 倒排索引的差异入手,结合分词流程、Term Dictionary、Posting List 等核心
大数据-178 Elasticsearch 7.3 Java 实战:索引与文档 CRUD 全流程示例
elasticsearch-rest-high-level-client 实现索引和文档的增删改查,包括:通过 JSON 与 XContentBuilder 两种方式创建索引、配置分片与副本、删除索引
大数据-177 Elasticsearch 聚合实战:指标聚合 + 桶聚合完整用法与 DSL 解析
覆盖指标聚合 Metrics Aggregations 与桶聚合 Bucket Aggregations 的完整实践,适用于 2025 年常见的 Elasticsearch 7.x / 8.x 版本。
大数据-176 Elasticsearch Filter DSL 全面实战:过滤查询、排序分页、高亮与批量操作
过滤查询与普通 query 查询的区别:Filter DSL 不参与相关度评分,只负责高效筛选,是日志分析、数据分类等场景的首选。文章通过 bool + filter + range 的组合示例
大数据-175 Elasticsearch Term 精确查询与 Bool 组合实战:range/regexp/fuzzy 全示例
term-level queries 在实战中的完整用法,包括 term、terms、range、exists、prefix、regexp、fuzzy、ids 以及 bool 复合查询。
大数据-174 Elasticsearch 查询 DSL 实战:match/match_phrase/query_string/multi_match 全解析
DSL 的核心用法,重点拆解 match、match_phrase、query_string、multi_match 等全文检索语句在真实业务中的差异和坑位。通过完整的索引 mapping 配置
大数据-173 Elasticsearch 映射与文档增删改查实战(基于 7.x/8.x)JSON
基于 7.x/8.x 版本环境,覆盖索引与字段映射创建、一次性建立索引+映射、映射属性(type、index、store、analyzer)、以及文档新增(手动指定 id、自动生成 id)、查询(单条
大数据-172 Elasticsearch 索引操作与 IK 分词器落地实战:7.3/8.15 全流程速查
Elasticsearch 的索引创建、存在性判断(单/多/全量)、打开/关闭/删除与健康度排查,以及 IK 分词器 的安装、ik_max_word / ik_smart 分析与 远程扩展词典/停用词
大数据-171 Elasticsearch-Head 与 Kibana 7.3.0 实战:安装要点、连通性与常见坑
Elasticsearch-Head 插件 与 Kibana 7.3.0 的安装与连通性要点,覆盖 Chrome 扩展快速接入、ES 集群健康与分片可视化、REST API 调试、Kibana
大数据-170 Elasticsearch 7.3.0 三节点集群实战:目录/参数/启动到联机
Elasticsearch 7.3.0 的可落地流程:创建 /opt/servers/es/{data,logs} 目录并授权 es_server,设置 vm.max_map_count=65536
大数据-169 Elasticsearch 入门到可用:索引/文档 CRUD 与搜索最小示例
Elasticsearch(ES 7.x/8.x)最小示例:创建索引、插入文档、按 ID 查询、更新与 _search 搜索流程,配合返回样例与截图,帮助读者在 3–10 分钟内完成「索引/文档
大数据-167 ELK Elastic Stack(ELK) 实战:架构要点、索引与排错清单
Elasticsearch 8.x、Logstash 8.x、Kibana 8.x 的核心能力与常见实践,覆盖集中式日志系统的采集、传输、索引、分片/副本、查询 DSL、聚合与 ILM 生命周期管理等
大数据-166 Apache Kylin 1.6 Streaming Cubing 实战:Kafka 到分钟级 OLAP
Kafka→Kylin 的实时 OLAP 链路,面向 2025 年常见业务(电商交易、用户行为、IoT 监控)提供分钟级聚合查询。核心做法:使用 TimedJsonStreamParser 解析三段式
下一页