首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 26 人订阅
共208篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-170 Elasticsearch 7.3.0 三节点集群实战:目录/参数/启动到联机
Elasticsearch 7.3.0 的可落地流程:创建 /opt/servers/es/{data,logs} 目录并授权 es_server,设置 vm.max_map_count=65536
大数据-169 Elasticsearch 入门到可用:索引/文档 CRUD 与搜索最小示例
Elasticsearch(ES 7.x/8.x)最小示例:创建索引、插入文档、按 ID 查询、更新与 _search 搜索流程,配合返回样例与截图,帮助读者在 3–10 分钟内完成「索引/文档
大数据-167 ELK Elastic Stack(ELK) 实战:架构要点、索引与排错清单
Elasticsearch 8.x、Logstash 8.x、Kibana 8.x 的核心能力与常见实践,覆盖集中式日志系统的采集、传输、索引、分片/副本、查询 DSL、聚合与 ILM 生命周期管理等
大数据-166 Apache Kylin 1.6 Streaming Cubing 实战:Kafka 到分钟级 OLAP
Kafka→Kylin 的实时 OLAP 链路,面向 2025 年常见业务(电商交易、用户行为、IoT 监控)提供分钟级聚合查询。核心做法:使用 TimedJsonStreamParser 解析三段式
大数据-165 Apache Kylin Cube7 实战:聚合组/RowKey/编码与体积精度对比
覆盖 Aggregation Group(聚合组)、Mandatory Dimension(强制维度)、Hierarchy(层级维度)、Joint(联合维度) 的使用取舍,并结合 CubeStats
大数据-164 Apache Kylin Cuboid 剪枝实战:Derived 维度与膨胀率控制
Cuboid 剪枝优化:当维度较多时,Cuboid 数量指数级增长,导致构建时间长与存储膨胀。我们给出工程化做法:通过 CubeStatsReader 命令核查已物化 Cuboid 的行数
大数据-163 Apache Kylin Segment 合并实战:手动/自动合并、保留策略与 JDBC 示例
包括手动合并(MERGE Job 提交流程、连续 Segment 要求)、自动合并(Auto Merge Thresholds 多级阈值策略与触发时机)、保留策略Retention Threshol
大数据-162 Apache Kylin 增量 Cube 与 Segment 实战:按天分区增量构建指南
以 Hive 分区表的日期字段作为 Partition Date Column,将 Cube 拆分为多个 Segment,按区间增量构建,避免对历史数据的重复计算;并对比全量构建与增量构建在查询路径上
大数据-161 Apache Kylin Cube 实战:建模、构建与查询加速完整指南
Apache Kylin 4.0 的 Cube 建模与查询加速方法:围绕事实表与维度表完成星型建模,设计维度与度量,利用 Aggregation Group、层级维度、联合维度、必要维度 等策略减少
大数据-160 Apache Kylin Cube 实战:从建模到构建与查询(含踩坑与优化)
Apache Kylin(3.x/4.x)Cube 的搭建与优化:从 DataSource → Model → Cube 的完整流程,覆盖维度建模、度量设计、Cuboid 预计算、Aggregatio
大数据-159 Apache Kylin Cube 实战:Hive 装载与预计算加速(含 Cuboid/实时 OLAP,Kylin 4.x)
OLAP 示例:用 Python 生成维度与事实数据,经 Hive(wzk_kylin)装载后,在 Kylin 侧设计 Cube(维度/度量/Cuboid),并给出分组聚合 SQL 的验证结果。
大数据-158 Apache Kylin 3.1.1 在 Hadoop 2.9/Hive 2.3/HBase 1.3 的最小可用部署实录(含坑位与修复)
Hadoop 2.9.2、Hive 2.3.9、HBase 1.3.1、Spark 2.4.5、Apache Kylin 3.1.1 与三节点 ZooKeeper/YARN。
大数据-157 Apache Kylin 全面指南:MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地
Apache Kylin 的背景、演进与工程实践,聚焦 MOLAP 方案在海量数据分析中的落地路径。核心关键词:Apache Kylin、MOLAP、Cube、Cuboid、Hive、Kafka
大数据-156 Apache Druid+Kafka 实时分析实战:JSON 拉平摄取与 SQL 指标全流程
Scala Kafka Producer 将订单/点击数据写入 Kafka Topic(示例 topic: druid2),在 Druid 中通过 Kafka Indexing Service
大数据-155 Apache Druid 存储与查询架构实战:Segment/Chunk/Roll-up/Bitmap 一文讲清
Apache Druid 的数据存储与高性能查询路径:从 DataSource/Chunk/Segment 的分层,到 列式存储、Roll-up 预聚合、Bitmap 索引、mmap 文件映射、查询
大数据-154 Apache Druid 架构与组件职责全解析 版本架构:Coordinator/Overlord/Historical 实战
Apache Druid 在 0.13.0~当前(2025)的组件职责与部署要点:Coordinator 负责历史节点 Segment 的均衡/复制与生命周期管理;Overlord 调度摄入任务
大数据-153 Apache Druid 实时接入 Kafka:从摄取到查询的完整实战
「Kafka→Apache Druid」的实时摄取实战:以网络流量 JSON 为例,通过 Druid 控制台的 Streaming/Kafka 向导完成接入、解析时间列(ts→__time)、设定维度
大数据-152 Apache Druid 集群模式 [下篇] 低内存集群实操:JVM/DirectMemory与启动脚本
三台节点上落地 Apache Druid 30.0.0 的低内存集群实践:给出 Broker/Historical/Router 的 JVM 参数(-Xms/-Xmx 与 -XX:MaxDirectM
大数据-151 Apache Druid 集群落地 [上篇] MySQL 元数据 + HDFS 深存与低配调优
Apache Druid 30.0.0 的可落地方案,覆盖 MySQL 元数据存储(mysql-connector-java 8.0.19)、HDFS 深度存储与 HDFS 上的 indexing
大数据-150 Apache Druid 单机部署实战:架构速览、启动清单与故障速修
Apache Druid 30.0.0,面向单机快速验证与工程落地,系统梳理 Druid 架构(Coordinator、Historical、Broker、Ingestion、Deep Storage
下一页