首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 26 人订阅
共209篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-150 Apache Druid 单机部署实战:架构速览、启动清单与故障速修
Apache Druid 30.0.0,面向单机快速验证与工程落地,系统梳理 Druid 架构(Coordinator、Historical、Broker、Ingestion、Deep Storage
大数据-149 Apache Druid 实时 OLAP 架构与选型要点
Apache Druid 的实时 OLAP 实战:适合以时间为主键的事件明细、亚秒级聚合与高并发自助分析。Druid 采用列式存储与时间分区,核心组件包括 Broker、Historical、Midd
大数据-148 Flink 写入 Kudu 实战:自定义 Sink 全流程(Flink 1.11/Kudu 1.17/Java 11)
Kudu 的完整可运行示例,基于 Flink 1.11.1(Scala 2.12)/Java 11 与 kudu-client 1.17.0(2025 实测)。通过 RichSinkFunction
大数据-147 Java 访问 Apache Kudu:从建表到 CRUD(含 KuduSession 刷新模式与多 Master 配置)
Java 客户端(kudu-client 1.4.0)连接 Apache Kudu 多 Master(示例端口 7051/7151/7251),完成 建表、插入、查询、更新、删除 全流程
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
Apache Kudu 在 Ubuntu 22.04 云主机上的 Docker Compose 快速部署方案,覆盖 Kudu Master 与 Tablet Server 组件、KUDU_MASTER
大数据-145 Apache Kudu 架构与实战:RowSet、分区与 Raft 全面解析
Apache Kudu 的 Master/TabletServer 架构、RowSet(MemRowSet/DiskRowSet) 写读路径、MVCC、以及 Raft 共识 在副本与故障切换中的作用
大数据-144 Apache Kudu:实时写 + OLAP 的架构、性能与集成
Apache Kudu 在 2025 年的版本与生态集成:最新 Kudu 1.18.0(2025/07)上线,带来分段 LRU Block Cache 与基于 RocksDB 的元数据存储(实验特性)
大数据-143 ClickHouse 实战MergeTree 分区/TTL、物化视图、ALTER 与 system.parts 全流程示例
ClickHouse 初学与运维实战,基于真实集群(h121/h122/h123)演示从连接到建库建表的完整流程,系统讲解 MergeTree 的 ORDER BY/PRIMARY KEY/PARTI
大数据-142 ClickHouse分片×副本×Distributed 实战 ReplicatedMergeTree、Keeper、insert_quorum
ClickHouse 分片×副本×Distributed 架构:基于 ReplicatedMergeTree + Distributed,在 3 分片×2 副本 集群上用 ON CLUSTER
大数据-141 ClickHouse 副本实战 | ReplicatedMergeTree + ZooKeeper 从 0–1:创建、选举、日志复制、排障
ClickHouse 副本全链路:ZK/Keeper 准备、macros 宏配置、集群 ON CLUSTER 一致建表、写入去重与复制机制、system.* 视图健康检查、insert_quorum
大数据-140 ClickHouse CollapsingMergeTree详解 外部数据源最小闭环HDFS/MySQL/Kafka
ClickHouse 外部数据源引擎的最小可行方案:ENGINE=HDFS、ENGINE=MySQL、ENGINE=Kafka 的 DDL 模板、关键参数与读写链路。示范 Kafka→Material
大数据-139 ClickHouse MergeTree 最佳实践:Replacing 去重、Summing 求和、分区设计与物化视图替代方案
ClickHouse 两大轻聚合引擎 ReplacingMergeTree 与 SummingMergeTree,结合最小可运行示例(MRE)与对照查询,解释为何去重/求和仅在合并阶段生效
大数据-138 ClickHouse MergeTree 实战详解|分区裁剪 × 稀疏主键索引 × marks 标记 × 压缩
ClickHouse MergeTree 的存储与查询路径:列式文件(*.bin)、稀疏主键索引(primary.idx)、标记文件(.mrk/.mrk2)与 index_granularity
大数据-137 ClickHouse MergeTree 实战指南|分区、稀疏索引与合并机制 存储结构 一级索引 跳数索引
ClickHouse MergeTree 的关键机制:批量写入形成 part、后台合并(Compact/Wide 两种 part 形态)、ORDER BY 即稀疏主索引、index_granulari
大数据-136 - ClickHouse 集群 表引擎详解 选型实战:TinyLog/Log/StripeLog/Memory/Merge
梳理 ClickHouse 表引擎:TinyLog、Log、StripeLog、Memory、Merge 的原理、适用与坑点,并给出可复制的最小可运行示例(MRE)
大数据-135 ClickHouse 集群连通性自检 + 数据类型避坑实战|10 分钟跑通 ON CLUSTER
先完成集群连通性自检:system.clusters 校验 → ON CLUSTER 创建 ReplicatedMergeTree/Distributed,然后研究ClickHouse各种数据类型
大数据-134 ClickHouse 单机+集群节点落地手册 | 安装配置 | systemd 管理 / config.d
官方推荐的 keyring + signed-by 在 Ubuntu 安装 ClickHouse,并用 systemd 启动与自检;提供单机与集群多节点的最小示例。
大数据-133 ClickHouse 概念与基础|为什么快?列式 + 向量化 + MergeTree 对比
面向“高并发、低延迟 OLAP”场景,本文从工程视角讲清 ClickHouse 的底层优势(列式+压缩+向量化、MergeTree 家族)、适用与不适用边界(OLAP vs 强事务)、数据建模基本法
大数据-132 Flink SQL 实战入门 | 3 分钟跑通 Table API + SQL 含 toChangelogStream 新写法
工程视角快速跑通 Flink SQL:提供现代依赖(不再使用 blink 规划器)、最小可运行示例(MRE)、Table API 与 SQL 互操作;输出使用 toChangelogStream 验证
大数据-131 Flink CEP 实战 24 小时≥5 次交易 & 10 分钟未支付检测 案例附代码
Flink CEP(Complex Event Processing)复杂事件处理机制,结合实际案例深入讲解其在实时流式计算中的应用原理与实战实现。通过定义事件模式(Pattern)、模式流
下一页