后端 - 掘金

从零开始学Flink：Flink SQL 极简入门

无需Java/Scala代码！本文基于Flink 1.20.1版本，手把手教你在WSL2 Ubuntu环境下搭建开发环境，使用SQL Client体验实时流计算的魅力，轻松跑通第一个数据流任务。

代码匠心
39
点赞

从零开始学Flink：Flink SQL 极简入门

大数据-232 离线数仓Hive 离线数仓新增与留存计算：DWS 明细 + ADS 汇总一套跑通

离线数仓（Hive）中“新增”“留存”的口径与落地实现，给出一套可直接复用的工程化方案：先计算新增，再基于新增计算留存。核心做法是维护一张“所有信息表（id, dt）”，dt 记录

武子康
23
1

大数据-232 离线数仓Hive 离线数仓新增与留存计算：DWS 明细 + ADS 汇总一套跑通

大数据-231 离线数仓 Hive实战：DWD到DWS（日/周/月活跃会员）ADS 指标落地脚本与坑点

Hive 离线数仓口径：以“启动日志”为 DWD 明细，构建 DWS 主题汇总（dws_member_start_day / week / month），最终在 ADS 层输出活跃会员数（DAU

武子康
45
2

大数据-231 离线数仓 Hive实战：DWD到DWS（日/周/月活跃会员）ADS 指标落地脚本与坑点

大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战：UDF 取数组 + explode 展开 vs JsonSerDe 建表加载

Hive 离线数仓中的 JSON 数据处理，覆盖三类最常见需求：1）从 JSON 串中取数组字段并在 SQL 中 explode 展开；2）从 JSON 串中同时解析普通字段（json_tuple）

武子康
30
1

大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战：UDF 取数组 + explode 展开 vs JsonSerDe 建表加载

Paimon源码解读 -- Fallback Branch

Paimon Fallback Branch 机制分析一.概述 Fallback Branch（fallback分支）是 Apache Paimon 提供的一种分支读取机制，允许批处理作业在当前分支

expect7g
11
点赞

大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor：从 JSON 提取时间戳写入 HDFS 分区

Apache Flume 的离线日志采集链路，给出一套工程化落地：使用 Taildir Source 监控多个目录与多文件正则匹配，为不同目录日志注入 logtype 等 Header；通过自定义 I

武子康
28
1

大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor：从 JSON 提取时间戳写入 HDFS 分区

大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战：TAILDIR 多目录采集，按 logtime/logtype 写入 HDFS 分区

使用 TAILDIR Source 监控多个目录（start/event），通过 filegroups headers 为不同来源打上 logtype；再配合自定义 Interceptor 从日志正文

武子康
39
1

大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战：TAILDIR 多目录采集，按 logtime/logtype 写入 HDFS 分区

Galaxy比数平台功能介绍及实现原理｜得物技术

一、背景得物经过10年发展，计算任务已超10万+，数据已经超200+PB，为了降低成本，计算引擎和存储资源需要从云平台迁移到得物自建平台，计算引擎从云平台Spark迁移到自建Apache Spark

得物技术
313
5

Galaxy比数平台功能介绍及实现原理｜得物技术

大数据-226 离线数仓Flume 优化配置实战：batchSize/Channel/压缩/自定义拦截器与 OOM 修复

Flume 1.9.0 在离线数仓（日志采集→HDFS）场景的工程化优化：从 Source→Channel→Sink 全链路给出 batchSize、Memory/File Channel 的 cap

武子康
40
1

大数据-226 离线数仓Flume 优化配置实战：batchSize/Channel/压缩/自定义拦截器与 OOM 修复

大数据-224 离线数仓架构怎么选型与估算集群规模：Apache vs CDH/HDP，全组件清单+命名规范

离线数据仓库（离线数仓）总体架构设计与落地方法：框架选型对比 Apache 社区版与第三方发行版（CDH/HDP/FusionInsight），梳理数据采集（DataX/Flume/Sqoop/Log

武子康
48
1

大数据-224 离线数仓架构怎么选型与估算集群规模：Apache vs CDH/HDP，全组件清单+命名规范

大数据-222 离线数仓建模实战：事实表/维度表、三类事实表与雪花/星座模型

离线数仓建模实践，系统梳理事实表（Fact Table）与维度表（Dimension Table）的核心概念、事实类型（可加/半可加/不可加）与粒度（交易/快照/累积快照）对查询性能与可分析性的决定性

武子康
68
2

大数据-222 离线数仓建模实战：事实表/维度表、三类事实表与雪花/星座模型

大数据-221 离线数仓分层实战：ODS/DWD/DWS/DIM/ADS 怎么划，数据集市如何避免数据孤岛

（Offline Data Warehouse）在企业落地时最常见的两类问题：数据集市扩张导致的数据孤岛、以及数仓分层边界不清导致的重复计算与口径混乱，给出可执行的工程化拆解。你会看到数据集市

武子康
83
1

大数据-221 离线数仓分层实战：ODS/DWD/DWS/DIM/ADS 怎么划，数据集市如何避免数据孤岛

大数据-223 离线数仓怎么建：埋点→指标体系→主题分析任务，全链路落地指南

业务拆分（前台/运营后台/商家后台）→数据来源（启动/点击日志、下单/支付/退款等交易数据）→数据埋点（页面统计/操作统计、需求—采集—上报—清洗加工—入仓—分析—展示）→指标体系（准确/可解释/结构

武子康
44
1

大数据-223 离线数仓怎么建：埋点→指标体系→主题分析任务，全链路落地指南

大数据-229 离线数仓ODS 层实战：Hive 外部表分区加载与 JSON 解析（get_json_object/json_tuple）

离线数仓（2026）中 ODS（Operational Data Store）层的工程落地，给出 Hive 外部表（external table）+ 按天分区（partition dt）承接原始日志的

武子康
40
1

大数据-229 离线数仓ODS 层实战：Hive 外部表分区加载与 JSON 解析（get_json_object/json_tuple）

从零开始学Flink：状态管理与容错机制

本文深入解析 Apache Flink 的核心特性——状态管理与容错机制，涵盖状态类型、State Backend 选择、Checkpoint 原理及配置、以及 Savepoint 的生产实践。

代码匠心
45
点赞

从零开始学Flink：状态管理与容错机制

大数据-220 离线数仓数据仓库入门：四大特征、OLTP/OLAP差异与企业数仓架构要点

2026 年工程实践，梳理数据仓库（数仓）的核心概念与落地关注点：从企业数据孤岛出发，解释数据仓库的四大特征——面向主题（Subject Oriented）、集成（Integrated）、相对稳定

武子康
54
1

大数据-220 离线数仓数据仓库入门：四大特征、OLTP/OLAP差异与企业数仓架构要点

大数据-217 Prometheus 2.53.2 安装与配置实战：Scrape Targets、Exporter、告警链路与常见故障速查

Prometheus 2.53.2（2025/2026 仍常见在存量环境）**给出一套可复用的落地流程：在监控机下载并解压二进制，编写 prometheus.yml 完成 scrape_interva

武子康
61
1

大数据-217 Prometheus 2.53.2 安装与配置实战：Scrape Targets、Exporter、告警链路与常见故障速查

Flink源码阅读：Kafka Connector

本文我们来梳理 Kafka Connector 相关的源码。自定义 Source 和 Sink 在介绍 Kafka Connector 之前，我们先来看一下在 Flink 中是如何支持自定义 Sou

面向Google编程
57
点赞

Flink源码阅读：Kafka Connector

大数据-219 Grafana 11.3.0 安装与启动实战：YUM 装 RPM、systemd 管理、登录与常见坑位排查

2026 年仍在使用 CentOS/RHEL 系（含兼容发行版）的运维/开发，给出 Grafana 11.3.0（grafana-enterprise-11.3.0-1.x86_64.rpm）

武子康
36
1

大数据-219 Grafana 11.3.0 安装与启动实战：YUM 装 RPM、systemd 管理、登录与常见坑位排查

大数据-216 KMeans 选 n_clusters：轮廓系数（Silhouette）实战 + init/n_init/random_state 版本坑（sc

KMeans 选 n_clusters 方法：在候选簇数（如 2/4/6/8）上计算 silhouette_score 与 silhouette_samples，结合轮廓系数分布图与聚类散点图判断最优

武子康
42
1

大数据-216 KMeans 选 n_clusters：轮廓系数（Silhouette）实战 + init/n_init/random_state 版本坑（sc