稀土掘金 稀土掘金
    • 首页
    • AI Coding
    • 数据标注 NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
  • 全部
  • 后端
  • Java
  • 面试
  • Python
  • 数据库
  • 架构
  • 前端
  • Spring Boot
  • Go
  • 展开
  • 全部
  • 后端
  • Java
  • 面试
  • Python
  • 数据库
  • 架构
  • 前端
  • Spring Boot
  • Go
  • MySQL
  • 大数据
  • .NET
  • Elasticsearch
  • Redis
  • 程序员
  • 暂无数据
    • 推荐
    • 最新
  • 从零开始学Flink:Flink SQL 极简入门
    无需Java/Scala代码!本文基于Flink 1.20.1版本,手把手教你在WSL2 Ubuntu环境下搭建开发环境,使用SQL Client体验实时流计算的魅力,轻松跑通第一个数据流任务。
    • 代码匠心
    • 29
    • 点赞
    Flink 大数据 SQL
    从零开始学Flink:Flink SQL 极简入门
  • 大数据-232 离线数仓Hive 离线数仓新增与留存计算:DWS 明细 + ADS 汇总一套跑通
    离线数仓(Hive)中“新增”“留存”的口径与落地实现,给出一套可直接复用的工程化方案:先计算新增,再基于新增计算留存。核心做法是维护一张“所有信息表(id, dt)”,dt 记录
    • 武子康
    • 20
    • 1
    后端 大数据 Apache Hive
    大数据-232 离线数仓Hive 离线数仓新增与留存计算:DWS 明细 + ADS 汇总一套跑通
  • 大数据-231 离线数仓 Hive实战:DWD到DWS(日/周/月活跃会员)ADS 指标落地脚本与坑点
    Hive 离线数仓口径:以“启动日志”为 DWD 明细,构建 DWS 主题汇总(dws_member_start_day / week / month),最终在 ADS 层输出活跃会员数(DAU
    • 武子康
    • 36
    • 2
    后端 大数据 Apache Hive
    大数据-231 离线数仓 Hive实战:DWD到DWS(日/周/月活跃会员)ADS 指标落地脚本与坑点
  • 大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战:UDF 取数组 + explode 展开 vs JsonSerDe 建表加载
    Hive 离线数仓中的 JSON 数据处理,覆盖三类最常见需求:1)从 JSON 串中取数组字段并在 SQL 中 explode 展开;2)从 JSON 串中同时解析普通字段(json_tuple)
    • 武子康
    • 29
    • 1
    后端 大数据 Apache Hive
    大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战:UDF 取数组 + explode 展开 vs JsonSerDe 建表加载
  • Paimon源码解读 -- Fallback Branch
    Paimon Fallback Branch 机制分析 一.概述 Fallback Branch(fallback分支)是 Apache Paimon 提供的一种分支读取机制,允许批处理作业在当前分支
    • expect7g
    • 10
    • 点赞
    大数据 Flink 后端
  • 大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor:从 JSON 提取时间戳写入 HDFS 分区
    Apache Flume 的离线日志采集链路,给出一套工程化落地:使用 Taildir Source 监控多个目录与多文件正则匹配,为不同目录日志注入 logtype 等 Header;通过自定义 I
    • 武子康
    • 26
    • 1
    后端 大数据 Apache Flume
    大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor:从 JSON 提取时间戳写入 HDFS 分区
  • 大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战:TAILDIR 多目录采集,按 logtime/logtype 写入 HDFS 分区
    使用 TAILDIR Source 监控多个目录(start/event),通过 filegroups headers 为不同来源打上 logtype;再配合自定义 Interceptor 从日志正文
    • 武子康
    • 39
    • 1
    后端 大数据 Apache Flume
    大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战:TAILDIR 多目录采集,按 logtime/logtype 写入 HDFS 分区
  • 大数据-226 离线数仓Flume 优化配置实战:batchSize/Channel/压缩/自定义拦截器与 OOM 修复
    Flume 1.9.0 在离线数仓(日志采集→HDFS)场景的工程化优化:从 Source→Channel→Sink 全链路给出 batchSize、Memory/File Channel 的 cap
    • 武子康
    • 40
    • 1
    后端 大数据 Apache Flume
    大数据-226 离线数仓Flume 优化配置实战:batchSize/Channel/压缩/自定义拦截器与 OOM 修复
  • Galaxy比数平台功能介绍及实现原理|得物技术
    一、背景 得物经过10年发展,计算任务已超10万+,数据已经超200+PB,为了降低成本,计算引擎和存储资源需要从云平台迁移到得物自建平台,计算引擎从云平台Spark迁移到自建Apache Spark
    • 得物技术
    • 312
    • 5
    大数据
    Galaxy比数平台功能介绍及实现原理|得物技术
  • 大数据-224 离线数仓 架构怎么选型与估算集群规模:Apache vs CDH/HDP,全组件清单+命名规范
    离线数据仓库(离线数仓)总体架构设计与落地方法:框架选型对比 Apache 社区版与第三方发行版(CDH/HDP/FusionInsight),梳理数据采集(DataX/Flume/Sqoop/Log
    • 武子康
    • 48
    • 1
    后端 大数据 Hadoop
    大数据-224 离线数仓 架构怎么选型与估算集群规模:Apache vs CDH/HDP,全组件清单+命名规范
  • 大数据-222 离线数仓建模实战:事实表/维度表、三类事实表与雪花/星座模型
    离线数仓建模实践,系统梳理事实表(Fact Table)与维度表(Dimension Table)的核心概念、事实类型(可加/半可加/不可加)与粒度(交易/快照/累积快照)对查询性能与可分析性的决定性
    • 武子康
    • 68
    • 2
    后端 大数据 Hadoop
    大数据-222 离线数仓建模实战:事实表/维度表、三类事实表与雪花/星座模型
  • 大数据-223 离线数仓怎么建:埋点→指标体系→主题分析任务,全链路落地指南
    业务拆分(前台/运营后台/商家后台)→数据来源(启动/点击日志、下单/支付/退款等交易数据)→数据埋点(页面统计/操作统计、需求—采集—上报—清洗加工—入仓—分析—展示)→指标体系(准确/可解释/结构
    • 武子康
    • 43
    • 1
    后端 大数据
    大数据-223 离线数仓怎么建:埋点→指标体系→主题分析任务,全链路落地指南
  • 大数据-221 离线数仓分层实战:ODS/DWD/DWS/DIM/ADS 怎么划,数据集市如何避免数据孤岛
    (Offline Data Warehouse)在企业落地时最常见的两类问题:数据集市扩张导致的数据孤岛、以及数仓分层边界不清导致的重复计算与口径混乱,给出可执行的工程化拆解。你会看到数据集市
    • 武子康
    • 81
    • 1
    后端 大数据 Hadoop
    大数据-221 离线数仓分层实战:ODS/DWD/DWS/DIM/ADS 怎么划,数据集市如何避免数据孤岛
  • 大数据-220 离线数仓 数据仓库入门:四大特征、OLTP/OLAP差异与企业数仓架构要点
    2026 年工程实践,梳理数据仓库(数仓)的核心概念与落地关注点:从企业数据孤岛出发,解释数据仓库的四大特征——面向主题(Subject Oriented)、集成(Integrated)、相对稳定
    • 武子康
    • 54
    • 1
    后端 大数据 数据挖掘
    大数据-220 离线数仓 数据仓库入门:四大特征、OLTP/OLAP差异与企业数仓架构要点
  • 大数据-229 离线数仓ODS 层实战:Hive 外部表分区加载与 JSON 解析(get_json_object/json_tuple)
    离线数仓(2026)中 ODS(Operational Data Store)层的工程落地,给出 Hive 外部表(external table)+ 按天分区(partition dt)承接原始日志的
    • 武子康
    • 37
    • 1
    后端 大数据 Apache Hive
    大数据-229 离线数仓ODS 层实战:Hive 外部表分区加载与 JSON 解析(get_json_object/json_tuple)
  • Flink源码阅读:Kafka Connector
    本文我们来梳理 Kafka Connector 相关的源码。 自定义 Source 和 Sink 在介绍 Kafka Connector 之前,我们先来看一下在 Flink 中是如何支持自定义 Sou
    • 面向Google编程
    • 57
    • 点赞
    Flink 大数据
    Flink源码阅读:Kafka Connector
  • 大数据-217 Prometheus 2.53.2 安装与配置实战:Scrape Targets、Exporter、告警链路与常见故障速查
    Prometheus 2.53.2(2025/2026 仍常见在存量环境)**给出一套可复用的落地流程:在监控机下载并解压二进制,编写 prometheus.yml 完成 scrape_interva
    • 武子康
    • 58
    • 1
    后端 大数据 机器学习
    大数据-217 Prometheus 2.53.2 安装与配置实战:Scrape Targets、Exporter、告警链路与常见故障速查
  • 大数据-219 Grafana 11.3.0 安装与启动实战:YUM 装 RPM、systemd 管理、登录与常见坑位排查
    2026 年仍在使用 CentOS/RHEL 系(含兼容发行版)的运维/开发,给出 Grafana 11.3.0(grafana-enterprise-11.3.0-1.x86_64.rpm)
    • 武子康
    • 35
    • 1
    后端 大数据 Grafana
    大数据-219 Grafana 11.3.0 安装与启动实战:YUM 装 RPM、systemd 管理、登录与常见坑位排查
  • 从零开始学Flink:状态管理与容错机制
    本文深入解析 Apache Flink 的核心特性——状态管理与容错机制,涵盖状态类型、State Backend 选择、Checkpoint 原理及配置、以及 Savepoint 的生产实践。
    • 代码匠心
    • 39
    • 点赞
    Flink 大数据 后端
    从零开始学Flink:状态管理与容错机制
  • 大数据-216 KMeans 选 n_clusters:轮廓系数(Silhouette)实战 + init/n_init/random_state 版本坑(sc
    KMeans 选 n_clusters 方法:在候选簇数(如 2/4/6/8)上计算 silhouette_score 与 silhouette_samples,结合轮廓系数分布图与聚类散点图判断最优
    • 武子康
    • 41
    • 1
    后端 大数据 机器学习
    大数据-216 KMeans 选 n_clusters:轮廓系数(Silhouette)实战 + init/n_init/random_state 版本坑(sc
  • 上午好!
    点亮在社区的每一天

    推荐话题 换一换

    #挑战每日一条沸点#
    #挑战每日一条沸点#

    23.0m

    #过年啦#

    38k

    #晒晒你的摸鱼日常#
    #晒晒你的摸鱼日常#

    1.2m

    #每日快讯#

    9.8m

    #每日精选文章#

    3.4m

    #日新计划#

    10.7m

    #每天一个知识点#

    48.0m

    #工作中做得最正确的一件事#
    #工作中做得最正确的一件事#

    418k

    #掘金一周#

    1.5m

    #新人报道#

    38.9m

    查看更多
    • 用户协议
    • 营业执照
    • 隐私政策
    • 关于我们
    • 使用指南
    • 友情链接
    • 更多后端文章
    • 举报邮箱: feedback@xitu.io
    • 座机电话: 010-83434395
    • 京ICP备:18012699号-3
    • 京ICP证:京B2-20191272
    • police 京公网安备11010802026719号
    • ©2026 稀土掘金