首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
后端
Java
面试
Python
数据库
架构
前端
Spring Boot
Go
展开
全部
后端
Java
面试
Python
数据库
架构
前端
Spring Boot
Go
MySQL
大数据
.NET
Elasticsearch
Redis
程序员
暂无数据
推荐
最新
从零开始学Flink:Flink SQL 极简入门
无需Java/Scala代码!本文基于Flink 1.20.1版本,手把手教你在WSL2 Ubuntu环境下搭建开发环境,使用SQL Client体验实时流计算的魅力,轻松跑通第一个数据流任务。
大数据-232 离线数仓Hive 离线数仓新增与留存计算:DWS 明细 + ADS 汇总一套跑通
离线数仓(Hive)中“新增”“留存”的口径与落地实现,给出一套可直接复用的工程化方案:先计算新增,再基于新增计算留存。核心做法是维护一张“所有信息表(id, dt)”,dt 记录
大数据-231 离线数仓 Hive实战:DWD到DWS(日/周/月活跃会员)ADS 指标落地脚本与坑点
Hive 离线数仓口径:以“启动日志”为 DWD 明细,构建 DWS 主题汇总(dws_member_start_day / week / month),最终在 ADS 层输出活跃会员数(DAU
大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战:UDF 取数组 + explode 展开 vs JsonSerDe 建表加载
Hive 离线数仓中的 JSON 数据处理,覆盖三类最常见需求:1)从 JSON 串中取数组字段并在 SQL 中 explode 展开;2)从 JSON 串中同时解析普通字段(json_tuple)
Paimon源码解读 -- Fallback Branch
Paimon Fallback Branch 机制分析 一.概述 Fallback Branch(fallback分支)是 Apache Paimon 提供的一种分支读取机制,允许批处理作业在当前分支
大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor:从 JSON 提取时间戳写入 HDFS 分区
Apache Flume 的离线日志采集链路,给出一套工程化落地:使用 Taildir Source 监控多个目录与多文件正则匹配,为不同目录日志注入 logtype 等 Header;通过自定义 I
大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战:TAILDIR 多目录采集,按 logtime/logtype 写入 HDFS 分区
使用 TAILDIR Source 监控多个目录(start/event),通过 filegroups headers 为不同来源打上 logtype;再配合自定义 Interceptor 从日志正文
大数据-226 离线数仓Flume 优化配置实战:batchSize/Channel/压缩/自定义拦截器与 OOM 修复
Flume 1.9.0 在离线数仓(日志采集→HDFS)场景的工程化优化:从 Source→Channel→Sink 全链路给出 batchSize、Memory/File Channel 的 cap
Galaxy比数平台功能介绍及实现原理|得物技术
一、背景 得物经过10年发展,计算任务已超10万+,数据已经超200+PB,为了降低成本,计算引擎和存储资源需要从云平台迁移到得物自建平台,计算引擎从云平台Spark迁移到自建Apache Spark
大数据-224 离线数仓 架构怎么选型与估算集群规模:Apache vs CDH/HDP,全组件清单+命名规范
离线数据仓库(离线数仓)总体架构设计与落地方法:框架选型对比 Apache 社区版与第三方发行版(CDH/HDP/FusionInsight),梳理数据采集(DataX/Flume/Sqoop/Log
大数据-222 离线数仓建模实战:事实表/维度表、三类事实表与雪花/星座模型
离线数仓建模实践,系统梳理事实表(Fact Table)与维度表(Dimension Table)的核心概念、事实类型(可加/半可加/不可加)与粒度(交易/快照/累积快照)对查询性能与可分析性的决定性
大数据-223 离线数仓怎么建:埋点→指标体系→主题分析任务,全链路落地指南
业务拆分(前台/运营后台/商家后台)→数据来源(启动/点击日志、下单/支付/退款等交易数据)→数据埋点(页面统计/操作统计、需求—采集—上报—清洗加工—入仓—分析—展示)→指标体系(准确/可解释/结构
大数据-221 离线数仓分层实战:ODS/DWD/DWS/DIM/ADS 怎么划,数据集市如何避免数据孤岛
(Offline Data Warehouse)在企业落地时最常见的两类问题:数据集市扩张导致的数据孤岛、以及数仓分层边界不清导致的重复计算与口径混乱,给出可执行的工程化拆解。你会看到数据集市
大数据-220 离线数仓 数据仓库入门:四大特征、OLTP/OLAP差异与企业数仓架构要点
2026 年工程实践,梳理数据仓库(数仓)的核心概念与落地关注点:从企业数据孤岛出发,解释数据仓库的四大特征——面向主题(Subject Oriented)、集成(Integrated)、相对稳定
大数据-229 离线数仓ODS 层实战:Hive 外部表分区加载与 JSON 解析(get_json_object/json_tuple)
离线数仓(2026)中 ODS(Operational Data Store)层的工程落地,给出 Hive 外部表(external table)+ 按天分区(partition dt)承接原始日志的
Flink源码阅读:Kafka Connector
本文我们来梳理 Kafka Connector 相关的源码。 自定义 Source 和 Sink 在介绍 Kafka Connector 之前,我们先来看一下在 Flink 中是如何支持自定义 Sou
大数据-217 Prometheus 2.53.2 安装与配置实战:Scrape Targets、Exporter、告警链路与常见故障速查
Prometheus 2.53.2(2025/2026 仍常见在存量环境)**给出一套可复用的落地流程:在监控机下载并解压二进制,编写 prometheus.yml 完成 scrape_interva
大数据-219 Grafana 11.3.0 安装与启动实战:YUM 装 RPM、systemd 管理、登录与常见坑位排查
2026 年仍在使用 CentOS/RHEL 系(含兼容发行版)的运维/开发,给出 Grafana 11.3.0(grafana-enterprise-11.3.0-1.x86_64.rpm)
从零开始学Flink:状态管理与容错机制
本文深入解析 Apache Flink 的核心特性——状态管理与容错机制,涵盖状态类型、State Backend 选择、Checkpoint 原理及配置、以及 Savepoint 的生产实践。
大数据-216 KMeans 选 n_clusters:轮廓系数(Silhouette)实战 + init/n_init/random_state 版本坑(sc
KMeans 选 n_clusters 方法:在候选簇数(如 2/4/6/8)上计算 silhouette_score 与 silhouette_samples,结合轮廓系数分布图与聚类散点图判断最优