首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
武子康
掘友等级
后端工程师
永远好奇 无限进步
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
330
文章 235
沸点 95
赞
330
返回
|
搜索文章
赞
文章( 235 )
沸点( 95 )
大数据-233 离线数仓 留存率怎么做:DWS 明细建模 + ADS 聚合落表(Hive/脚本实战)
离线数仓(Data Warehouse)中“会员留存(Retention)”的落地做法:用 Hive 在 DWS 层沉淀“每日会员留存明细表”(dws_member_retention_day)
大数据-232 离线数仓Hive 离线数仓新增与留存计算:DWS 明细 + ADS 汇总一套跑通
离线数仓(Hive)中“新增”“留存”的口径与落地实现,给出一套可直接复用的工程化方案:先计算新增,再基于新增计算留存。核心做法是维护一张“所有信息表(id, dt)”,dt 记录
大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战:UDF 取数组 + explode 展开 vs JsonSerDe 建表加载
Hive 离线数仓中的 JSON 数据处理,覆盖三类最常见需求:1)从 JSON 串中取数组字段并在 SQL 中 explode 展开;2)从 JSON 串中同时解析普通字段(json_tuple)
大数据-231 离线数仓 Hive实战:DWD到DWS(日/周/月活跃会员)ADS 指标落地脚本与坑点
Hive 离线数仓口径:以“启动日志”为 DWD 明细,构建 DWS 主题汇总(dws_member_start_day / week / month),最终在 ADS 层输出活跃会员数(DAU
大数据-229 离线数仓ODS 层实战:Hive 外部表分区加载与 JSON 解析(get_json_object/json_tuple)
离线数仓(2026)中 ODS(Operational Data Store)层的工程落地,给出 Hive 外部表(external table)+ 按天分区(partition dt)承接原始日志的
大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor:从 JSON 提取时间戳写入 HDFS 分区
Apache Flume 的离线日志采集链路,给出一套工程化落地:使用 Taildir Source 监控多个目录与多文件正则匹配,为不同目录日志注入 logtype 等 Header;通过自定义 I
大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战:TAILDIR 多目录采集,按 logtime/logtype 写入 HDFS 分区
使用 TAILDIR Source 监控多个目录(start/event),通过 filegroups headers 为不同来源打上 logtype;再配合自定义 Interceptor 从日志正文
大数据-226 离线数仓Flume 优化配置实战:batchSize/Channel/压缩/自定义拦截器与 OOM 修复
Flume 1.9.0 在离线数仓(日志采集→HDFS)场景的工程化优化:从 Source→Channel→Sink 全链路给出 batchSize、Memory/File Channel 的 cap
大数据-225 离线数仓 会员指标实战:Flume Taildir HDFS ODS/DWD/DWS/ADS 全链路落地
离线数仓建设,给出“日志采集→落地→分层→指标”的工程化路径。会员以设备唯一标识(Android IMEI / iOS OpenUDID)为口径,输出新增会员、活跃会员(DAU/WAU/MAU)与留存
大数据-224 离线数仓 架构怎么选型与估算集群规模:Apache vs CDH/HDP,全组件清单+命名规范
离线数据仓库(离线数仓)总体架构设计与落地方法:框架选型对比 Apache 社区版与第三方发行版(CDH/HDP/FusionInsight),梳理数据采集(DataX/Flume/Sqoop/Log
下一页
个人成就
优秀创作者
文章被点赞
313
文章被阅读
28,988
掘力值
6,104
关注了
2
关注者
90
收藏集
0
关注标签
10
加入于
2019-11-11