首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 29 人订阅
共240篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区(离线数仓 ODS
DataX(mysqlreader + hdfswriter)将 MySQL 电商业务库按“全量/增量”两类策略抽取到 HDFS,并在 Hive 中以 dt=yyyy-mm-dd 进行分区管理。针对维
大数据-241 离线数仓 - 实战:电商核心交易数据模型与 MySQL 源表设计(订单/商品/品类/店铺/支付)
围绕订单数、商品数、支付金额三大指标,按销售区域与商品类型(三级品类)拆解分析维度。基于 trade_orders、order_product、product_info、product_categor
大数据-240 离线数仓 - 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL
Hive 离线数仓广告业务的 ADS 层导数流程展开,演示如何在 2020 年业务分区数据基础上,使用 Shell 脚本完成 ADS 层装载,并借助阿里开源 DataX 将 HDFS 中的 Hive
大数据-239 离线数仓 - 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载
使用 Flume Agent 采集 event 日志并写入 HDFS,再通过 Hive 脚本按日期完成 ODS 层与 DWD 层的数据装载。内容覆盖 Flume Agent 的 Source、Chan
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
ODS / DWD / ADS 分层,实现广告曝光、点击、购买的分时统计,并进一步完成 点击率(CTR)、购买率(CVR) 与广告效果 Top100 排名分析。内容覆盖 ADS 层建表、按天分区装载
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
Hive 离线数仓广告业务实战 展开,结合 Flume + Hive + UDF + Parquet 的典型链路,演示如何将原始事件日志从 ODS 层 映射到 Hive 外部表,再在 DWD 层 完成
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
基于 Hadoop + Hive + HDFS + DataX + MySQL 的会员主题与广告业务链路验证。内容先对活跃会员、新增会员、会员留存等指标在 DWS/ADS 层进行脚本级测试,再将结果
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
离线数仓、Flume、HDFS、Hive、ODS、DWD、DWS、ADS 展开,演示一套从日志采集到会员指标分析的完整链路,适合用于 2024/2025 年 Hadoop/Hive 离线数仓实战教学。
大数据-234 离线数仓 - Hive ADS 导出 MySQL DataX(hdfsreader→mysqlwriter)实战配置与踩坑速查
离线数仓 ADS 层 Hive 表导出到 MySQL”的落地链路,给出 DataX 典型方案:hdfsreader -> mysqlwriter。适用于 Hive 分区表按 dt=$do_date
大数据-233 离线数仓 留存率怎么做:DWS 明细建模 + ADS 聚合落表(Hive/脚本实战)
离线数仓(Data Warehouse)中“会员留存(Retention)”的落地做法:用 Hive 在 DWS 层沉淀“每日会员留存明细表”(dws_member_retention_day)
大数据-232 离线数仓Hive 离线数仓新增与留存计算:DWS 明细 + ADS 汇总一套跑通
离线数仓(Hive)中“新增”“留存”的口径与落地实现,给出一套可直接复用的工程化方案:先计算新增,再基于新增计算留存。核心做法是维护一张“所有信息表(id, dt)”,dt 记录
大数据-231 离线数仓 Hive实战:DWD到DWS(日/周/月活跃会员)ADS 指标落地脚本与坑点
Hive 离线数仓口径:以“启动日志”为 DWD 明细,构建 DWS 主题汇总(dws_member_start_day / week / month),最终在 ADS 层输出活跃会员数(DAU
大数据-230 离线数仓-ODS层的构建 Hive 2.3.7 JSON 解析实战:UDF 取数组 + explode 展开 vs JsonSerDe 建表加载
Hive 离线数仓中的 JSON 数据处理,覆盖三类最常见需求:1)从 JSON 串中取数组字段并在 SQL 中 explode 展开;2)从 JSON 串中同时解析普通字段(json_tuple)
大数据-229 离线数仓ODS 层实战:Hive 外部表分区加载与 JSON 解析(get_json_object/json_tuple)
离线数仓(2026)中 ODS(Operational Data Store)层的工程落地,给出 Hive 外部表(external table)+ 按天分区(partition dt)承接原始日志的
大数据-228 离线数仓 Flume Taildir + 自定义 Interceptor:从 JSON 提取时间戳写入 HDFS 分区
Apache Flume 的离线日志采集链路,给出一套工程化落地:使用 Taildir Source 监控多个目录与多文件正则匹配,为不同目录日志注入 logtype 等 Header;通过自定义 I
大数据-227 离线数仓-Flume 1.9.0 自定义拦截器实战:TAILDIR 多目录采集,按 logtime/logtype 写入 HDFS 分区
使用 TAILDIR Source 监控多个目录(start/event),通过 filegroups headers 为不同来源打上 logtype;再配合自定义 Interceptor 从日志正文
大数据-226 离线数仓Flume 优化配置实战:batchSize/Channel/压缩/自定义拦截器与 OOM 修复
Flume 1.9.0 在离线数仓(日志采集→HDFS)场景的工程化优化:从 Source→Channel→Sink 全链路给出 batchSize、Memory/File Channel 的 cap
大数据-225 离线数仓 会员指标实战:Flume Taildir HDFS ODS/DWD/DWS/ADS 全链路落地
离线数仓建设,给出“日志采集→落地→分层→指标”的工程化路径。会员以设备唯一标识(Android IMEI / iOS OpenUDID)为口径,输出新增会员、活跃会员(DAU/WAU/MAU)与留存
大数据-224 离线数仓 架构怎么选型与估算集群规模:Apache vs CDH/HDP,全组件清单+命名规范
离线数据仓库(离线数仓)总体架构设计与落地方法:框架选型对比 Apache 社区版与第三方发行版(CDH/HDP/FusionInsight),梳理数据采集(DataX/Flume/Sqoop/Log
大数据-223 离线数仓怎么建:埋点→指标体系→主题分析任务,全链路落地指南
业务拆分(前台/运营后台/商家后台)→数据来源(启动/点击日志、下单/支付/退款等交易数据)→数据埋点(页面统计/操作统计、需求—采集—上报—清洗加工—入仓—分析—展示)→指标体系(准确/可解释/结构
下一页