首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据一锅端
武子康
创建于2024-10-12
订阅专栏
详细记录大数据的踩坑,包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件,覆盖离线+实时数仓全栈。让我们一起无限进步!
等 34 人订阅
共254篇文章
创建于2024-10-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据-256 离线数仓 - Atlas 数据仓库元数据管理 正式安装 启动服务访问 Hive血缘关系导入
Apache Atlas 1.2.0 的数据仓库元数据管理实战方案。元数据是描述数据的数据,包括表结构、存储统计、血缘关系、业务属性等核心信息。Atlas 是开源的元数据与血缘管理平台,支持 Hive
大数据-255 离线数仓 - Apache Atlas 数据血缘与元数据管理实战指南
Apache Atlas 实战部署。元数据管理是数据治理的基础,涉及表结构信息、空间存储、血缘关系及业务属性信息的收集与展示。Apache Atlas 作为 Hadoop 平台元数据框架,支持数据血缘
大数据-254 离线数仓 - Airflow 任务调度与工作流管理实战
Apache Airflow 是开源任务调度和工作流管理工具,2016 年捐赠给 Apache 软件基金会。以 Python 代码定义 DAG(有向无环图),提供灵活性、可编程性和强大的 UI 监控界
大数据-253 离线数仓 - Airflow 入门与任务调度实战:DAG、Operator、Executor 部署排错指南
DAG、Operator、Task、Task Instance、Executor 等核心概念,并通过一个 HelloWorldDag 示例演示 Airflow 的基础使用流程,包括 DAG 脚本编写、
大数据-252 离线数仓 - Airflow + Crontab 入门实战:定时调度、DAG 编排与常见报错排查
Linux Crontab 与 Apache Airflow 的基础用法、差异定位与工程实践。内容覆盖 Crontab 表达式格式、常见定时配置实例、Airflow DAG/Task/Operator
大数据-251 离线数仓 - Airflow 安装部署避坑指南:1.10.11 与 2.x 命令差异、MySQL 配置与错误排查
CentOS 7、MySQL 环境中搭建任务调度平台的读者。内容覆盖 Airflow 基本介绍、DAG 编排、常见使用场景、环境变量配置、初始化数据库、创建用户、启动 scheduler 与 webs
大数据-250 离线数仓 - 电商分析 Hive 数仓 ADS 层订单分析实战:全国/大区/城市分类汇总与 Airflow 调度
ADS 层订单分析表的设计与加载实现,覆盖全国、大区、城市,以及一级分类、二级分类的多维汇总统计。核心实现基于 dws.dws_trade_orders_w,通过 with mid_orders 先按
大数据-249 离线数仓 - 电商分析 Hive 数仓实战:订单拉链表到 DWS 宽表设计与加载脚本详解
电商订单场景,拆解从 ODS → DWD → DWS 的订单链路设计。核心内容包括:订单主表为什么适合做 拉链表、如何按订单创建日期进行 分区设计、订单商品表在 DWD 明细层 的处理方式,以及如何在
大数据-248 离线数仓 - 电商分析 Hive 离线数仓维表设计实战:快照表、拉链表与 DIM 增量加载全流程
系统说明了 DIM 层建模 中两类常见方案:每日快照表 与 拉链表(SCD)。内容覆盖商品分类维表、商家地域组织维表、商品信息维表三类典型场景,重点讲清了 反范式宽表设计、ODS 到 DIM 的分层处
大数据-247 离线数仓 - 电商分析 Hive 拉链表实战:订单历史状态增量刷新、闭链逻辑与错误排查
Hive 拉链表、离线数仓、订单历史状态保存、增量刷新、ODS 到 DWD 分层 展开,结合 2020 年订单状态变更案例,说明为什么在数仓建模中,拉链表适合处理“记录会变化、又需要保留历史”的业务对
大数据-246 离线数仓 - 电商分析 Hive 拉链表实战:初始化、每日增量更新、回滚脚本与错误排查
离线数仓建模方式,实战讲解 Hive 拉链表实现方案,覆盖初始化装载、每日增量更新、历史版本闭链、Shell 调度脚本以及回滚恢复逻辑。示例围绕 userinfo 分区表与 userhis 拉链表展开
大数据-245 离线数仓 - 电商分析 Hive 拉链表入门实战:缓慢变化维 SCD 类型、建表加载与常见错误速查
缓慢变化维(SCD,Slowly Changing Dimensions)展开,系统梳理 SCD Type 0、1、2、3、4、6 的核心差异,并结合 Hive 离线数仓场景说明快照表与拉链表的适用边
大数据-244 离线数仓 - Hive ODS 层建表与分区加载实战(DataX→HDFS→Hive)
通过 DataX 将 MySQL 数据同步到 HDFS 指定目录,再在 Hive 中创建 ODS 外部表(EXTERNAL TABLE),统一使用 dt 字符串分区,并以逗号作为字段分隔符。核心在于让
大数据-243 离线数仓 - 实战电商核心交易增量导入(DataX - HDFS - Hive 分区
使用 DataX(MySQLReader + HDFSWriter)从 MySQL 抽取订单表、订单明细表、产品信息表的日增量数据,落地到 HDFS,并以 dt=yyyy-MM-dd 目录实现分区化存
大数据-242 离线数仓 - DataX 实战:MySQL 全量/增量导入 HDFS + Hive 分区(离线数仓 ODS
DataX(mysqlreader + hdfswriter)将 MySQL 电商业务库按“全量/增量”两类策略抽取到 HDFS,并在 Hive 中以 dt=yyyy-mm-dd 进行分区管理。针对维
大数据-241 离线数仓 - 实战:电商核心交易数据模型与 MySQL 源表设计(订单/商品/品类/店铺/支付)
围绕订单数、商品数、支付金额三大指标,按销售区域与商品类型(三级品类)拆解分析维度。基于 trade_orders、order_product、product_info、product_categor
大数据-240 离线数仓 - 广告业务 Hive ADS 实战:DataX 将 HDFS 分区表导出到 MySQL
Hive 离线数仓广告业务的 ADS 层导数流程展开,演示如何在 2020 年业务分区数据基础上,使用 Shell 脚本完成 ADS 层装载,并借助阿里开源 DataX 将 HDFS 中的 Hive
大数据-239 离线数仓 - 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载
使用 Flume Agent 采集 event 日志并写入 HDFS,再通过 Hive 脚本按日期完成 ODS 层与 DWD 层的数据装载。内容覆盖 Flume Agent 的 Source、Chan
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
ODS / DWD / ADS 分层,实现广告曝光、点击、购买的分时统计,并进一步完成 点击率(CTR)、购买率(CVR) 与广告效果 Top100 排名分析。内容覆盖 ADS 层建表、按天分区装载
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
Hive 离线数仓广告业务实战 展开,结合 Flume + Hive + UDF + Parquet 的典型链路,演示如何将原始事件日志从 ODS 层 映射到 Hive 外部表,再在 DWD 层 完成
下一页