开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第5天 juejin.cn/post/716729…
业务型简单湖仓一体架构图
贴源层
基于RDBMS数据、文件数据、业务log以及其他三方数据入湖或入仓
主题层
根据不同的主题域以及分组主题域划分大类业务、小类业务
集市层
根据业务不同划分数据集市、针对不同的数据集市进行多方的数据支持
详解
贴源层主要是数据的一比一入仓或者如湖,当数据全量或者增量进入数据仓库或者数据湖后,根据一定的规范,我们将数据本身按照业务部门或者其他指定方式来进行主题域划分,主题层这部分存放的数据有很多,比如DWD的详情数据,DWS的轻量汇总数据,或者重点表的周期快照数据等等,在这里我主要根据业务的不同来进行了简单的划分,包括市场部门,职能部门,数据部门,研发部门,运营部门,财务部门等等,又结合一些数字化的转型趋势,来增加一些主题域的划分。最后就是集市层,集市层主要是对最终业务部门或其他部门需要的指标进行最终结果呈现的层级,一般存储以DM为主的表,这里我将表划分为DMS和DMA,方便区分是汇总表还是应用表。以上就是对整个图的简单介绍。
CDH大数据平台架构图
数据源
接入RDBMS OSS LOG数据
接入工具
离线侧:Sqoop Kettle Flume 实时侧:Canal
数据存储
列式数据库:HBase
内存数据库:Redis
基本存储:Hdfs
数据计算
离线数据:Hive
实时数据:Flink
资源调度
Yarn
数据展现
Echarts
FineBi
PowerBi
Tableau
Superset