-
数据湖
-
概念与术语
-
特点
-
存储大量原始数据
-
数据特点
- 结构化
- 非结构化
- 半结构化
-
-
不用定义数据模型和架构
-
存在意义
- 以最原始的格式存储数据,直到需要分析时才进行处理和分析
-
为什么要数据湖
- 数据湖是横向扩展,方便未来扩容
- 海量数据,需要长期保存
- 半结构化和非结构化数据调整适应数据库的工作
- 不可预测的数据
-
与数仓的比较
-
数据湖
- 采用自下而上的处理方式
-
数据仓库
- 需要先分析数据,对数据建模,再存储
-
从架构上
-
数据仓库
- 存储与计算重度耦合
-
数据湖
- 存储与计算解耦
-
-
-
不适用的场景
- 不适用已经拥有大量结构化数据组织
-
-
-
组成与架构
-
组件
-
存储系统
- Hadoop
- 云存储
-
数据处理和分析工具
- Hive
- Spark
- Flink
-
数据集成工具
-
将数据从不同源导入数据湖的功能
- ELT
- 数据集成平台
-
-
元数据管理
-
安全性和访问控制
-
数据治理
-
-
架构
-
第一阶段
- 以Hadoop为代表
-
第二阶段
- lambda架构
-
第三阶段
- kappa架构
-
-
不同于大数据平台
-
数据湖为了支撑数据的全生命周期管理与应用
-
技术视角
-
具备
- 数据管理
- 类目管理
- 流程编排
- 任务调度
- 数据溯源
- 数据治理
- 权限管理
-
-
计算能力
- 都支持sql和可编程的批处理
-
处理范式
-
基于采用有向无环图的工作流模式
-
对流式计算的支持
-
流计算分类
- 实时模式
- 类流式
-
-
-
-
建设
-
建设流程
- 数据摸底
- 模型抽象
- 数据接入
- 融合治理
- 业务支撑
-
-
应用场景
- 大数据分析
- 机器学习和人工智能
- 实时分析和决策支持
- 法规遵从和审计
- 跨部门数据共享
- 广告数据分析
- 游戏运营分析
-
解决方案
- AWS
- 阿里云
- 华为云
- Azure
-
湖仓一体
-
datahouse
- 数仓 + 数据湖
-
特点
- 简单理解就是把面向企业的数据仓库技术与数据湖存储技术相结合
- 事务支持
- 模式实施和治理
- BI支持
- 存储与计算分离
- 兼容性
- 支持从非结构化数据到结构化数据的多种数据类型
- 支持各种工作场景
- 端到端流式任务
-
-