数据湖概念

36 阅读2分钟
  • 数据湖

    • 概念与术语

      • 特点

        • 存储大量原始数据

          • 数据特点

            • 结构化
            • 非结构化
            • 半结构化
        • 不用定义数据模型和架构

        • 存在意义

          • 以最原始的格式存储数据,直到需要分析时才进行处理和分析
        • 为什么要数据湖

          • 数据湖是横向扩展,方便未来扩容
          • 海量数据,需要长期保存
          • 半结构化和非结构化数据调整适应数据库的工作
          • 不可预测的数据
        • 与数仓的比较

          • 数据湖

            • 采用自下而上的处理方式
          • 数据仓库

            • 需要先分析数据,对数据建模,再存储
          • 从架构上

            • 数据仓库

              • 存储与计算重度耦合
            • 数据湖

              • 存储与计算解耦
        • 不适用的场景

          • 不适用已经拥有大量结构化数据组织
    • 组成与架构

      • 组件

        • 存储系统

          • Hadoop
          • 云存储
        • 数据处理和分析工具

          • Hive
          • Spark
          • Flink
        • 数据集成工具

          • 将数据从不同源导入数据湖的功能

            • ELT
            • 数据集成平台
        • 元数据管理

        • 安全性和访问控制

        • 数据治理

      • 架构

        • 第一阶段

          • 以Hadoop为代表
        • 第二阶段

          • lambda架构
        • 第三阶段

          • kappa架构
      • 不同于大数据平台

        • 数据湖为了支撑数据的全生命周期管理与应用

        • 技术视角

          • 具备

            • 数据管理
            • 类目管理
            • 流程编排
            • 任务调度
            • 数据溯源
            • 数据治理
            • 权限管理
        • 计算能力

          • 都支持sql和可编程的批处理
        • 处理范式

          • 基于采用有向无环图的工作流模式

          • 对流式计算的支持

          • 流计算分类

            • 实时模式
            • 类流式
    • 建设

      • 建设流程

        • 数据摸底
        • 模型抽象
        • 数据接入
        • 融合治理
        • 业务支撑
    • 应用场景

      • 大数据分析
      • 机器学习和人工智能
      • 实时分析和决策支持
      • 法规遵从和审计
      • 跨部门数据共享
      • 广告数据分析
      • 游戏运营分析
    • 解决方案

      • AWS
      • 阿里云
      • 华为云
      • Azure
    • 湖仓一体

      • datahouse

        • 数仓 + 数据湖
      • 特点

        • 简单理解就是把面向企业的数据仓库技术与数据湖存储技术相结合
        • 事务支持
        • 模式实施和治理
        • BI支持
        • 存储与计算分离
        • 兼容性
        • 支持从非结构化数据到结构化数据的多种数据类型
        • 支持各种工作场景
        • 端到端流式任务