数据中心建设实践思路与企业实践 | 青训营笔记

113 阅读2分钟

image.png

这是我参与「第四届青训营 」笔记创作活动的的第19天

一、本课堂重点内容

课程目录 image.png

二、详细知识点介绍:

1. 企业数据架构

  • 计算/存储引擎:Flink、Spark、ClickHouse、Doris、Kafka、Hive...

  • 数据集成:业务数据收集(数据库CDC、业务日志等)、Flink Connector体系

  • 数据治理:数据质量、数据安全、数据生命周期...

  • 数据开发:大数据开发工具套件、发布运维工具、元数据管理工具...

2. 数据中心案例

  • 以房产业务举例说明数据中心建设目标和要求
  • 房产业务介绍:房产服务平台、经纪人、客户
  • 数据中心核心指标分析:供需、过程、结果
  • 数据中心查询要求:查询条件、数据结果、技术要求

1660832639998.png

3. 实时数据生产

开发效率:较快满足用户的需要 资源成本:计算效率高 数据质量:准确无误、数据实时

计算架构-架构选择

image.png

4. 数据服务

  • OLAP引擎:ClickHouse、Doris

    • 列存
    • 索引
    • JOIN:广播、colocate join、bucket join、shuffle join
    • 向量化计算
    • SQL优化:RBO、CBO
    • Bitmap
  • 稳定性:熔断、限流、降级

  • 体架构:查询引擎、查询优化和执行、稳定性、元数据

  • 案例查询方案分析

    • 如何更快的查询

      • 原始信息筛选和关联效率
      • 计算处理效率
      • 只关注目标所需数据
  • 关注目标信息

    • 列存
  • 原始信息筛选效率

    • OLAP引擎索引方案
  • 原始信息关联

    • join方案及优化
  • 计算效率

    • 向量化
  • 执行计划优化:RBO、CBO
  • 应用层优化

    • 宽表构建
    • 提升信息密度:bit化、bitmap
  • 查询稳定性

    • 熔断、限流、降级
  • 元数据管理:指标口径管理、查询生成

三、个人总结:

课后

  1. 大数据架构中数据流向是什么样的(从业务数据到结果数据)?开发流程是什么样的?
  1. 思考下数据中心案例中还可以产出哪些关键指标?
  1. 思考下你给出的关键指标实时生产方案是什么样的?
  1. 思考下你给出的关键指标查询方案是什么样的?

四、参考文献

【大数据专场 学习资料六】第四届字节跳动青训营 - 掘金 (juejin.cn)