数据中心建设实践思路与企业实践 | 青训营笔记

122 阅读3分钟

这是我参与「第四届青训营 」笔记创作活动的的第18天

今天是大数据专场基础班的第十八次课,主要内容是数据中心建设实践思路与企业实践,主要分为下面四个板块。

一、 企业数据架构

image.png

  • 企业整体数据架构:基础引擎、数据集成/生产/服务、开发和治理工具
  • 关键模块及数据流向

    • 数据集成

      • 业务数据收集:数据库变更数据收集(CDC)、业务日志收集(业务数据->数据处理系统)
      • 大数据系统内传输:基于Flink丰富的connector体系 (数据系统内)
    • 数据生产:实时和离线生产pipeline (数据系统内)

    • 数据服务:统一数据服务架构(数据系统->业务系统)

二、 数据中心案例

1. 房产业务介绍

image.png

1.1 房产数据中心-核心数据指标

  • 供需(房子全不全?客户多不多? )
    • 房源
      • 房增(新增房子的录入量)
    • 客源
      • 客增(新增客户的录入量)
  • 过程(工作做的怎么样? )
    • 通话次数(经纪人和客户电话次数)
    • 带看次数(经纪人带客户看房次数)
  • 结果(结果好不好? )
    • 成交量(成交合同量)

1.2 房产数据中心-数据查询要求

  • 数据中心看板查询条件:
    • 时间范围:今天前的任意日期范围
    • 业务类型:租赁/买卖/全部
  • 数据展示:
    • 查询条件下的每个经纪人的汇总数据
    • 支持下钻明细数据
  • 技术要求:
    • 300ms内返回结果
    • 数据是实时秒级

三、 实时数据生产

1. 数据分析

1.1 数据分析-数据产出目标

  • 用户要什么数据?
  • 根据日期、业务类型(买卖、租赁)查询经纪人汇总数据
  • 目标数据产出粒度:经纪人+业务日期+业务类型

image.png

1.2 数据分析-数据生产可行性

image.png

2. 计算分析

2.1 计算分析-目标

  • 开发效率:较快满足用户的需要
  • 资源成本:计算效率高
  • 数据质量:准确无误、数据实时

2.2 计算分析-计算架构-Lambda

image.png

2.3 计算分析-Lambda架构-数据产出

image.png

2.4 计算分析-计算架构-架构选择

image.png

2.5 计算总结

  • 计算架构:开发效率
    • Lambda架构->全量计算:一套开发任务
  • 数据源获取:全量能力
    • Hybrid Source(逻辑全量表,hive+kafka,成熟存储方案)
  • 计算:正确、效率,核心是算子选择+优化
  • 正确
    • 处理更新/重复:rownumber+retract机制
    • 乱序: join reorder
  • 效率
    • 时效性换效率:Minibatch (聚合、join)
  • 质量:稳定性监控、数据监控

3. 实时数仓

  • 数据分层:数据复用,减少重复开发
  • 数据管理:格式、元数据

四、 数据服务

1. 数据服务架构

image.png

1.1 查询快-应用优化

  • 原始信息关联
    • Local Join:如计算带看量,带看数据和房信息按照house_id分布,无shuffle io开销
    • 预关联:直接生产“大宽表”
  • 计算复杂度
    • 预计算:提前聚合到特定粒度,如带看量聚合到经纪人+天+业务类型
    • 提升信息密度:bit化

1.2 稳定-如何解决

  • 熔断触发策略:
    • 比如错误率每秒超过10%
    • 响应时间>5s
  • 动作:
    • 直接返回失败
  • 限流、降级
    • 限流:根据查询客户端、接口等配置查询限额
    • 降级:主备存储/服务集群,降级预案

引用参考

内容主要参考了孔德振老师在「数据中心建设实践思路与企业实践」课程里所教授的内容,同时也参考了学员手册里第三节的内容,图片来自于老师的PPT,链接如下:

  1. 【大数据专场 学习资料六】第四届字节跳动青训营 - 掘金 (juejin.cn)
  2. 实时数据中心建设思路与企业实践 - 孔德振 - ppt.pptx - 飞书文档 (feishu.cn)