数据中心实践思路丨青训营笔记

73 阅读2分钟

这是我参与「第四届青训营」笔记创作活动的第18天

企业数据架构

Unknown.png

数据集成 - 业务数据收集

CDC

image.png 数据流向:业务数据库 -> 数据系统

Log

image-2.png 数据流向:client/server log -> 数据系统

系统间同步传输

截屏2022-08-17 14.06.45.png 存储系统间数据传输

数据生产 - 离线 & 实时

截屏2022-08-17 14.07.57.png 数据流向:原始数据 -> 数据处理 pipeline

数据服务

Unknown-2.png 数据流向:数据系统 -> 业务系统

数据中心案例 - 房产业务数据中心

Unknown-3.png

核心数据指标

  • 供需(房子数量 客服数量)

    • 房源

      • 新增房子的录入量
    • 客源

      • 新增客户的录入量
  • 过程(工作做的怎么样)

    • 通话次数
    • 看房次数
  • 结果

    • 成交合同量

数据查询要求

数据中心看板查询条件:

  • 时间范围:今天前的任意日期范围
  • 业务类型:租赁/买卖/全部

数据展示:

  • 查询条件下的每个经纪人的汇总数据
  • 支持下钻明细数据

技术要求:

  • 300ms 内返回结果
  • 数据是实时秒级

实时数据生产

数据分析 - 数据产出目标

用户要什么数据?

  • 根据日期、业务类型(买卖、租赁)查询经纪人汇总数据

  • 目标数据产出粒度:

    • 经纪人 + 业务日期 + 业务类型

计算分析 - 目标

  • 开发效率:较快满足用户的需求
  • 资源成本:计算效率高
  • 数据质量:准确无误、数据实时

计算架构 - Lambda

Unknown-4.png

计算架构 - 全量计算

截屏2022-08-17 14.16.53.png

架构选择

截屏2022-08-17 14.18.05.png

计算难点解决

  • 全量数据获取:hybrid source

  • 精确计算

    • 去重&更新处理:基于retract机制
    • 乱序问题解决:流join乱序问题方案
  • 计算效率

    • MiniBatch-聚合计算
    • MiniBatch-join

数据质量

  • 任务稳定性:消费LAG、JVM、资源、算子
  • 数据正确性:和离线比对、趋势比对、异常值占比

数仓建设

Unknown-5.png

  • 数据分层:数据复用,减少重复开发
  • 数据管理:格式、元数据

数据服务

查询快

  • 原始信息筛选和关联效率

    • OLAP引擎索引方案
  • 计算处理效率

    • 计算向量化
  • 只关注目标所需数据

稳定

Unknown-7.png 熔断触发策略:

  • 比如错误率每秒超过 10%
  • 响应时间 > 5s

动作:

  • 直接返回失败

限流、降级:

  • 根据查询客户端、接口等配置查询限额
  • 主备存储/服务集群,降级预案