这是我参与「第四届青训营」笔记创作活动的第18天
企业数据架构
数据集成 - 业务数据收集
CDC
数据流向:业务数据库 -> 数据系统
Log
数据流向:client/server log -> 数据系统
系统间同步传输
存储系统间数据传输
数据生产 - 离线 & 实时
数据流向:原始数据 -> 数据处理 pipeline
数据服务
数据流向:数据系统 -> 业务系统
数据中心案例 - 房产业务数据中心
核心数据指标
-
供需(房子数量 客服数量)
-
房源
- 新增房子的录入量
-
客源
- 新增客户的录入量
-
-
过程(工作做的怎么样)
- 通话次数
- 看房次数
-
结果
- 成交合同量
数据查询要求
数据中心看板查询条件:
- 时间范围:今天前的任意日期范围
- 业务类型:租赁/买卖/全部
数据展示:
- 查询条件下的每个经纪人的汇总数据
- 支持下钻明细数据
技术要求:
- 300ms 内返回结果
- 数据是实时秒级
实时数据生产
数据分析 - 数据产出目标
用户要什么数据?
-
根据日期、业务类型(买卖、租赁)查询经纪人汇总数据
-
目标数据产出粒度:
- 经纪人 + 业务日期 + 业务类型
计算分析 - 目标
- 开发效率:较快满足用户的需求
- 资源成本:计算效率高
- 数据质量:准确无误、数据实时
计算架构 - Lambda
计算架构 - 全量计算
架构选择
计算难点解决
-
全量数据获取:hybrid source
-
精确计算
- 去重&更新处理:基于retract机制
- 乱序问题解决:流join乱序问题方案
-
计算效率
- MiniBatch-聚合计算
- MiniBatch-join
数据质量
- 任务稳定性:消费LAG、JVM、资源、算子
- 数据正确性:和离线比对、趋势比对、异常值占比
数仓建设
- 数据分层:数据复用,减少重复开发
- 数据管理:格式、元数据
数据服务
查询快
-
原始信息筛选和关联效率
- OLAP引擎索引方案
-
计算处理效率
- 计算向量化
-
只关注目标所需数据
稳定
熔断触发策略:
- 比如错误率每秒超过 10%
- 响应时间 > 5s
动作:
- 直接返回失败
限流、降级:
- 根据查询客户端、接口等配置查询限额
- 主备存储/服务集群,降级预案