这是我参与「第四届青训营 」笔记创作活动的第18天
1. 企业数据架构
- 计算/存储引擎:Flink、Spark、ClickHouse、Doris、Kafka、Hive...
- 数据集成:业务数据收集(数据库CDC、业务日志等)、Flink Connector体系
- 数据治理:数据质量、数据安全、数据生命周期...
- 数据开发:大数据开发工具套件、发布运维工具、元数据管理工具...
2. 数据中心案例
- 以房产业务举例说明数据中心建设目标和要求
- 房产业务介绍:房产服务平台、经纪人、客户
- 数据中心核心指标分析:供需、过程、结果
- 数据中心查询要求:查询条件、数据结果、技术要求
3. 实时数据生产
-
案例生产方案分析:数据探查、明确指标口径和产出粒度、生产架构、计算难点
-
数据探查:分析数据信息是否齐全,即基于原始数据计算指标可行性
-
数据架构:lambda架构和全量计算架构比对,确定合适的生产架构方案
-
计算难点解决
- 全量数据获取:hybrid source
- 精确计算
- 去重&更新处理:基于retract机制
- 乱序问题解决:流join乱序问题方案
- 计算效率
- MiniBatch-聚合计算
- MiniBatch-join
-
数据质量
- 任务稳定性:消费LAG、JVM、资源、算子
- 数据正确性:和离线比对、趋势比对、异常值占比
-
实时数仓
- 数据分层:数据复用,减少重复开发
- 数据管理:格式、元数据
3.1 查询快-应用优化
-
原始信息关联
- Local Join:如计算带看量,带看数据和房信息按照house_id分布,无shuffle io开销
- 预关联:直接生产“大宽表”
-
计算复杂度
- 预计算:提前聚合到特定粒度,如带看量聚合到经纪人+天+业务类型
- 提升信息密度:bit化
3.2 稳定-如何解决
-
熔断触发策略:
- 比如错误率每秒超过10%
- 响应时间>5s
-
动作:
- 直接返回失败
-
限流、降级
- 限流:根据查询客户端、接口等配置查询限额
- 降级:主备存储/服务集群,降级预案
总结
这节课我了解了大数据架构中数据流向,明白了开发流程。