数据中心建设实践思路与企业实践 | 青训营笔记

用户3398530186343

2022-08-23 182 阅读2分钟

这是我参与「第四届青训营」笔记创作活动的第18天

1. 企业数据架构

计算/存储引擎：Flink、Spark、ClickHouse、Doris、Kafka、Hive...
数据集成：业务数据收集(数据库CDC、业务日志等)、Flink Connector体系
数据治理：数据质量、数据安全、数据生命周期...
数据开发：大数据开发工具套件、发布运维工具、元数据管理工具...

2. 数据中心案例

以房产业务举例说明数据中心建设目标和要求
房产业务介绍：房产服务平台、经纪人、客户
数据中心核心指标分析：供需、过程、结果
数据中心查询要求：查询条件、数据结果、技术要求

3. 实时数据生产

案例生产方案分析：数据探查、明确指标口径和产出粒度、生产架构、计算难点
数据探查：分析数据信息是否齐全，即基于原始数据计算指标可行性
数据架构：lambda架构和全量计算架构比对，确定合适的生产架构方案
计算难点解决
- 全量数据获取：hybrid source
- 精确计算
  - 去重&更新处理：基于retract机制
  - 乱序问题解决：流join乱序问题方案
- 计算效率
  - MiniBatch-聚合计算
  - MiniBatch-join
数据质量
- 任务稳定性：消费LAG、JVM、资源、算子
- 数据正确性：和离线比对、趋势比对、异常值占比
实时数仓
- 数据分层：数据复用，减少重复开发
- 数据管理：格式、元数据

3.1 查询快-应用优化

原始信息关联
- Local Join:如计算带看量，带看数据和房信息按照house_id分布，无shuffle io开销
- 预关联:直接生产“大宽表”
计算复杂度
- 预计算:提前聚合到特定粒度，如带看量聚合到经纪人+天+业务类型
- 提升信息密度:bit化

3.2 稳定-如何解决

熔断触发策略:
- 比如错误率每秒超过10%
- 响应时间>5s
动作:
- 直接返回失败
限流、降级
- 限流:根据查询客户端、接口等配置查询限额
- 降级:主备存储/服务集群，降级预案

总结

这节课我了解了大数据架构中数据流向，明白了开发流程。

参考

实时数据中心建设思路与企业实践 - 孔德振 - ppt.pptx - 飞书文档 (feishu.cn)

【大数据专场学习资料六】第四届字节跳动青训营 - 掘金 (juejin.cn)