阅读 199

一个真实的数仓项目总结

背景

  1. 公司业务整合,指标管理混乱,数据不一致问题严重,另外指标的开发和迭代效率也比较低;
  2. 举措:进行集团指标认证,数据指标重新开发;

建设前

面临的问题

  1. 指标非常多,业务复杂,变化快;
  2. 人少,排期紧张,如果提高开发效率;
  3. 核心诉求满足:数据一致性;数据开发效率高,响应快;用户理解使用效率高;

入手点

  1. 面向需求,采用维度建模;

  2. 参考OneData方法论进行指标设计思考,解决指标一致性问题(同名同义,异名异义)

  3. 参考OneModel规范定义的思考(逻辑表,物理表),进行模型方案的设计,解决开发标准化,扩展性以及开发效率的问题(智能模型构建);

建设中

1.需求梳理

  1. 梳理指标定义,计算逻辑;
  2. 了解业务,梳理业务流程;
  3. 对指标进行拆解(原子指标,衍生指标,复合指标,时间周期,业务限定修饰词);
  4. 进行指标的命名规范(指标命名,业务限定修饰词命名),编写数据字典;

2.数仓规划

  1. 数据分层划分;
  2. 数据主题域,业务过程划分;
  3. 数仓规范设计(数据表命名规范,字段命名规范,血缘依赖规范,数据表结构规范….),产品化、自动构建思考(提高开发和管理效率)
  4. 事实表,业务限定标签表,应用汇总模型表设计

3.开发实施

  1. 开发效率:模型标准化,接口及组件化(表结构一致,多层同步实施);
  2. 管理效率:产品工具研发(数仓规划,模型管理,指标管理,模型批量构建工具)
  3. 数据测试

建设后

  1. 用户使用思考:数据可见、可懂、可用(数仓白皮书、指标白皮书、指标图谱工具)
  2. 数据质量问题:数据完整性,准确性,一致性
  3. 数据标准稽查:标准稽查,依赖巡检
  4. 生命周期管理:权限管理,上下线管理
  5. 数据价值量化:用户使用情况分析,存储分析,陈本分析
  6. 数据应用探索:数据产品,场景化赋能
文章分类
人工智能
文章标签