如何提高数据质量?数据常见问题以及根因分析

198 阅读3分钟

“我报名参加金石计划1期挑战——瓜分10万奖池,这是我的第2篇文章,点击查看活动详情

前言

大家好,我是王老狮,在数据平台建设过程中,经常遇到需求难以管控,数据准确性不高等各种问题,今天将我们建立中台过程中遇到的数据问题以及通过什么方法去解决的做个总结

数据问题总结

数据开发层面

  1. 数据开发没有可视化的开发平台,导致数据同步流程
  2. 数据任务没有很好地进行管理,任务的调度,资源分配,稽查以及报警机制
  3. 数据模型很少有合理化的进行建模设计,更多是为了实现需求尔设计表结构,每层表存储数据利用率不高
  4. 数据开发效率低,数据报表交付慢

数据治理层面

  1. 数据资产不清晰不明了,当前有哪些数据不能清晰明白的看到或者查询到
  2. 没有定义数据标准,数据的分类分级不明确
  3. 数据问题定位慢,问题处理不及时
  4. 数据全链路跟踪,上下游业务修改无法及时感知变更以及对数据的影响。
  5. 数据没有具体的质量标准,数据准确性难以保证
  6. 数据指标没有明确的管理和定义,导致数据和业务需求方口径不一致
  7. 数据成本没有管控
  8. 无法感知数据报表被哪些用户使用,使用率高不高,对于不高的报表或者无效的报表可以及时释放数据资源以及计算资源

数据安全层面

  1. 没有数据备份的策略
  2. 没有数据开发权限的管控
  3. 没有对应的数据脱敏策略

数据需求层面

  1. 零散需求多,开发进度跟不上产品日益膨胀的需求。
  2. 数据指标没有合理的体系化建设,例如用户的一些基础指标数据可能当前都没有做全。

问题根因分析

常见的问题主要原因总结如下:

image.png

数据平台能力建设

数据开发流程的制定

解决数据开发流程不规范的问题,同时制定数据埋点规范,数据治理规范,敏感数据安全等级等。逐渐完善数据管理和开发的规章制度。 在这里插入图片描述

数据指标以及工单系统

解决数据需求管理混乱,数据指标口径不一致,数据开发工作量无法量化等问题。

在这里插入图片描述

数据地图

解决数据资产无法查询或者管理的问题

在这里插入图片描述

数据诊断

数据表诊断解决冷数据下线,对数据成本进行管理等问题

在这里插入图片描述

数据开发流程可视化

解决开发效率问题

数据监控平台

保证数据的准确性和任务 在这里插入图片描述

数据血缘

保证数据全链路检测,帮助问题排查 在这里插入图片描述

实时数据流检测

防止数据同步中断 在这里插入图片描述