数据就是黄金正在被广泛的认可,数据的生产就像淘金,生产的步骤繁琐还需消耗大量的计算资源。而数据的多样性和差异性使得数据生产不得不不断的迭代处理逻辑, 分层数仓的设计简化了单层数据模型的设计,但增加了额外的计算资源消耗,当出现数据质量问题时更是质控者的噩梦。梳理清楚数据的来源、经过那些处理步骤、数据间存在那些引用和依赖的关系,这些信息归纳起来就是数据的血缘关系。而SQL强大的描述能力被广泛的应用在各种数据工具,分析SQL的AST是获取数据血缘关系的一个重要来源。个人开发了一个分析SQL获取数据血缘关系的小工具:www.sqllineage.com/demo
由于是利用个人业余时间,时间仓促,不少功能还有待完善,欢迎提出宝贵的改进意见。平时工作较忙,请勿电话,但非常欢迎邮件和微信留言。
目前提供的功能还非常简单,输入SQL点击“SQL分析”按钮即可图形化的显示数据的血缘关系。
目标的功能:
- 采集、存储、分析数据血缘关系。
2.分析血缘关系优化数据生产,节省计算资源。
3.追溯数据,快速定位问题数据。
4.利用数据的引用关系聚合数据,完成复杂的增量数据生产。