对近期工作中涉及到的数据血缘相关理论知识做下记录。
什么是数据血缘?
数据血缘是指在数据的全生命周期中,数据之间自然形成的一种关系,类似于人类的血缘关系。它是一种基于技术的梳理方式,通过建立数据之间的血缘关系,可以有效地对数据进行归属性、多源性、可追溯和层次性的分类和管理,有助于提升数据问题排查、优化数据资产成本、提升数据产品及应用体验和确认数据处理逻辑。
数据治理中的数据血缘
数据血缘关系在数据治理中的应用主要包括:
建立数据映射关系:通过数据血缘关系,可以快速查找不同数据源之间的联系,建立数据映射关系。
发现数据冗余:通过分析数据血缘关系,可以发现数据冗余,避免数据重复存储,降低存储成本。
追溯数据源头:数据血缘关系可以帮助追溯数据源头,确定数据的真实性和可信度。
构建数据仓库:在构建数据仓库时,可以利用数据血缘关系将不同数据源的数据整合到一起,形成完整的数据视图。
优化数据流程:通过数据血缘关系可以优化数据流程,减少数据处理时间,提高数据质量。
数据血缘与数据地图的关系
数据血缘是指数据的来源、流经的环节以及对数据进行处理和分析的过程。它通常被用来跟踪数据在整个处理链路上的位置,以及其与其他相关数据的关系。而数据地图则是通过可视化的方式展示数据的结构和分布情况,以帮助人们更好地理解和分析数据。数据血缘和数据地图在功能和目的上有所不同,但它们却是紧密关联的。通过绘制数据地图,可以深入了解数据血缘的特点,并以此为基础,进一步优化和改善数据处理过程。例如,在数据处理中发现数据血缘的异常或者问题,可以通过数据地图来定位相关的数据源,并进行针对性的修复。同样,在设计数据处理和分析流程时,也可以通过数据地图来确定数据血缘的关键节点,从而更好地组织和优化数据处理流程。因此,数据血缘和数据地图是数据处理和分析过程中的两个关键要素,它们之间的关系是相互促进、相互依赖的。
数据血缘分析工具
常用的开源数据血缘分析工具包括Apache Atlas、GuduSQLFlow、Airflow、NiFi、Talend和LinkedInDataHub等。它们可以根据具体需求进行选择。通过这些工具,我们可以建立系统中的数据模型,更好地理解数据的来源、去向,识别数据的变换和加工过程,进而确保数据的一致性和准确性,提升业务数据质量和效率。
更多内容请大家观看参考文献吧。
参考文献
[1] . 《云原生数据中台:架构、方法论与实践》 . 彭锋/宋文欣/孙浩峰著
[2] . 《大数据平台基础架构指南》 . 刘旭晖著
[3] . 【开源】数据血缘分析平台 . 正正杂说 . 今日头条 . https://www.toutiao.com/article/7300751737131237922/?&source=m_redirect
[4] . 字节跳动数据血缘技术实现与具体用例 . DataFunTalk . 今日头条 . https://www.toutiao.com/article/7203971330226586144/?&source=m_redirect
[5] . 如何构建数据血缘系统 . jane9872 . CSDN . https://blog.csdn.net/jane9872/article/details/130440489
[6] . 主机厂数据资产血缘分析治理实践 . 之家技术 . https://mp.weixin.qq.com/s/U-urGJ3x5X5q9PFjN09Apg