携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第21天,点击查看活动详情
数据沿袭
什么是数据沿袭?
数据沿袭揭示了数据的生命周期 — 它旨在显示从头到尾的完整数据流。数据沿袭是在数据从数据源流向消费时理解、记录和可视化数据的过程。这包括数据在此过程中经历的所有转换 — 数据是如何转换的、更改的内容以及更改的原因。
数据沿袭过程
数据沿袭使公司能够:
- 跟踪数据处理中的错误
- 以更低的风险实施流程变更
- 充满信心地执行系统迁移
- 将数据发现与全面的元数据视图相结合,以创建数据映射框架
数据沿袭可帮助用户确保其数据来自受信任的源,已正确转换并加载到指定位置。当战略决策依赖于准确的信息时,数据沿袭起着重要作用。如果数据过程没有被正确跟踪,数据几乎就变得不可能验证,或者至少是非常昂贵和耗时的。
数据沿袭侧重于验证数据的准确性和一致性,允许用户从源到目的地搜索上游和下游,以发现异常并纠正它们。
为什么数据沿袭很重要?
仅仅了解特定数据集的来源并不总是足以理解其重要性,执行错误解决,了解流程更改以及执行系统迁移和更新。
了解谁进行了更改、如何更新以及使用的流程,可以提高数据质量。它允许数据保管人确保数据在其整个生命周期中受到保护的完整性和机密性。
数据沿袭可以在以下方面产生重大影响:
- 对数据的战略依赖 - 良好的数据使企业保持运转。所有部门,包括营销、制造、管理和销售,都依赖于数据。从研究、现场和运营系统中收集的信息有助于优化组织系统,从而改进产品和服务。通过数据沿袭提供的详细信息有助于更好地了解此数据的含义和有效性。
- 数据不断变化 — 数据随时间变化。收集和积累数据的新方法必须结合起来和分析,并由管理层使用来创造商业价值。数据沿袭提供跟踪功能,可以协调并充分利用新旧数据集。
- 数据迁移 — 当 IT 需要将数据移动到新的存储设备或新的软件系统时,他们需要了解数据源的位置和生命周期。数据沿袭可快速轻松地提供此信息,从而使迁移项目更轻松、风险更低。
- 数据治理 — 数据沿袭中跟踪的详细信息是提供合规性审核、改进风险管理以及确保按照组织策略和法规标准存储和处理数据的好方法。
数据沿袭和数据分类
数据分类是根据用户配置的特征将数据分类为类别的过程。
数据分类是信息安全和合规性计划的重要组成部分,尤其是在组织存储大量数据时。它通过帮助了解敏感和受监管数据的本地和云存储位置,为数据安全策略提供了坚实的基础。
此外,数据分类可以提高用户的工作效率和决策能力,删除不必要的数据,并降低存储和维护成本。
当与数据沿袭结合使用时,数据分类尤其强大:
- 数据分类有助于查找敏感、机密、业务关键或符合合规性要求的数据。
- 对于这种性质的每个数据集,数据沿袭工具可用于调查其整个生命周期,发现完整性和安全问题,并解决这些问题。
数据沿袭技术和示例
以下是一些用于对战略数据集执行数据沿袭的常用技术。
基于模式的谱系
此技术执行沿袭,而不处理用于生成或转换数据的代码。它涉及表、列和业务报表的元数据评估。使用此元数据,它通过查找模式来调查沿袭。例如,如果两个数据集包含一个具有相似名称和非常数据值的列,则很可能在其生命周期的两个阶段中这是相同的数据。然后将这两列在数据沿袭图中链接在一起。
基于模式的沿袭的主要优点是它只监视数据,而不是数据处理算法,因此它与技术无关。它可以在任何数据库技术中以相同的方式使用,无论是Oracle,MySQL还是Spark。
缺点是这种方法并不总是准确的。在某些情况下,它可能会错过数据集之间的连接,特别是如果数据处理逻辑隐藏在编程代码中,并且在人类可读的元数据中不明显。
按数据标记进行沿袭
此技术基于转换引擎以某种方式标记或标记数据的假设。为了发现血统,它从头到尾跟踪标签。仅当您具有控制所有数据移动的一致转换工具,并且您知道该工具使用的标记结构时,此方法才有效。
即使存在这样的工具,通过数据标记的沿袭也无法应用于没有该工具生成或转换的任何数据。从这个意义上说,它只适用于在封闭的数据系统上执行数据沿袭。
自足血统
某些组织具有提供存储、处理逻辑和主数据管理 (MDM) 的数据环境,以便集中控制元数据。在许多情况下,这些环境包含一个数据湖,用于存储其生命周期所有阶段的所有数据。
这种类型的独立系统本身可以提供血统,而无需外部工具。但是,与数据标记方法一样,lineage 将不知道在此受控环境之外发生的任何事情。
解析的世系
这是最先进的沿袭形式,它依赖于用于处理数据的自动读取逻辑。此技术对数据转换逻辑进行反向工程,以执行全面的端到端跟踪。
此解决方案的部署很复杂,因为它需要了解用于转换和移动数据的所有编程语言和工具。这可能包括提取-转换-加载 (ETL) 逻辑、基于 SQL 的解决方案、JAVA 解决方案、旧数据格式、基于 XML 的解决方案等。
用于数据处理、引入和查询的数据沿袭
构建数据链接系统时,需要跟踪系统中转换或处理数据的每个流程。数据需要在数据转换的每个阶段进行映射。您需要跨数据库和 ETL 作业跟踪表、视图、列和报告。
为了便于执行此操作,请从每个步骤中收集元数据,并将其存储在可用于沿袭分析的元数据存储库中。
下面介绍了如何在数据管道的不同阶段执行沿袭:
- 数据引入 - 跟踪数据引入作业中的数据流,并检查源系统和目标系统之间的数据传输或映射中的错误。
- 数据处理 - 跟踪对数据及其结果执行的特定操作。例如,数据系统读取文本文件、应用筛选器、对特定列中的值进行计数,然后写入另一个表。每个数据处理阶段都单独分析,以识别错误或安全/合规性违规。
- 查询历史记录 - 跟踪从数据库和数据仓库等系统生成的用户查询或自动报告。用户可以执行筛选器、联接等操作,从而有效地创建新数据集。这使得对重要查询和报告执行数据沿袭以验证流程数据至关重要。世系数据还可以帮助用户优化其查询。
- 数据湖 - 跟踪用户对不同类型的对象或不同数据字段的访问,并识别安全或治理问题。由于大量的非结构化数据,这些问题在大数据湖中实施起来可能很复杂。