ETL架构简介

701 阅读4分钟

ETL architecture

ETL架构介绍

一个高效的ETL基础设施对于任何想要将信息转化为资产、做出数据驱动的决策或跟上云数据共享的公司来说都是非常重要的,它可以将数据从源头收集起来,进行转换以实现预期目标,然后发送到预定目标。数据以其 "原始 "形式,换句话说,它首先被创建或报告的状态,通常不足以实现一个组织的预期目标。在使用数据之前必须采取一系列的步骤,通常称为ETL。在本专题中,我们将学习ETL架构。

ETL的架构

ETL是指提取、转换和加载。E-MPAC-TL这个词或收集、跟踪、描述、分析、清洁、转换和装载在今天的数据仓库世界中被使用。这意味着ETL依赖于数据和元数据的一致性。

ETL-architecture-img

  1. 提取

主要目标是尽快从源网络中获得这些来源的数据,并且不那么方便。这也指出,对于源的日期/时间戳,数据库日志表和混合根据情况,应该选择最合适的提取方法。

  1. 转换和加载

数据必须全部进行转换和加载,以合并数据,然后将合并后的数据移到显示区,即最终用户受众使用前端软件的地方。在这种情况下,应该注意ETL-工具的功能和它的使用更有效。使用ETL方法是没有必要的。数据必须尽可能地集中,而不是在中大型数据仓库环境中被个性化。ETL应该尽量减少各种源到目标创建活动的时间,这些活动构成了传统ETL工作的大部分。

  1. 监测

对数据的监控使得检查ETL周期中移动的数据成为可能,有两个关键目标。数据首先应该被审查。对输入数据的检查应该有一个适当的平衡,在完成太多的检查时,不要拖累整个ETL周期。在拉尔夫-金巴尔中用于筛选方法的内部方法可以在这里应用。这种方法可以根据一套预先定义的元数据业务规则,可靠地捕获所有的错误,并通过一个简单的星形方案促进这些错误的记录,可以看到数据质量随时间的变化。其次,ETL的效率应该是居中的。这种元数据可以与所有的大小和事实表和审计方面的数据相联系。

  1. 质量保证

质量保证是一种方法,它可以根据不同阶段之间的要求进行计算,并可以检查数值的完整性;在ETL的不同阶段之间,我们是否还有相同的记录数量或特定行为的总数?这些数据将作为元数据被存储。最后,应该预见整个ETL周期中的数据历史,包括错误记录。

  1. 数据剖析

这用于处理源统计数据。其目的是了解数据剖析的起源。数据剖析将通过分析和验证数据和格式,通过检测和验证整个数据源的冗余数据,使用分析技术分析信息的内容、结构和一致性。使用正确的工具来实现这一过程的自动化是至关重要的。它提供了大量的信息。

  1. 数据分析

数据分析是用来解释剖析数据的效果的。数据质量问题,包括缺失的数据,不正确的数据,无效的信息,限制问题,父母-子女问题,包括孤儿数据,重复的数据,在审查数据集时更容易发现。这种评估的结果必须被准确记录。数据处理应该成为应对源和数据仓库团队之间未解决的问题的联系工具。映射源在很大程度上依赖于源分析的一致性。

  1. 源分析

目标不应该只在源上,也应该在环境上,这样才能获得源文件。源应用程序的未来取决于数据的当前来源、相应的数据模型/元数据存储库以及源所有者对源模型和业务规则的有效实施。为了检测可能影响数据存储和相关ETL过程的变化,与源的所有者建立定期会议是很重要的。

  1. 清理

本节中发现的错误,基于规则元数据的集合,可以被纠正。在这种关系中,必须区分被完全或部分拒绝的记录,以及通过纠正不确切的数据字段、数据格式的修改等来手动纠正问题或修复数据。