数据集成权威指南——数据集成简介

183 阅读34分钟

数据集之所以重要,是因为它为数据管理与分析领域获得有洞察力的结论奠定了基础。在当今数据驱动的世界里,能够快速从多种来源收集并整合(在体量、类型与复杂度上都不断增长的)数据,至关重要。

本章将深入探讨数据集成这一概念,阐述其原理、重要性以及在我们日益以数据为中心的世界中对你日常工作的影响。

我们将讨论以下主题:

  • 数据集成的定义
  • 现代数据栈简介
  • 数据文化与数据战略
  • 数据集成的方法、工具与技术

数据集成的定义

数据集成是将来自多个来源的数据进行汇聚,以帮助企业获得洞察并做出明智决策的过程。在大数据时代,企业会持续产生海量的结构化非结构化数据。要真正发挥这些信息的价值,必须将其以便于高效分析与解读的格式加以整合。

ETL(Extract-Transform-Load,抽取-转换-加载) 为例,它包含多个阶段:数据抽取转换加载

  • 抽取(Extract) :从各种来源收集数据,如数据库、数据湖、API 或平面文件等。
  • 转换(Transform) :对抽取的数据进行清洗、丰富与标准化转换,使其更易于合并与分析
  • 加载(Load) :将已转换的数据写入目标系统,例如数据仓库,便于相关干系人进行存储、访问与分析。

数据集成不仅涉及不同数据类型、格式与来源的处理,还必须应对数据质量、一致性与安全等挑战。此外,数据集成还需具备可扩展性与灵活性,以适应瞬息万变的数据生态。下图(随后给出)展示了数据集成的覆盖范围

image.png

理解数据集成作为一个过程的重要性
将数据集成视为一个过程对企业有效释放数据价值至关重要。

WARNING 警告
数据集成(data integration)不应与数据摄取(data ingestion)混为一谈。数据摄取是指以最小转换的方式,将来自多种来源的数据移动与复制并加载到数据层的初始环节。它是数据集成的必要但不充分步骤;数据集成还包括数据清洗、数据丰富与数据转换等后续工作。

设计良好、执行到位的数据集成战略能够帮助组织打破数据孤岛精简数据管理,并提炼有价值的洞见以支撑更优决策。

现代数据驱动型企业中数据集成的重要性

随着组织越来越依赖数据来指导决策、运营与目标,连接分散的数据源变得愈发关键。下面的要点强调了数据集成在当今数据驱动企业中的重要性。

组织与资源(Organization and resources)

  • 打破数据孤岛:当不同部门各自存放数据时,缺乏统一视角会阻碍协作与生产力,并削弱洞察能力。数据集成将多源数据集中到可访问的统一位置,实现跨组织的顺畅访问与分析,促进沟通协作数据驱动文化的形成,从而显著提升整体业务表现。
  • 精简数据管理:通过自动化整合流程,避免手工合并多源数据,降低错误、不一致与重复风险,确保相关方获取准确且最新的信息,帮助组织做出更明智的决策并更高效地配置资源。
  • 实时洞察能力:可从 IoT 流数据社交平台等来源获取实时洞察,更快速地响应市场变化、客户需求与运营问题;同时发现趋势与模式,支持前瞻性决策并保持竞争力。

构建可信数据世界(For a world of trustworthy data)

  • 客户 360 视图与体验提升:整合各触点数据,构建客户全景画像,以提供个性化体验与精准营销,进而提升满意度、收入与忠诚度
  • 数据质量改进:通过清洗、丰富、标准化显著提升数据质量;高质量数据是准确可靠分析与更佳业务结果的前提。
  • 治理与合规:集中整合有助于遵循 GDPR(通用数据保护条例)CCPA(加州消费者隐私法案) 等法规,更有效地追踪、监控并控制对敏感信息的访问。

战略决策解决方案(Strategic decision-making solutions)

  • 全局视角与洞察:有效的数据集成为企业提供全面视图,可挖掘原本难以识别的隐藏模式、趋势与洞见,支撑明智决策。
  • 跨源融合推动创新:将不同来源的数据结合,可解锁新洞见并催生创新

下图展示了数据集成在现代商业中的位置。

image.png

公司可以利用这些洞见开发新产品、服务与商业模式,从而推动增长并获取竞争优势。

区分数据集成与其他数据管理实践(Differentiating data integration from other data management practices)

围绕“数据”的主题极其庞杂,在这个生态里很容易迷失。下面澄清一些常见术语,它们可能与数据集成相关,也可能并不属于数据集成本身:

  • 数据仓库(Data warehousing)
    将来自多源的大量数据采集、存储与管理于一个集中式库中。数据集成是构建数据仓库的关键组成,但数据仓库还涉及数据建模、索引与查询优化等,以实现高效检索与分析。
  • 数据迁移(Data migration)
    在系统升级或整合期间,将数据从一个系统/存储迁移到另一个。数据集成可能包含转换与清洗等迁移任务,但迁移的首要目标是搬运数据而不从根本上改变其结构或内容
  • 数据虚拟化(Data virtualization)
    允许在无需物理搬移或复制数据的情况下,跨源访问、聚合与操作数据。它提供统一、实时的数据视图,让用户在避免传统集成复杂性的同时作出更明智决策。
  • 数据联邦(Data federation)
    数据虚拟化的一个子集:在不物理集中数据的前提下,提供跨多源的统一视图。通常关注将多个自治的关系型数据存储虚拟成一个更大的“单一数据存储”。与之相比,数据虚拟化更通用,可覆盖从 RDBMSNoSQL 等多类型数据。
  • 数据同步(Data synchronization)
    维护分布于不同位置/系统的多份数据一致性与准确性,确保对某一数据源的变更能自动反映到所有拷贝。数据集成可能包含同步任务,但其核心关注是融合多源数据,形成统一视图
  • 数据质量管理(Data quality management)
    在数据全生命周期中维护/提升准确性、一致性与可靠性,涉及清洗、去重、校验、丰富等。数据质量是数据集成的重要方面,但其范畴更广,覆盖多种数据管理实践。
  • 数据金库建模(Data vault)
    由 Dan Linstedt 提出的一种企业数据仓库建模方法,融合第三范式(3NF) (第 4 章将述)、维度建模与其他设计原则的优点。其重点是构建灵活、可扩展、可适应的架构,以应对快速变化的业务需求,并易于集成新数据源。

通过将数据集成与上述相关实践加以区分,我们能更清楚地理解其在现代数据栈中的独特角色。数据集成对于从多源异构数据中萃取有价值洞见至关重要,确保信息准确、最新、可随取随用以支撑决策。

数据集成面临的挑战(Challenges faced in data integration)

数据集成是一个复杂过程,企业与数据服务需要解决多重挑战,才能有效地将多源数据整合为统一视图

技术类挑战(Technical challenges)

随着组织规模增长,数据的类型与体量也随之扩大,技术复杂性上升。需要系统性方法以在各类数据间实现无缝集成

  • 数据异构性(Data heterogeneity) :格式、结构与类型多样。将关系型结构化数据非结构化文本、社交内容等融合,需借助高级转换标准化技术形成统一视图。
  • 数据体量(Data volume) :当今企业常处理 TB 至 PB 级数据。此类大规模集成需可扩展且高效的技术与工具,避免牺牲性能。
  • 数据时延(Data latency) :业务需要实时/准实时洞察,低时延地整合多源数据极具挑战,尤其在海量数据场景。需要采用实时集成方法与技术以降低延迟、加速访问。

INDUSTRY GOOD PRACTICE 行业最佳实践
可借助云端技术获得弹性、灵活与速度,以应对异构、体量与时延挑战;同时降低基础设施成本与运维负担,让组织聚焦核心业务。

完整性类挑战(Integrity challenges)

在完成数据采集(最好在初始配置/落地阶段)后,需维护数据完整性以支撑可靠指标与准确决策,并确保合适的人访问合适的数据

  • 数据质量(Data quality) :缺失、重复或不一致会扭曲洞察。应在集成全流程中实施清洗、校验与丰富以维持并提升质量。
  • 数据安全与隐私(Data security & privacy) :集成敏感信息时,必须遵循 GDPRHIPAA 等法规,落实加密、访问控制、匿名化/脱敏等措施,保护数据安全。
  • 主数据管理(MDM) :对客户、产品、供应商等非交易型主实体实施 MDM,建立单一数据真相,减少重复,确保跨系统的一致性,并对齐多源数据模型,支撑有效分析与决策。
  • 参照完整性(Referential integrity) :确保跨库/表之间的关系在集成期间与之后保持一致,如外键稳定指向对应的主键。应实施参照完整性控制,避免孤儿记录与不一致引用,防止分析与 BI 偏差。

NOTE 注
数据质量是数据集成的关键要素。应部署数据质量工具与技术,确保在集成全流程中的准确性、完整性与一致性

知识与能力类挑战(Knowledge challenges)

要落地并持续运转一套完备的数据集成平台,必须建立、积累并长期保有相关知识与技能:

  • 集成复杂性:跨来源、系统与技术的集成本身难度大。应采用功能完备的集成平台/工具,以支持多数据源与多种协议,简化并降维复杂性。
  • 资源约束:集成项目往往需要资深数据工程师/架构师与专用工具/基础设施。人才短缺、预算限制或设施不足都会掣肘推进。

企业唯有理解并正视这些问题,方能制定有效的数据集成策略,释放数据资产的全部潜力。健全的集成流程将带来可操作的洞见更优的决策

TIP 提示
为应对集成复杂性与资源约束,可采用易用、协作友好的工具来简化设计与执行数据集成工作流;同时赋能非技术用户按需取数与使用,降低对专家的依赖。

现代数据栈简介(Introducing the modern data stack)

现代数据栈是由一组工具、技术与平台构成的组合,旨在简化从多个来源提取、转换与加载(ETL)数据到集中式存储系统的过程。栈内组件通常会按企业的具体需求进行取舍与搭配,不仅追求简洁易用,也强调成本效益。借助这套数据栈,企业能够对数据进行管理、分析并获取洞见,从而做出更明智的决策。当前数据栈的组件可大致分为下图所示的几类。

image.png

首先,需要识别并落实将要集成进数据平台的信息在数据完整性方面的识别、采集与度量等构成要素。由众多组件构成的现代数据栈为组织提供了灵活且可扩展的框架,用于管理数据并从中创造价值。通过选用合适的工具、技术与平台,组织可以打造一个强健的数据生态,支持数据驱动的决策与业务目标。

Data sources(数据源)

数据栈起点是数据源,包括关系型数据库、NoSQL 数据库、平面文件、API,或由传感器/设备产生的数据流等。这些来源负责生成原始数据,随后会在现代数据栈中被摄取、处理与存储。

TIP
数据源是现代数据栈的起点,为后续摄取、处理与存储提供原始数据。组织应识别并评估现有与潜在数据源的相关性、质量与可用性,以匹配其业务目标。

Data ingestion(数据摄取)

数据摄取是以最小转换的方式,将来自各源的数据移动/复制并加载到数据层的第一环节。摄取既可用于实时流式变更数据捕获(CDC)API,也可采用批处理。它是确保数据传输顺畅高效的第一步。可使用 AirbyteFivetran 等工具构建该层。

Storage(存储)

现代数据栈包含多种用于管理与存放数据的存储技术。选项从以通用高效存储与冗余为主(分析侧不做专门优化、但可适应多种场景)的方案,到在数据仓库等层次进行复杂联接/交叉查询时提供高性能专用型方案不等。存储方式取决于组织的具体需求与数据类型。诸如 MinIO、Ceph、Scality兼容 S3 API 的分布式对象存储,可成为存储层的良好基础。

Transformation(转换)

数据转换是将不同来源的数据整合并创建统一视图的过程。该过程包含清洗、校验、丰富与转换(过滤、映射、查找、聚合等),以确保数据的一致性与质量。此阶段对在系统与应用间传递与同步各类数据格式至关重要——此步骤也常被称为数据集成。可使用 dbtSpark计算引擎处理数据。

NOTE
转换是现代数据栈的关键环节,确保已摄取的数据被标准化与一致化,便于分析与消费。组织应根据业务需求目标系统规范,定义清晰的转换逻辑与规则

Consumption(数据消费/使用)

数据消费可有多种形态,采用不同方法对信息进行分析与可视化以服务不同目的。常见三类包括报表/仪表盘数据科学企业绩效管理(EPM)

  • 报表与仪表盘:用于监控绩效并支撑数据驱动决策。报表提供结构化、细化的信息;仪表盘将关键指标(KPI)与度量可视化,便于相关方快速把握整体健康度。可结合 Tableau基于 Presto 的方案实现。
  • EPM(企业绩效管理) :一种覆盖公司规划、合并与报告的综合方法,将预算、预测、财务分析等管理流程联动起来,以提升整体绩效,使业务战略与运营实践保持一致,从而保持竞争优势。
  • 数据科学:跨学科领域,利用前沿工具与算法从海量、复杂数据中提炼洞见。数据科学家运用机器学习、统计建模与人工智能等技术预测趋势、发现模式、优化流程,助力更明智的战略决策。

TIP
数据消费是现代数据栈的最终目标:使组织能够针对不同用途对集成数据进行分析与可视化。应依据自身的分析需求与能力选择合适的工具与方法。

Management and monitoring(流程管理与监控)

工作流管理与监控保障流程顺畅执行与准时、准确地交付信息。工作流管理聚焦于设计、自动化与协调各项任务,以精简流程并降低出错风险;监控则维持数据集成工作流的有效性与可靠性。通过持续跟踪集成任务进度,监控可及早发现瓶颈、性能问题与数据差异,从而使组织主动处置问题并确保数据质量。

Data governance and observability(数据治理与可观测性)

数据治理是规范数据采集、存储与使用的一整套政策、方法与实践。其关注数据质量、安全、隐私与合规,以确保数据准确、一致且对授权用户可访问。成熟的治理框架有助于维系数据信任、降低风险并提升决策能力。

可观测性(Observability)则指对数据生态中诸多组件进行监测与理解的能力。需要对指标(metrics)日志(logs)链路追踪(traces)进行监控与可视化,以洞察数据管道、系统与应用的性能、可靠性与功能性。有效的可观测性可以前瞻性地发现并修复问题、优化资源使用,并确保整个基础设施上的数据持续流动。与监控(monitoring)相比,可观测性更侧重组织内部数据质量与数据使用层面的可见性,而非纯技术因素。在许多场景中,DataHub 等工具有助于落地可观测性。

云端技术在现代数据栈中的角色(The role of cloud-based technologies in the modern data stack)

基于云的技术在塑造现代数据栈方面发挥了重要作用,相较传统本地(on-premises)方案,云为组织带来更高的灵活性、可扩展性与成本效益。需要强调的是,云战略并不局限于公有云;也可在私有云内通过多种方案落地。以下要点凸显了云端技术在现代数据栈中的重要性:

  • 可扩展性(Scalability) :云服务几乎提供无限扩展,企业可按需快速调整计算、存储与处理能力,避免过度预置,做到用多少、付多少
  • 成本效益(Cost effectiveness) :采用云基础设施与服务可降低硬件、软件与运维的资本性支出;按使用量计费帮助更好地管理运营成本,同时享受前沿技术能力。
  • 速度与敏捷(Speed and agility) :云方案能迅速开通与部署数据栈组件,更快响应业务变化;可在无需前期重资投入的前提下,试验新工具与新技术
  • 全球可达性(Global availability) :云厂商在全球多区域部署数据中心,提供低延迟与高可用。借助就近部署,企业可让数据更靠近客户,提升性能与体验。
  • 集成与互操作性(Integration & interoperability) :云端数据栈组件天然与其他云服务顺畅集成,更易在多平台间连通与编排数据活动,提升处理效率。
  • 托管服务(Managed services) :云服务商为集成、转换、存储与分析等组件提供托管能力,负责底层基础设施、维护与更新,让企业聚焦核心业务数据价值
  • 安全与合规(Security & compliance) :云厂商在安全与合规上持续投入,以满足行业标准与法规。组织可利用加密、身份与访问控制、网络安全等高级功能保护数据并满足合规要求。
  • 工具与服务生态(Tools & services ecosystem) :云生态汇聚了面向现代数据栈的丰富工具与服务,便于企业按自身场景与目标择优组合,激发创新、驱动增长

总体而言,范式已然转变:云端技术重塑了现代数据栈,为企业提供有效管理数据资产所需的灵活性、可扩展性与成本优势。通过实施云端方案,组织可以建设稳健、敏捷且安全的数据栈,支撑数据驱动决策与业务目标的实现。

从传统到云端的数据栈演进(The evaluation of the data stack from traditional to cloud-based solutions)

多年来,数据栈经历了显著演进:从传统的本地部署转向云端技术。驱动这一变化的,是数据体量的快速增长以及对实时数据处理与分析日益增长的需求。云端方案由此成为更契合当下与未来的数据栈选择。

image.png

传统数据栈(Traditional data stack)
在数据管理的早期,组织主要依赖单体、本地部署(on-premises)的方案,如关系型数据库与数据仓库。这些系统面向结构化数据设计,在可扩展性、灵活性与集成能力方面往往受限。数据集成与处理通常依赖 ETL 流程,既耗时又耗费资源。

大数据技术与数据湖架构的兴起
Hadoop、NoSQL 等大数据技术的出现,使数据栈格局发生重大转变。这些技术用于处理海量的非结构化与半结构化数据,使组织能够处理并分析多元数据源。分布式处理系统的落地显著提升了对大规模数据集的处理与分析能力。

随着对多类型数据的存储与处理需求增长,数据湖(Data Lake)成为传统数据仓库的流行替代方案。数据湖是大规模存储库,可按原生格式存放原始、未处理的数据,具备更强的灵活性与可扩展性。组织开始采用数据湖架构以容纳多样的数据类型与来源,从而开展更高级的分析并获取更深层的洞见。

云端解决方案(Cloud-based solutions)
随着云计算普及,企业开始使用云服务来构建与管理数据栈。相较传统方案,云具备几乎无限的扩展能力、成本效益以及丰富的工具与服务可选。云端数据存储方案逐渐流行,用于在云上存放数据;同时,托管型服务提供可扩展的数据仓库与分析能力。

现代数据栈(Modern data stack)
现代数据栈继承并融合前几代栈的优势,形成更优的解决方案;其通用性与适配性使其在快速变化的技术环境中保持相关性。物联网(IoT)的兴起对现代数据栈影响尤为关键:全球数十亿连接设备持续产生海量数据,推动对高效、可扩展的流式处理方案的需求。这类系统专为实时数据处理而设,使企业能够基于最新事实做出更明智的决策。现代数据栈也强调数据质量、治理与安全,以确保企业能够信任并有效管理其数据。

采用现代数据栈的收益(The benefits of adopting a modern data stack approach)

  • 可扩展性(Scalability) :基于云的现代数据栈提供几乎无限扩展,可在不受基础设施限制的前提下应对增长的数据量;随需求弹性伸缩以获得最佳性能与成本效率。
  • 灵活性(Flexibility) :面向多样数据源与类型设计,便于整合并处理来自不同系统与格式的数据,支持更全面、深入的决策。
  • 敏捷性(Agility) :利用现代工具与服务,加速集成、转换与分析流程,快速响应业务变化与市场环境,保持竞争力。
  • 成本效率(Cost efficiency) :依托云的按需计费与免前期重投,避免昂贵的本地基础设施投入,优化数据管理开支并更高效地配置资源。
  • 更佳的数据质量与治理(Improved data quality & governance) :强调质量、治理与安全,通过最佳实践与先进工具确保数据准确、完整、一致,从而得到更可靠的洞见与决策。
  • 实时处理与分析(Real-time processing & analytics) :支持实时处理与分析,帮助企业在事件与趋势发生时即时响应,尤其适用于金融、营销与运营等需要及时决策的领域。
  • 易用与协作(Ease of use & collaboration) :工具与服务更友好、协作化,便于团队共享访问所需数据,打破数据孤岛,促进数据驱动文化。

综上,采用现代数据栈可带来可扩展、灵活、敏捷、具成本效率数据质量更高、分析更实时、协作更顺畅的多重价值。拥抱现代数据栈,组织即可构建稳健而敏捷的数据基础设施,支撑数据驱动决策与业务目标。

接下来,我们将讨论文化与战略(culture and strategy)。

数据文化与战略(Data culture and strategy)

在当今企业环境中,数据已成为获取洞察、做出明智决策并保持竞争优势的关键工具。要真正释放数据的力量,企业必须理解自身当前与未来的数据文化,并制定清晰的数据战略。数据管理有多种技术路线,各有优劣。本节将讨论若干数据管理战略、“以数据为中心”的理念,以及企业如何将数据作为服务、产品网格来使用。

数据文化(Data cultures)

当你着手建设公司的数据平台或相关系统时,首要一步是评估组织现状目标状态的数据文化思维。常见的数据中心化文化包括:

  • 数据无政府(Data anarchy)
    业务人员因对 IT 支持不满而自建并管理“影子 IT”或非官方数据库。数据分散在各系统、部门与个人手里,缺乏统一治理。虽提升了团队灵活性与自主性,但易造成不一致、重复与数据孤岛,难以获得全局视图。
  • 数据君主制(Data monarchy)
    由单一权威(通常是 IT 或专门数据团队)集中管理数据。可确保一致性与标准化,但可能降低敏捷性,并使业务用户访问数据过度依赖中心团队。
  • 数据贵族制(Data aristocracy)
    多个部门的数据管理员共同负责数据管理,在集中分散之间取得平衡,促进跨组织协作与共享,同时保持一定治理与控制。
  • 数据民主(Data democracy)
    赋能所有员工按需访问与使用数据,培育数据驱动文化,鼓励创新并改进决策。但前提是要有健全的数据治理以保障质量、安全与合规。

数据管理战略(Data management strategies)

当数据已存在于组织内,而你的目标是强化承诺与结构化时,需要明确采用的管理方法:

  • 以数据为中心(Data centric)
    将数据置于企业核心,视其为宝贵资产,强调质量、可达性与安全性。有助于加速创新、提升运营效率并优化客户体验。
  • 数据即服务(Data as a Service, DaaS)
    通过云平台按需向客户交付数据。无需自建与维护基础设施,即可即时访问与组合多源数据;按使用量计费,促进更快决策、协同与降本
  • 数据即产品(Data as a Product, DaaP)
    将数据打包成产品向客户或伙伴提供(洞察、分析或数据集),实现数据变现并提升市场价值;同时需强治理与安全以保护敏感信息并满足合规。
  • 数据网格(Data mesh)
    一种去中心化的数据架构,将数据的所有权与管理分配给不同域/团队。既打破孤岛、促进协作,又保持治理与安全,有助于规模化建设数据基础设施,把数据作为战略资产驱动创新与增长。

企业需结合自身的数据管理需求、内部能力与战略目标,并考虑当前/未来数据文化,以确定最佳路径。通过采纳数据中心化思维并利用 DaaS、DaaP 与数据网格等创新模型,企业可释放数据的全部潜力,在竞争激烈的商业环境中驱动增长、创新与成功。

接下来,我们将讨论数据集成的方法、工具与技术。

数据集成的方法、工具与技术(Data integration techniques, tools, and technologies)

数据集成是一个复杂过程,需要借助众多工具与技术,将来自不同来源的数据抽取、转换并加载集中位置。本章将概述若干关键的数据集成工具与技术(涵盖开源与商用),并给出为你的数据集成项目选择合适工具与技术时应考虑的评估标准

数据集成技术(Data integration techniques)

当组织需要整合分散的数据以获取洞察并做出明智决策时,数据集成至关重要。然而在面对来自不同来源的海量数据时,这一过程本身可能呈现异构性。数据集成通常包含:从多个来源抽取数据,将其转换为一致格式,并加载到中心位置。为实现这一点,组织需要采用多样的工具与技术(从开源商用)来简化流程并确保数据质量

数据集成架构描述了从源到目标的数据处理与传输的多种路径。这些方法可按需求灵活组合;需要注意的是,最慢的转换方式会拖累整体处理时间

  • 批处理(Batch processing) :定期汇集并成批处理数据;适用于对时延不敏感的大型项目。
  • 微批处理(Micro-batching) :批处理的变体,以更小批量、更短间隔运行;适合低时延但非实时的应用。
  • 实时处理(Real-time processing) :面向低时延、快速处理与评估的场景。
  • 增量处理(Incremental processing) :当总体数据量巨大、但每次仅小部分发生变化时,采用增量方式可降低处理时间并保持整体一致性

**数据集成模式(patterns)**如 ETLELT 描述了数据在目标系统中的转换与加载方式:

  • ETL(Extract-Transform-Load) :传统、以批处理为主,适用于转换复杂、质量要求高的项目。
  • ELT(Extract-Load-Transform) :现代方法,利用目标系统的算力进行转换,适合转换相对简单的场景。

关键工具与技术概览(Overview of key tools and technologies)

用于数据集成的工具与技术众多,各有优劣。以下为常见类别与要点。

ETL 工具

ETL 工具用于自动化 ETL 流程,既有代码驱动型,也有图形界面(GUI)型。它们帮助你设计与执行 ETL 工作流、进行源与目标的字段映射并完成数据转换。部署形态可为本地云端,授权形态既有商用也有开源

下图截图展示了 ETL 的步骤:

image.png

第一步是从源系统抽取数据。ETL 工具通过连接器或 API 连接到这些来源,在抽取阶段读取数据
第二步是最复杂的一步:将数据转换为适合分析的格式/模型,包括清洗、规范化、丰富与过滤等操作。
第三步也是最后一步是将数据加载目标存储系统,例如数据湖数据仓库

数据集成中间件(Data integration middleware)

数据集成中间件是一类软件,为不同的应用、数据库与平台之间的数据交换提供标准化接口。它既能处理复杂的数据转换,也能提供数据质量、数据治理、数据安全等高级能力。中间件形态多样,最常见的是企业服务总线(ESB) 。它可用于集成不同应用(如 CRMERP 系统),以实现互操作性并促进数据交换

下图展示了数据集成中间件

image.png

数据集成中间件可用于在源系统中央数据存储库之间移动数据。

云端集成平台(Cloud-based integration platforms)

云端集成平台为数据集成提供云端基础设施,使组织能够访问并整合来自不同数据源与应用的数据。与本地部署方案相比,云端平台通常更具成本效益,并提供更好的可扩展性与灵活性

下图展示了云端集成平台

image.png

这些平台的典型工作方式概览:

  • 数据采集(Data collection)
    平台通过连接器或 API,从私有数据中心、云平台或公共域等多种环境中的本地数据库、云存储、SaaS 应用等来源采集数据。
  • 数据处理(Data processing)
    采集到的数据在集成平台的云环境中转换、清洗与规范化,以确保其具备用于分析的正确格式与质量;其中可能包括过滤、聚合合并来自不同来源的数据。
  • 数据投递(Data delivery)
    处理后的数据被推送至目标位置,如数据库、数据仓库其他业务应用,以便进一步分析、报表实时决策

数据虚拟化工具(Data virtualization tools)

数据虚拟化是一种现代数据管理方法,使组织无需物理搬移或复制数据,即可访问并整合来自不同来源与应用的数据。
这类工具能提供实时数据访问,并降低与数据复制和存储相关的成本,由此脱颖而出。其运行通常包括若干关键步骤。
下图展示了数据虚拟化工具:

image.png

这些平台的典型工作方式概览:

  • 数据源连接(Data source connectivity)
    平台通过连接器或 API 与各类来源建立连接,例如传统数据库、云存储方案、大数据系统、实时数据流等。
  • 虚拟数据层构建(Virtual data layer creation)
    平台创建一个虚拟层,对底层数据进行抽象;尽管数据分散在不同位置,使用者却可像访问统一数据库一样无缝交互。
  • 查询翻译与集成(Query translation and integration)
    平台把来自用户的查询翻译为各数据源可理解的“方言”,随后检索并整合结果,以统一格式呈现;无需物理复制数据,从而降低存储成本与复杂度

这种实时方式免除了数据复制与物理搬移的需要,大幅减少了存储成本以及维持数据一致性所带来的复杂性。因此,数据虚拟化工具为数据集成提供了灵活、高效且具成本效益的路径,帮助组织更有效地将数据资产用于分析与知情决策

实施类型包括:

  • 基于查询引擎的工具(Query engine-based tools) :具备强大的查询引擎,可实时从多源检索并整合数据;适用于需要立即访问异构环境数据的场景。
  • 面向中间件的工具(Middleware-oriented tools) :作为中间层连接数据源与应用,让数据访问与操作更顺畅,免于直接处理多样的数据结构与格式。
  • 数据联邦工具(Data federation tools) :专注于构建虚拟数据库,为多来源数据提供统一视图;擅长聚合来自不同数据库与文件系统的数据,并以一致数据集呈现。

数据质量工具(Data quality tools)

数据质量工具通过一组能力提升集成过程中的准确性、一致性、完整性与可信度。主要步骤包括:

  • 数据剖析(Data profiling) :分析现有数据的结构与质量,识别模式、离群点与不一致
  • 数据清洗(Data cleansing) :纠正或移除错误、损坏、格式不当、重复或不完整的数据;包括错误纠正、规范化、去重等。
  • 数据丰富(Data enrichment) :从外部来源补充相关信息,形成更全面的数据集。
  • 数据校验(Data validation) :依据预定义规则与约束检查数据的准确与一致,确保符合质量标准与业务要求。

这些工具可将大量工作自动化,显著减少人工成本与人为错误;它们是保证用于分析与决策的数据可靠且有价值的关键。实现形态可为代码驱动、配置驱动与/或可视化界面工具。

开源与商用工具(Open source and commercial tools)

数据集成工具可分为商用开源两类。

  • 商用:通过购买使用权获得不受限访问(含当前与未来功能)与厂商级支持
  • 开源:由社区(有时配合专业服务公司)提供支持;其成本通常与所需服务范围直接相关。

选择工具与技术的考量因素(Factors to consider when selecting tools and technologies)

为你的数据集成项目选型时,应综合考虑数据源规模与复杂度目标系统算力项目需求以及预算与 IT 能力等因素;同时评估自适应架构、治理与合规、公司战略等方面的匹配度。

表 2.1——选择工具与技术的考量因素

类别(Category)评估项(Criteria)说明(Description)
自适应架构(Adaptive architecture)可扩展性(Scalability)能满足当前数据量并可随未来增长而扩展。
灵活性(Flexibility)支持多种数据格式、结构多样转换
集成能力(Integration capabilities)可与多类来源与平台集成,提供标准化接口
支持与维护(Support & maintenance)选择具备可靠厂商强维护支持的产品。
治理与合规(Governance & compliance)数据治理特性(Data governance features)具备数据血缘、数据管理人、数据目录等能力,便于一致与合规管理。
安全特性(Security features)强化加密、访问控制、审计等安全措施。
数据质量特性(Data quality features)支持剖析、清洗、丰富以保障质量。
公司战略(Company strategy)企业文化(Company cultures)工具应与组织的价值观与实践相契合。
团队专长(Team expertise)与团队技能匹配,或有可控学习曲线以降低培训成本。
易用性(Ease of use)面向不同用户群体的友好界面与体验
成本(Cost)结合许可、实施、运维等成本与预算,确保可负担。

综上,选型时需综合权衡数据规模与复杂度、目标系统能力、项目要求、资金与技术储备等;并从架构弹性、治理合规、公司战略等维度进行评估。通过审慎比对这些要素,可确保所选工具与技术与组织的文化环境、团队能力与财务边界相符,最终促成契合需求与目标的成功数据集成项目。

总结(Summary)

要最大化数据资产的价值,企业离不开数据集成的工具与技术。通过了解可用于数据集成的多种工具与技术,组织即可为各自的集成项目选择最合适的路径,并高效、有效地实现数据集成目标。工具与技术的选型取决于多个因素:数据源的数量与复杂度目标系统的处理能力项目需求,以及组织的预算与 IT 能力。采用恰当的工具与技术,组织便能确保数据准确、 高效且安全地完成集成,从而做出数据驱动的决策,并在数据驱动的商业环境中获得竞争优势

下一章,我们将深入剖析数据集成的演进,并考察为满足各阶段需求而建立的多样化架构