我经常看到这样的困惑,因为IT部门和商业部门的人都在讨论工具和项目,但对现有的数据架构的用途却没有一个共同的理解。今天,我们发现有很多不同的数据架构,比如。
- 数据仓库
- 数据湖
- 数据湖中心
- 数据结构
- 数据网
这些都是基本的设计模式,可以以不同的方式进行组合、倍增和调整。此外,围绕这些基本模式,我们有一些工具和解决方案来加强这种架构,如数据目录、数据集成和转换、数据治理等。
数据仓库是一种管理企业数据的设计模式。数据架构越来越复杂,专注于基础知识对更好地理解它们为企业和商业用户提供的价值是有帮助的。
由于数据仓库是一个有30多年历史的概念,它仍在不断发展,特别是像Snowflake、Databricks或hyperscalers这样的云DWH供应商显示出动态的创新,许多进一步的软件服务,如dbt或LookML,都可以用来建立现代数据仓库。
为了简化讨论,我画了下面的概述。

图片1:数据仓库的概述及其优势
我们所看到的是,数据仓库是一个中央数据平台,它整合了来自不同领域的结构化数据,为历史数据分析提供了一个协调和综合的数据视图。数据仓库在许多方面都有所发展,所以今天它不仅仅是一个数据库,而是以一种高性能的方式提供数据。多年来,我们看到通过虚拟建模、处理、流式数据处理或处理半结构化数据(如JSON)等功能,以及作为联合分析数据源的虚拟层,有了更好的灵活性。
随着新技术和设计模式的出现,数据仓库几次被宣布死亡。但它仍然在这里,我不认为在未来的时间里对数据仓库的需求会结束。
回到SAP,我认为它是SAP在数据管理方面的经典强势领域。这可能是因为SAP本身提供了围绕业务数据的解决方案,这创造了典型的结构化数据。但我清楚地记得,在我自己的经验中,我已经在2006年使用SAP TREX(文本检索和提取)实现了基于SAP BW 3.5的非结构化文本数据和结构化数据的组合报告,并说它在这个时候运行良好。今天,我们看到SAP HANA包括多模式的数据处理能力,如图形、文本和文档(JSON),以扩大数据类型的范围,用数据创造价值。

图片2:SAP的基本数据仓库方法
今天我们看到SAP有四种方法来提供类似数据仓库的体验。
-
S/4HANA嵌入式分析- 分析应用程序可以利用SAP S/4HANA中的两种不同方法。
- 使用ABAP核心数据服务的虚拟数据模型--通过堆叠视图与维度和事实来创建虚拟分析模型,以用于Fiori应用程序、SAP分析云、BW查询或ABAP报告。由于业务逻辑和语义是虚拟建模的,这就像操作数据的虚拟数据仓库。这种方法是HANA Live的继承者,HANA Live是基于HANA信息视图(现在是计算视图)。
- 嵌入式BW - 一种使用BW应用程序的方法,作为SAP NetWeaver的一部分,多年来一直是SAP ERP的一部分。嵌入式BW仍然是BW7.5,内容在某些情况下是基于HANA计算视图的实际数据(如基于ACDOCA),计划数据(如基于ACDOCP)或主数据。此外,外部数据可以被加载(即使不建议在更大范围内加载),BW逻辑可以被用来历史化数据的变化(缓慢变化的维度,双时态建模)。
-
SAP数据仓库云- 仅仅关注SAP DWC的应用层,我们看到两个一般的层。这些建模层通过治理的功能得到加强,如授权、对象搜索、数据脉络和影响分析,以及在空间(有自己资源和用户的容器)和外部数据之间共享数据的能力。此外,还可以通过开放SQL模式和访问HANA部署基础设施(HDI)容器来扩展这种基于应用的建模,使其能够在HANA数据库和数据湖层面工作。
- 数据层--专注于不同数据源的整合和数据的技术转换工作。
- 业务层 - 专注于面向业务的建模、视角和语义。
-
SAP BW/4HANA- 作为一个相当技术性的解决方案,它提供了一个打包的数据仓库解决方案,为SAP数据源高度优化,但对每一个数据都是开放的。通过LSA++(分层可扩展架构),它可以通过逻辑数据仓库方法实现从简化的数据仓库到全面复杂的数据仓库解决方案,为企业数据仓库的建模和操作提供大量服务。BW现在很好地提供了许多预定义的元数据,以便在许多不同的业务领域快速启动实施。通过使用底层HANA数据库本身的混合建模,可以扩展功能范围。此外,还可以通过使用SAP业务规划和整合嵌入式或BCS - 业务整合系统(BCS/4HANA)来增加规划和整合功能。
-
SAP HANA SQL数据仓库- 一个完整的开放的,基于数据库的方法,具有自由的建模。在这种情况下,我们经常看到现代建模方法和流程,如数据仓库建模和DevOps支持更敏捷的建模风格,以更快的方式操作系统和适应变化。这很有意义,因为这种方法被推荐用于更广泛的非SAP数据源,如物联网和云数据源。
因此,我们看到可以自由选择最适合SAP的数据仓库方法--操作、云或内部部署,或多或少有SAP的特点。我们也看到有可能通过数据分层将这些方法扩展到综合数据平台,通过数据湖技术进行扩展,并利用基于SAP HANA数据库的高性能的多模型能力,这在今天的每个案例中都是核心技术组件。
一个有趣的事情是,在SAP数据仓库的世界里,你可以找到相同的组件,实现相同或类似的功能。因此,这里的每一种方法都是基于SAP HANA的,这也意味着智能数据访问(SDA)和智能数据集成(SDI)是典型的数据集成部分,HANA计算视图可用于这些方法中。SAP甚至将ABAP用于云端,并至少在BW Bridge内将其用于SAP数据仓库云。OData可以在大多数解决方案中被消耗或暴露,如果你想以某种方式扩展你的数据管理,你会发现SAP IQ技术。最后但并非最不重要的是,SAP分析云作为SAP世界中的分析前端,自然对所有这些都有很好的整合。
正如所介绍的,还有更多的数据仓库,高度优化的商业智能用例,但可能无法解决贵公司面临的所有数据挑战。但它在公司的系统和数据景观中仍有其不可替代的地位。
关于数据仓库,肯定会有更多要说的。我希望这个关于SAP背景下的数据仓库的观点能够帮助你与其他数据人员在一个更好的水平上进行对话,并使它稍微独立于最近的趋势(你听说过度量层或反向ETL吗),或产品营销,或这个UI比那个更好,或这个解决方案是这个解决方案的死亡等等。因为所有这些都很好,但典型的是你需要的是用你的数据创造价值,而这只有在你不时地关注基础知识的情况下才行得通。