OneService
在阿里巴巴 OneData 体系中,OneService 指统一数据服务,即由数据中台提供统一的数据接入和数据查询服务。
在数据仓库建设中,我们常面临这些数据服务问题:
-
异构数据:各种数据存储在各种文件系统、消息队列、 RMDBs 和 NoSQL 中,访问困难
-
重复建设:因为缺少协同合作,各数据应用方重复开发查询服务,重复存储业务数据
-
缺少跟踪:数据应用方自建查询服务,难以进行访问审计、质量控制等数据全链路管理
-
理解困难:因为效率、管理等原因,数据存储在多个物理表,与业务视角的映射复杂不直观
OneService 的中心思想是数据复用而不是复制,通过提供满足数据应用方真实访问和接入需求的数据服务来实现这一点。
-
主题式数据服务: 基于元数据和规范定义和建模,构建主题逻辑表,屏蔽复杂物理表,提供业务视角下的查询
-
统一且多样化数据服务: 一站式提供一般查询、 OLAP 分析、在线接口服务等查询和应用服务,便于数据跟踪管理
-
跨源数据服务: 统一数据接入层,屏蔽多种异构数据源的读写差异,减少数据访问和应用成本。
OneID
OneID 指统一数据萃取,是一套解决数据孤岛问题的思想和方法。
数据孤岛是企业发展到一定阶段后普遍遇到的问题。各个部门、业务、产品对业务实体的UID的定义和实现不一样,使得数据间无法直接关联,成为了数据孤岛。
简单来说,用户、设备等业务实体,在对应的业务数据中,会被映射为唯一识别(UID)上,其各个维度的数据通过这个UID进行关联。
基于手机号、身份证、邮箱、设备ID等信息,结合业务规则、机器学习、图算法等算法,进行 ID-Mapping,将各种 UID 都映射到统一ID上。通过这个统一ID,便可关联起各个数据孤岛的数据,实现数据通融,以确保业务分析、用户画像等数据应用的准确和全面。
OneModel
OneModel 表示统一数据构建和管理。OneModel以维度建模为理论基础,划分和定义业务板块、数据域、业务过程、维度、度量/原子指标、业务限定、时间周期、派生指标,设计出维度表、明细事实表、汇总事实表的过程。
OneModel 的一个核心内容是派生指标的构建方法。在 OneModel 中,派生指标由原子指标、时间周期、业务限定、统计粒度统一定义。
这样做的作用是:
-
消除二义性:相比于依据文档或者管理约束来规范开发等传统方法,通过结构化的声明和定义,构建派生指标,更能约束研发人员落实数据设计,避免不符合规范的情况发生。
-
代码自动化:实现自动化开发,降低研发门槛,挺高业务需求完成速度和质量,甚至赋能业务人员进行数据开发。同时,实现快速简单的管理数据、定位问题,降低数据运维成本。
-
主题式服务:基于结构化的规范定义和数据建模,隐藏复杂的物理表,以业务视角呈现数据,简化查询分析。