最近AllData数据中台悄悄搞了个大动作!正式集成了开源项目OpenDataWorks构建数据资产平台!这次对数据资产平台的升级,绝对称得上是“体验跃迁”。
以前咱们搞数据资产管理,面对五花八门的数据源,今天想统一下指标口径,明天想理清楚数据权限,光是把这些分散的数据变成能复用的资产,就能让人跑断腿。中间要是出了点质量问题,排查起来简直是大海捞针。
但这次AllData集成OpenDataWorks,直接把数据的标准化、资产化、服务化全链路打通了,真正做到了“一站式”搞定。以前需要跨好几个系统折腾的事儿,现在在一个平台上就能轻松拿捏,这效率,简直像是给数据工作装上了“风火轮”。
💎 项目地址:github.com/mikevan666/…
💎 文档地址:github.com/mikevan666/…
此次升级亮点十足,数据血缘格外亮眼。以往搭建复杂批流一体任务,需编写代码、调试调度,耗时费力还易出错,如今依托 OpenDataWorks,可视化拖拽搭配低代码,即可快速完成复杂任务调度。
而且,对于咱们技术人来说,最爽的体验莫过于“稳”和“透”。OpenDataWorks平台兼具稳定易用与清晰通透优势,数据血缘可视化可自动生成全链路图谱,实现数据全程溯源,问题排查一目了然,高效定位故障。
更接地气的是,数据资产平台适配日常数据共享场景,借助标准化 API 实现数据高效共享复用,全面赋能报表、模型及各类业务系统,盘活企业数据资产,调取使用便捷高效。
数据资产平台【OpenDataWorks】功能演示
1、数据资产
首页可视化呈现资产总览、血缘图谱、任务监控,支持快速检索、权限管控与智能问数,一站式管理全链路数据资产
2、数据仓库
提供数仓建模、分层治理、任务调度与质量监控,支持表管理、血缘追溯及权限管控,实现数据仓库全生命周期管理
3、任务调度,支持导入海豚调度DolphinScheduler SQL Task的血缘
支持可视化任务编排、周期调度与依赖管理,实时监控运行状态,支持异常告警与重跑,保障数据任务稳定高效执行
4、数据建模,支持建模->开发数据->调度执行任务->生成血缘全流程
提供可视化数仓建模、分层设计与规范定义,支持表结构生成、血缘关联及模型版本管理,统一数仓标准
5、数据血缘
自动追踪表与字段流转关系,可视化溯源与影响分析,支撑数据资产可信管理与问题快速定位
6、数据集成
支持多源异构数据实时与离线同步,提供可视化配置、链路监控与断点续传,实现高效稳定的数据汇聚集成
7、配置中心
配置中心统一管理数据源、参数与权限策略,支持动态下发、版本追溯,保障平台配置安全可控、高效运维
一、使用流程图示
1、线上环境/安装包准备
二、全局配置与数据接入
首先需要进入配置中心完成基础环境的搭建,是整个数据中台的“控制台”,负责统一管理数据源、参数与权限策略。
1、统一配置(配置中心)
数据源注册: 统一管理各类异构数据源的连接信息,配置MySQL+Doris两种数据源,方便在数据资产平台导入并同步MySQL+Doris元数据;
权限与参数管理: 设置全局的参数策略与权限管控体系,支持动态下发与版本追溯,确保后续数据开发与资产访问的安全可控,保障平台配置的高效运维。
图1-数据源列表-统一管理各类异构数据源的连接信息
图2-数据源列表-配置参数管理-设置全局的参数策略与权限管控体系,支持动态下发与版本追溯
2、数据汇聚(数据集成)
配置好数据源后,进入数据集成模块进行数据的抽取与同步
步骤1:提前在配置中心完成 MySQL、Doris、Hive、Kafka、Oracle、API 等数据源注册
步骤2:新建集成同步任务,选择离线同步或实时同步模式
步骤3:可视化选择源端数据源与目标端数据源,选定同步库表
步骤4:配置字段映射关系,支持字段过滤、字段转换、数据清洗预处理
步骤5:设置同步模式:全量同步、增量同步、分区同步
步骤6:开启断点续传功能,避免网络中断、服务重启导致同步重复执行
步骤7:保存并发布同步链路,绑定调度周期自动执行
步骤8:进入集成监控页面,查看同步进度、同步条数、同步耗时、同步异常日志;支持暂停、重启、编辑、删除已创建的数据集成任务
图3-数据集成任务配置页面,展示源端与目标端配置
图4-数据集成-新增数据源-统一录入各类异构数据源信息,连通测试核验可用性,完成注册纳入中台统一管理
三、数仓规划与建模开发
1、数仓建模数据进入中台后,先在数据建模模块进行标准化的顶层设计,这是统一数仓标准的关键环节
步骤1:新建业务数据模型,归属至对应业务域与数仓分层
步骤2:可视化拖拽设计模型逻辑结构,定义维度字段、度量字段、业务主键
步骤3:录入字段名称、字段类型、字段注释、数据格式,统一字段命名规范
步骤4:模型设计完成后,一键物理建表,自动在目标数据源生成正式数据表
步骤5:绑定模型上下游业务模型,自动关联生成基础数据血缘关系
步骤6:保存模型版本,支持模型修改、版本回滚、历史版本对比
图5-数据资产平台-数据建模-进行标注化的顶层设计
图6-数据建模-新建数据域-划分业务板块构建数据域,规整数据归属体系,规范全域数据统筹管理
图7-数据仓库-进行可视化的数仓分层设计(如ODS、DWD、DWS、ADS层),定义业务域、数据域及开发规范。
2、数仓开发与治理
进入数据仓库模块,对汇聚的数据进行全生命周期的加工与管理
分层治理与表管理: 依据建模阶段的标准,对数仓各层数据进行清洗、转换与汇总加工;
质量监控: 在加工过程中配置数据质量监控规则,确保产出的数据准确、一致且可信,实现数仓的规范化治理。
图8-数据资产平台-数据仓库
图9-数据仓库-新建表-依照数仓分层规范创建数据表,定义字段属性,统一口径支撑数据存储与使用
3、任务调度(流程编排)
开发好的数据加工逻辑需要通过任务调度模块进行自动化执行
图10-数据资产平台-任务调度-工作流列表
图11-数据资产平台-任务调度-任务列表-编辑任务
图12-数据资产平台-任务调度-执行监控
四、资产运营与价值洞察
1、数据血缘
在开发与运维过程中,利用数据血缘功能实现数据的透明化管理
步骤1:选择目标数据表 / 目标数据字段,一键生成可视化血缘图谱
步骤2:向上追溯:查看数据原始来源、经过的清洗任务、同步链路
步骤3:向下溯源:查看当前数据流转下游所有数据表、报表、应用指标
步骤4:支持切换表级血缘与字段级血缘,精准定位异常字段流转路径
步骤5:执行影响分析,预判字段修改、数据表下线带来的业务影响
步骤6:结合任务执行日志,通过血缘快速定位数据错误、数据延迟问题根源
图13-数据资产平台-数据血缘-系统自动追踪并展示表与字段的流转关系。当数据出现异常时,可快速向上溯源定位问题根因;当需要变更底层表结构时,可向下分析影响范围。
图14-数据资产平台-数据血缘
2、资产变现与运营
最终,所有加工好的高质量数据将在数据资产平台首页进行统一呈现与运营
资产总览与检索: 首页可视化呈现企业的数据资产总览、血缘图谱与任务监控,支持通过智能问数、快速检索等功能,让业务人员轻松找到并看懂数据;
一站式管理: 结合权限管控,将数据转化为可复用、可运营的企业核心资产,真正实现从“沉睡数据”到“价值爆发”的转变。
图15-数据资产平台-首页
图16-数据资产平台-首页
总而言之,这次AllData数据中台集成OpenDataWorks的深度优化,绝不仅仅是一次简单的版本迭代,而是一次从“能用”到“好用”,再到“爱用”的华丽转身。
AllData数据中台把复杂的技术留给了平台,把极致的体验留给了用户。如果你还在为数据孤岛、治理困难、运维繁琐而烦恼,不妨去体验一下这次的全新升级。相信我,这种焕然一新的数据治理体验,绝对会让你直呼“真香”!