演讲者: 晨曦 | Dataworks 高级技术专家
导读: 数字化转型浪潮中,企业正面临三大关键挑战:出海全球化需要开源架构实现多云部署;降本增效要求数据湖技术减少拷贝、提升引擎性能;融合 AI 驱动内部提效及业务创新。
面对上述挑战,阿里云 DataWorks 推出开源湖仓智能平台,通过多模态数据统一治理、AI全链路血缘追踪和一体化开发能力,实现从数据入湖到模型推理的端到端提效。借助湖仓迁移中心自动化上云方案与ChatBI智能交互等创新功能,显著降低企业迁移成本与AI使用门槛,助力全球业务"一次开发、多地部署",加速数字化转型与全球化落地。
本次分享包括三个方面:
- 企业在 Data+Al 领域面对的挑战
- Dataworks 的架构设计与实践
- 即刻上云方案介绍
企业在 Data+AI 领域面对的挑战
1. 企业业务在发生深刻变革
- 企业出海:构建统一、松耦合的多云架构
从制造业、电商、短视频到 web3,均呈现出规模化出海态势。这一趋势对企业技术架构提出明确要求:“一套架构、全球部署”,以避免对单一云厂商的深度依赖,而开源技术凭借其松耦合特性和跨云兼容性,成为支撑这一战略的理想选择,有效降低了架构迁移与运维的复杂性。
- 提效降本:从 T+1 到实时,构建统一数据湖
与此同时,降本增效已成为企业核心诉求。企业通过数据湖技术消除冗余数据拷贝、提升引擎执行效率以节约计算资源(如 CPU 利用率优化)及人力维护成本,进而缩短任务处理周期。在此背景下,DataWorks 结合 Serverless Spark 通过智能化调度与高性能计算能力,助力企业实现降本增效。
- 拥抱 AI:AI 驱动开发提效与产品创新
尤为关键的是,AI 已经成为生产力工具和创新引擎,企业拥抱AI技术已经成为必选项。一方面用于内部提效,通过 AI 辅助开发(如代码生成、任务编排),将传统开发周期从一天缩短至半天,提升研发效率;另一方面驱动企业创新 AI 应用、大模型服务及行业场景解决方案以赋能客户。DataWorks 正在集成 AI 能力,构建智能化数据平台。
2. Data + AI 一体化架构成为重点关注
随着企业数字化转型深入,Data + AI 一体化成为技术架构的核心方向。传统数据湖主要管理结构化与半结构化数据(如 Parquet、JSON),如今正向全模态统一治理演进,将图片、音频、视频等非结构化文件纳入湖仓体系,实现“一湖多源”统一存储与管理。同时,计算引擎从单一大数据工具扩展至支持 AI 场景 Spark、Ray 等分布式框架,推动开发平台向一站式、智能化发展。
- 数据湖范围扩展:从结构化到全模态统一管理
现代数据湖不再局限于结构化数据,而是通过 Data Lake Formation 架构整合 Paimon、Iceberg 等格式表,并支持原始文件(如图像、音视频)直接入湖。借助 Lance、File 等格式支持,企业可对全类型数据进行统一元数据管理、权限控制与生命周期治理,为 AI 模型训练提供高质量、可追溯的数据资产。
- 计算引擎多元化:Spark 与 Ray 共同支撑 AI 开发
在 AI 场景中,Apache Spark 凭借其强大的批处理能力与 Python 生态兼容性,广泛用于大模型训练前的数据清洗、特征工程与推理任务。而 Ray 因其低延迟、高并发特性,被 OpenAI 等头部机构用于分布式训练与强化学习。两者共同构成 Data + AI 的核心计算底座,支持从数据准备到模型推理的全流程高效执行。
- 开发治理一体化:构建一站式 Data + AI 平台
企业亟需统一平台实现数据与 AI 全流程协同。基于 DataWorks 的一站式开发治理平台,集成 Spark、Flink、Ray 等引擎,支持 Notebook、Copilot 智能辅助开发,覆盖数据安全、数据管理、数据开发、数据集成等环节。该平台不仅提升研发效率,还填补了 AI 领域在版本管理、模型追踪、合规审计等方面的治理空白,助力企业构建可持续发展的智能数据体系。
DataWorks 的架构设计与实践
1. 阿里巴巴生态体系
作为阿里云历史积淀深厚的一站式数据开发治理平台,DataWorks 已深度集成于阿里巴巴集团99%以上的业务单元,成为支撑全域数据资产的核心基础设施。DataWorks 不仅集成了大数据引擎(如 Spark、Flink),还纳入了 AI 引擎(如 Ray),支持从数据处理到大模型训练推理的全流程。
- 统一计算底座:多引擎高效协同
DataWorks 支持多引擎统一调度,涵盖批流处理、分布式训练等多种场景。通过标准化接口与作业编排,打破数据与AI处理之间的隔阂,实现“一次开发、多引擎运行”。这使得用户能够灵活调用不同引擎完成任务,提升资源利用率和开发效率。
- 模块化功能层:覆盖全生命周期的数据治理
DataWorks 提供了全面的数据开发与治理能力,包括可视化开发、数据同步、质量监控、安全合规等。这些模块共同构建了数据接入、加工、建模到服务化的闭环流程,确保数据在流转过程中可管、可控、可追溯,满足企业的数据治理需求。
- 上层应用支撑:推动业务创新与发展
基于 DataWorks 构建的数据资产与服务能力,为阿里巴巴旗下各业务线提供了强大的数据支持。无论是交易类APP还是健康旅游等服务,都能从中受益,加速业务决策过程并优化用户体验。最终,DataWorks 助力企业在数字化转型道路上取得成功。
2、DataWorks 产品优势
2025 年,DataWorks 的核心优势聚焦两大方向:一是 AI + 大数据深度融合,通过集成 Spark、Ray 等 AI 友好引擎与 Copilot 智能开发能力,支持从数据准备、特征工程到大模型推理的端到端 pipeline;二是湖仓一体架构升级,全面兼容 Paimon、Iceberg、Delta Lake 等开放湖格式,实现结构化与非结构化数据统一存储、统一元数据管理与统一治理,构建高性能、低成本、可扩展的新一代数据基础设施。
3、面向开源湖仓Data+AI一体化平台架构
在2025云栖大会上,DataWorks 发布多项重磅能力,全面升级为面向开源湖仓的智能数据开发治理平台。依托 Data Lake Formation(DLF) 与统一元数据服务,实现结构化、半结构化及非结构化数据的统一管理。新增多模态数据管理、ChatBI、Data+AI 开发 Notebook 等模块,结合 Serverless Spark 引擎优化,大幅提升开发效率与资源利用率。
- 多模态数据管理:构建统一湖仓数据资产
DataWorks 支持在 DLF 或用户自建湖上进行多模态数据统一治理,覆盖 PDF、图像、音视频等非结构化数据。通过 Paimon、Iceberg、Hudi 等开放格式支持,实现全类型数据的元数据注册、权限控制与生命周期管理,为 AI 模型训练提供高质量、可追溯的数据底座。
- Data+AI 开发:融合 Notebook 与智能工具链
推出 Data+AI 开发 Notebook,集成 Spark、Ray、Hive 等引擎,支持 Python/SQL 混合编程,实现从数据处理到模型推理的一站式开发。结合 Copilot Agent 模式,提供任务自动执行、代码生成、作业调试等智能辅助功能,显著降低 AI 开发门槛。
- ChatBI 与智能交互:自然语言驱动数据分析
全新发布 ChatBI 模块,用户可通过自然语言提问完成数据探索与分析。系统基于语义理解与 SQL 生成能力,自动调用底层引擎执行查询,并以可视化图表返回结果,实现“所问即所得”的智能分析体验,提升业务人员数据使用效率。
- 底层支撑:统一调度与 Serverless 弹性计算
平台依托 统一调度执行引擎 与 统一元数据服务,实现跨引擎作业协同与数据血缘追踪。重点推出 Serverless Spark,支持按需弹性伸缩、自动扩缩容,大幅降低运维成本。底层兼容 OSS、OSS-HDFS 及多种数据格式(ORC、Parquet),构建高性能、低成本的湖仓计算底座。
4、多模态数据管理
DataWorks 面向 AI 与大数据融合场景,推出多模态数据管理能力,实现结构化、半结构化与非结构化数据的统一治理。通过 DLF Catalog 和 Lance 格式支持,构建全模态数据资产目录,提供语义化智能搜索、统一数据集挂载与权限管控,助力企业高效管理海量多模态数据。
- 统一元数据:构建多模态数据资产目录
DataWorks 支持将 DLF、OSS、NAS 等多源数据注册为统一数据集,并基于 Lance 格式实现元数据标准化。系统自动解析图像、视频等非结构化数据内容,生成可理解的标签与描述信息,支持版本管理与血缘追踪,构建企业级多模态数据资产地图。
- 统一搜索:支持语义化智能检索
平台提供 非结构化资产智能搜索 能力,用户可通过自然语言或关键词(如“黄色小汽车”“人行横道异常”)进行语义化查询。系统结合视觉识别与文本分析模型,实现对图像内容、视频帧、OCR 文本的深度理解,加速自动驾驶、安防等场景下的数据探索效率。
- 统一使用:即查即用的数据集能力
DataWorks 推出 数据集(Dataset) 概念,支持在 Python、Shell、Notebook 等环境中一键挂载数据集,无需手动配置 HDFS、OSS 客户端。底层自动完成数据读取与格式解析,支持 EMR Serverless Spark、MaxCompute、PAI DLC 等引擎无缝接入,实现“即查即用”的开发体验。
- 统一管理:适配原有权限治理体系
所有多模态数据均纳入统一元数据服务,继承企业现有权限管理体系。无论是大数据工程师还是 AI 开发者,均可在统一平台中进行数据访问控制、团队协作与审计追踪,确保数据安全合规,提升跨团队协同效率。
5、多模态数据血缘管理
在大数据领域,数据血缘早已成为治理与溯源的核心能力。然而,在 AI 工程化实践中,从原始数据到最终推理结果的全链路血缘追踪长期处于空白状态——模型训练依赖哪些数据?某次推理异常是否源于早期数据污染?这些问题缺乏系统性答案。DataWorks 率先推出 AI 全链路血缘追踪能力,填补行业空白。该能力覆盖完整 AI 生命周期:从数据集导入、通过 Spark 或 Ray 进行清洗与特征工程,到预训练、微调(SFT)、模型注册,再到部署与在线推理服务,每一步的数据流动与任务依赖均被自动捕获并可视化。基于统一元数据服务和调度引擎,系统可精准关联数据版本、代码任务、模型快照与服务接口,实现“一图看尽 AI 血缘”。这不仅提升了模型可解释性与调试效率,更满足金融、自动驾驶等高合规场景对 AI 审计与责任追溯的严苛要求,真正让 AI 开发变得透明、可信、可管。
6、Data + AI 一体化开发
DataWorks 在 Notebook 中全面升级 Data+AI 一体化开发能力,支持 Python Cell 与 SQL Cell 双模式交互,结合智能代码补全、可视化分析与 AI Copilot 辅助,显著提升数据探索与模型开发效率。通过 Serverless Spark 引擎与多任务类型支持,实现从数据处理到 AI 训练推理的端到端协同。
- 交互式开发:支持多 Cell 类型与智能提示
DataWorks Notebook 支持 Spark SQL 与 Spark Python 双模式 Cell,用户可灵活切换进行数据探查与复杂计算。系统内置智能代码提示(IntelliSense)与自动补全功能,降低开发门槛。同时提供实时数据可视化图表(如柱状图、折线图),助力快速洞察数据特征。
- 资源调度:弹性 CPU/GPU 资源按需使用
平台支持 CPU/GPU 资源按需分配,用户可在 Notebook 中动态申请计算资源,用于训练或推理任务。支持周期调度与事件触发式调度,无缝集成至 AI Pipeline 流程中,实现资源高效复用与成本优化。
- 环境自由定制:云原生执行与灵活扩展
支持自定义镜像与挂载 OSS/NAS 存储,用户可预置 PyTorch、TensorFlow 等 AI 框架及私有库,实现“开箱即用”。系统提供标准镜像仓库与快速制作工具,支持一键部署定制化 Python 环境,满足复杂 AI 场景需求。
- 丰富任务类型:覆盖全生命周期 AI 工作流
支持 60+ 种任务类型,涵盖批处理、流式计算、AI 训练、推理、模型评估等。用户可通过 Notebook 直接提交训练任务至 PAI 或 MaxCompute,实现从数据处理到模型部署的全流程闭环,构建完整的 MLOps 链路。
DataWorks 在 Data+AI 一体化开发中,突破传统 IDE 限制,推出 对话式 AI 开发模式 和 一次开发、多 region 部署 能力。通过集成 Qwen Code Agent 的 Copilot 功能,用户可自然语言提问完成数据查找、代码生成与任务编排;同时支持一键打包发布至全球 20+ 区域,满足企业出海与多云部署需求。
- 智能化开发:AI 自动生成分析逻辑与执行代码
DataWorks Copilot 支持用户以自然语言描述分析需求(如“找出近30天销售额最高的商品”),系统自动解析语义,生成 SQL 或 Python 脚本,并推荐可视化图表。集成 Qwen Code Agent 后,可理解复杂业务逻辑,输出结构化代码与执行步骤,实现从“人工编码”到“智能生成”的跃迁。
- AI 加持:全新推出 AI 搜索与 Copilot Agent 模式
平台上线 AI 搜索 功能,用户可通过问答方式快速定位数据资产与血缘路径。同时推出 Copilot Agent 模式,支持多轮对话、上下文理解与任务拆解,可自动调用 DataWorks 内部工具完成数据清洗、建模、调度等操作,实现从“辅助”到“自主执行”的升级。
- 一次开发 & 多 region 部署:支持全球化应用交付
结合 DataWorks 的统一部署能力,用户可在本地完成开发后,一键导出发布包,快速部署至国内及海外 20+ 地域。支持跨区域数据同步与权限继承,满足企业出海场景下“一次开发、多地部署”的需求,提升全球化业务响应速度。
DataWorks 推出 ChatBI 能力,让业务分析师无需编写 SQL 或 Python,仅通过自然语言提问(如“上月销售额最高的区域是哪里?”),即可自动解析意图、生成查询逻辑并执行相应的python 或者 SQL任务。系统基于阿里云千问大模型,结合智能可视化引擎,自动生成图表与洞察,大幅降低数据分析门槛,让 Excel 用户也能轻松完成数据探索与决策支持。
7、DataWorks高效的数据集成
DataWorks 数据集成作为核心入湖工具,凭借丰富异构数据源支持、离线/实时全覆盖及极致性能优化,助力企业高效构建统一数据湖。系统日同步数据量超 10+PB,覆盖集团 130+ BU 与全球 20+ 公共云 Region,实现从传统数据库到 AI embedding 的全场景数据接入。
- 功能特性:支持多源异构与复杂网络环境
DataWorks 数据集成支持 MySQL、PostgreSQL、MongoDB、Oracle 等主流数据库,以及 Kafka、SFTP、OSS 等多种数据源,满足结构化与半结构化数据入湖需求。同时提供复杂网络打通方案(如专线、VPC 对接),支持跨云、跨地域安全传输,保障企业级数据迁移稳定性。
- 性能成本:极致优化与弹性扩容
平台采用全托管架构,提供高可用保障与自动故障恢复能力。通过智能调度与资源池共享,实现极致性能优化,单任务吞吐可达 TB 级。结合 Serverless 弹性扩缩容机制,按需分配计算资源,显著降低运维成本与空闲资源浪费。
- AI 融合:支持 Embedding 与实时入湖
除传统数据同步外,DataWorks 支持 AI 场景下的 Embedding 向量化数据入湖,可将大模型生成的向量特征直接写入 Iceberg/Paimon 表,为后续向量检索与推荐系统提供高质量输入。同时支持 Flink 实时流式入湖,实现从 T+1 到近实时的数据流转。
8、DataWorks整库同步解决方案
面对企业普遍存在的分库分表架构(如上百个库、数百张表),传统 Spark 或 Flink 任务开发复杂、调试困难。DataWorks 推出 整库同步解决方案,通过白屏化操作实现一键式结构迁移、全量初始化与增量同步,显著降低技术门槛,助力用户快速完成大规模数据入湖。
- 结构迁移:自动建模目标端表结构
系统支持从 MySQL、PostgreSQL、Kafka 等源端自动获取表结构信息,智能映射至 Paimon、Iceberg、Hudi 等湖仓格式,并自动生成建表语句与执行脚本。用户无需编写代码,即可在目标端一键创建与源端一致的 300+ 张表,实现元数据快速同步。
- 全量同步:一次性完成海量数据迁移
在结构迁移完成后,平台自动启动全量同步任务,将源端所有表数据批量写入目标湖仓。支持并行处理多表、自动分区与压缩优化,提升吞吐效率。系统提供进度监控与失败重试机制,确保数据一致性与任务稳定性。
- 增量同步:持续追加实时变更数据
全量同步完成后,系统自动对齐启动点位(Checkpoint),开启基于 Binlog 或 Kafka 消息流的增量同步任务,实现实时数据追加。支持动态扩缩容与资源调度,适应业务高峰期负载变化,保障低延迟、高可用的数据同步链路。
9、数据入湖架构方案
DataWorks 数据集成在实时同步场景下,通过 并发度提升 与 单线程性能优化 双轮驱动,显著超越纯开源方案。系统基于 Flink CDC 架构,支持 MySQL、PostgreSQL 等数据库实例级变更捕获,结合分布式并行处理与高效序列化库,实现 PB 级数据的高吞吐、低延迟入湖。
- 分布式并行处理:提升任务并发能力
针对复杂同步任务,DataWorks 将单个实例的 CDC 流拆分为多个子任务,并通过 Pk Shuffle 机制实现数据分发,支持多表、多库并行处理。例如,MySQL 实例下的多个 DB 可独立调度,提升整体并发度,降低端到端延迟,满足高负载业务场景需求。
- 高效序列化与反序列化:加速数据流转
在事件解析与传输过程中,系统引入自研高性能序列化库,减少 JSON 解析开销,提升数据编码/解码效率。同时优化 Transformer 算子链路,降低中间数据拷贝与内存消耗,显著缩短每条记录的处理时间。
- 全链路性能调优:实现成本下降 50%
通过上述优化,DataWorks 实现了从源端到目标湖(Paimon/Iceberg/Hudi)的端到端性能提升。某客户案例显示,采用 DataWorks 实现 MySQL & Loghub 全增量实时同步至 Paimon 表后,资源消耗下降约 50%,运维成本显著降低,验证了其在大规模生产环境中的优越性。
即刻上云方案介绍
1、湖仓迁移中心
为解决传统数据搬迁“黑盒操作、人工比对、流程复杂”等痛点,DataWorks 推出 湖仓迁移中心,提供全链路可视化、自动化迁移方案。目前已服务超 100 家客户,实现从本地或异构平台到阿里云湖仓的高效、可控迁移,显著降低上云门槛与运维成本。
- 全元素覆盖:支持多类型数据资产迁移
迁移中心支持常用数据库、数据仓库、对象存储、计算引擎及 OLAP 引擎等全栈数据源。通过统一接口与元数据映射,实现跨系统、跨架构的数据资产完整迁移,满足企业多样化上云需求。
-
一站式迁移:自动完成全流程任务编排
平台支持基于源端结构自动生成迁移作业,涵盖全量同步、增量同步、数据转换、表映射等环节。用户无需手动编写脚本,仅需配置目标端即可启动迁移流程,大幅减少人工干预,提升迁移效率与一致性。
-
全景可视化:实时监控迁移状态与数据质量
提供双模态迁移进度视图,支持可视化展示数据量、任务状态、延迟指标与数据一致性校验结果。用户可动态查看各节点运行情况,及时发现并处理异常,确保迁移过程透明可控。
- 精细化管控:支持分批、分级、按需迁移
支持按库、按表、按分区进行精细化迁移控制,结合资源调度策略实现动态扩缩容。通过对比分析与差量校验,最小化迁移窗口期,减少业务影响,助力客户以最低成本完成平滑上云。
2、湖仓迁移中心
DataWorks 湖仓迁移中心提供全流程、白屏化的大数据与 AI 平台迁移方案,涵盖 集群盘点、数据迁移、作业迁移、双跑校验、割接运维 五大阶段。通过自动化工具链与智能评估模型,帮助客户高效完成从本地或异构云到阿里云的平滑迁移,降低风险、节省成本。
- 集群盘点:自动采集资源并生成优化方案
系统通过 Agent自动盘点线下资源,或者是其他云上面的资源的集群配置、存储容量、计算资源使用情况等元信息,结合阿里云性能基准模型进行资源评估与成本预估。自动生成上云架构建议与资源规划方案,支持一键生成迁移计划,提升决策效率。
- 数据迁移:全量+增量同步与元数据一致性保障
平台支持全量数据迁移与增量同步,基于 Flink CDC 实现低延迟实时入湖。同时自动完成 DDL 转换、表结构映射与元数据同步,并内置数据校验机制,确保数据完整性与一致性,满足企业级合规要求。
- 作业迁移:主流调度引擎自动转换与血缘对齐
支持 DolphinScheduler、Airflow 等主流调度系统的 Workflow 自动识别与转换,将原生任务脚本迁移至 DataWorks 作业体系。系统自动执行代码转换、依赖关系重建与血缘对比,确保任务逻辑准确无误,避免人工迁移带来的配置错误。
- 双跑校验:分层验证确保业务平稳过渡
在正式割接前,系统支持“双跑”模式,即源端与目标端并行运行相同任务,实时比对输出结果与执行状态。通过分层业务域校验,覆盖批处理、流式计算、AI 训练等场景,全面验证数据准确性与系统稳定性。
- 割接运维:安全切换与持续运营支持
完成双跑验证后,系统提供可视化割接操作界面,支持按业务模块逐步切换。迁移完成后,自动接入 DataWorks 运维体系,实现统一监控、告警与治理,助力客户快速进入云上稳定运营阶段。