阿里云 EMR Serverless Spark + DataWorks 技术实践：引领企业 Data+AI 一体化转型

演讲者： 晨曦 | Dataworks 高级技术专家

导读： 数字化转型浪潮中，企业正面临三大关键挑战：出海全球化需要开源架构实现多云部署；降本增效要求数据湖技术减少拷贝、提升引擎性能；融合 AI 驱动内部提效及业务创新。

面对上述挑战，阿里云 DataWorks 推出开源湖仓智能平台，通过多模态数据统一治理、AI全链路血缘追踪和一体化开发能力，实现从数据入湖到模型推理的端到端提效。借助湖仓迁移中心自动化上云方案与ChatBI智能交互等创新功能，显著降低企业迁移成本与AI使用门槛，助力全球业务"一次开发、多地部署"，加速数字化转型与全球化落地。

本次分享包括三个方面：

企业在 Data+Al 领域面对的挑战
Dataworks 的架构设计与实践
即刻上云方案介绍

企业在 Data+AI 领域面对的挑战

1. 企业业务在发生深刻变革

企业出海：构建统一、松耦合的多云架构

从制造业、电商、短视频到 web3，均呈现出规模化出海态势。这一趋势对企业技术架构提出明确要求：“一套架构、全球部署”，以避免对单一云厂商的深度依赖，而开源技术凭借其松耦合特性和跨云兼容性，成为支撑这一战略的理想选择，有效降低了架构迁移与运维的复杂性。

提效降本：从 T+1 到实时，构建统一数据湖

与此同时，降本增效已成为企业核心诉求。企业通过数据湖技术消除冗余数据拷贝、提升引擎执行效率以节约计算资源（如 CPU 利用率优化）及人力维护成本，进而缩短任务处理周期。在此背景下，DataWorks 结合 Serverless Spark 通过智能化调度与高性能计算能力，助力企业实现降本增效。

拥抱 AI：AI 驱动开发提效与产品创新

尤为关键的是，AI 已经成为生产力工具和创新引擎，企业拥抱AI技术已经成为必选项。一方面用于内部提效，通过 AI 辅助开发（如代码生成、任务编排），将传统开发周期从一天缩短至半天，提升研发效率；另一方面驱动企业创新 AI 应用、大模型服务及行业场景解决方案以赋能客户。DataWorks 正在集成 AI 能力，构建智能化数据平台。

2. Data + AI 一体化架构成为重点关注

随着企业数字化转型深入，Data + AI 一体化成为技术架构的核心方向。传统数据湖主要管理结构化与半结构化数据（如 Parquet、JSON），如今正向全模态统一治理演进，将图片、音频、视频等非结构化文件纳入湖仓体系，实现“一湖多源”统一存储与管理。同时，计算引擎从单一大数据工具扩展至支持 AI 场景 Spark、Ray 等分布式框架，推动开发平台向一站式、智能化发展。

数据湖范围扩展：从结构化到全模态统一管理

现代数据湖不再局限于结构化数据，而是通过 Data Lake Formation 架构整合 Paimon、Iceberg 等格式表，并支持原始文件（如图像、音视频）直接入湖。借助 Lance、File 等格式支持，企业可对全类型数据进行统一元数据管理、权限控制与生命周期治理，为 AI 模型训练提供高质量、可追溯的数据资产。

计算引擎多元化：Spark 与 Ray 共同支撑 AI 开发

在 AI 场景中，Apache Spark 凭借其强大的批处理能力与 Python 生态兼容性，广泛用于大模型训练前的数据清洗、特征工程与推理任务。而 Ray 因其低延迟、高并发特性，被 OpenAI 等头部机构用于分布式训练与强化学习。两者共同构成 Data + AI 的核心计算底座，支持从数据准备到模型推理的全流程高效执行。

开发治理一体化：构建一站式 Data + AI 平台

企业亟需统一平台实现数据与 AI 全流程协同。基于 DataWorks 的一站式开发治理平台，集成 Spark、Flink、Ray 等引擎，支持 Notebook、Copilot 智能辅助开发，覆盖数据安全、数据管理、数据开发、数据集成等环节。该平台不仅提升研发效率，还填补了 AI 领域在版本管理、模型追踪、合规审计等方面的治理空白，助力企业构建可持续发展的智能数据体系。

DataWorks 的架构设计与实践

1. 阿里巴巴生态体系

作为阿里云历史积淀深厚的一站式数据开发治理平台，DataWorks 已深度集成于阿里巴巴集团99%以上的业务单元，成为支撑全域数据资产的核心基础设施。DataWorks 不仅集成了大数据引擎（如 Spark、Flink），还纳入了 AI 引擎（如 Ray），支持从数据处理到大模型训练推理的全流程。

统一计算底座：多引擎高效协同

DataWorks 支持多引擎统一调度，涵盖批流处理、分布式训练等多种场景。通过标准化接口与作业编排，打破数据与AI处理之间的隔阂，实现“一次开发、多引擎运行”。这使得用户能够灵活调用不同引擎完成任务，提升资源利用率和开发效率。

模块化功能层：覆盖全生命周期的数据治理

DataWorks 提供了全面的数据开发与治理能力，包括可视化开发、数据同步、质量监控、安全合规等。这些模块共同构建了数据接入、加工、建模到服务化的闭环流程，确保数据在流转过程中可管、可控、可追溯，满足企业的数据治理需求。

上层应用支撑：推动业务创新与发展

基于 DataWorks 构建的数据资产与服务能力，为阿里巴巴旗下各业务线提供了强大的数据支持。无论是交易类APP还是健康旅游等服务，都能从中受益，加速业务决策过程并优化用户体验。最终，DataWorks 助力企业在数字化转型道路上取得成功。

2、DataWorks 产品优势

2025 年，DataWorks 的核心优势聚焦两大方向：一是 AI + 大数据深度融合，通过集成 Spark、Ray 等 AI 友好引擎与 Copilot 智能开发能力，支持从数据准备、特征工程到大模型推理的端到端 pipeline；二是湖仓一体架构升级，全面兼容 Paimon、Iceberg、Delta Lake 等开放湖格式，实现结构化与非结构化数据统一存储、统一元数据管理与统一治理，构建高性能、低成本、可扩展的新一代数据基础设施。

3、面向开源湖仓Data+AI一体化平台架构

在2025云栖大会上，DataWorks 发布多项重磅能力，全面升级为面向开源湖仓的智能数据开发治理平台。依托 Data Lake Formation（DLF）与统一元数据服务，实现结构化、半结构化及非结构化数据的统一管理。新增多模态数据管理、ChatBI、Data+AI 开发 Notebook 等模块，结合 Serverless Spark 引擎优化，大幅提升开发效率与资源利用率。

多模态数据管理：构建统一湖仓数据资产

DataWorks 支持在 DLF 或用户自建湖上进行多模态数据统一治理，覆盖 PDF、图像、音视频等非结构化数据。通过 Paimon、Iceberg、Hudi 等开放格式支持，实现全类型数据的元数据注册、权限控制与生命周期管理，为 AI 模型训练提供高质量、可追溯的数据底座。

Data+AI 开发：融合 Notebook 与智能工具链

推出 Data+AI 开发 Notebook，集成 Spark、Ray、Hive 等引擎，支持 Python/SQL 混合编程，实现从数据处理到模型推理的一站式开发。结合 Copilot Agent 模式，提供任务自动执行、代码生成、作业调试等智能辅助功能，显著降低 AI 开发门槛。

ChatBI 与智能交互：自然语言驱动数据分析

全新发布 ChatBI 模块，用户可通过自然语言提问完成数据探索与分析。系统基于语义理解与 SQL 生成能力，自动调用底层引擎执行查询，并以可视化图表返回结果，实现“所问即所得”的智能分析体验，提升业务人员数据使用效率。

底层支撑：统一调度与 Serverless 弹性计算

平台依托统一调度执行引擎与统一元数据服务，实现跨引擎作业协同与数据血缘追踪。重点推出 Serverless Spark，支持按需弹性伸缩、自动扩缩容，大幅降低运维成本。底层兼容 OSS、OSS-HDFS 及多种数据格式（ORC、Parquet），构建高性能、低成本的湖仓计算底座。

4、多模态数据管理

DataWorks 面向 AI 与大数据融合场景，推出多模态数据管理能力，实现结构化、半结构化与非结构化数据的统一治理。通过 DLF Catalog 和 Lance 格式支持，构建全模态数据资产目录，提供语义化智能搜索、统一数据集挂载与权限管控，助力企业高效管理海量多模态数据。

统一元数据：构建多模态数据资产目录

DataWorks 支持将 DLF、OSS、NAS 等多源数据注册为统一数据集，并基于 Lance 格式实现元数据标准化。系统自动解析图像、视频等非结构化数据内容，生成可理解的标签与描述信息，支持版本管理与血缘追踪，构建企业级多模态数据资产地图。

统一搜索：支持语义化智能检索

平台提供非结构化资产智能搜索能力，用户可通过自然语言或关键词（如“黄色小汽车”“人行横道异常”）进行语义化查询。系统结合视觉识别与文本分析模型，实现对图像内容、视频帧、OCR 文本的深度理解，加速自动驾驶、安防等场景下的数据探索效率。

统一使用：即查即用的数据集能力

DataWorks 推出数据集（Dataset）概念，支持在 Python、Shell、Notebook 等环境中一键挂载数据集，无需手动配置 HDFS、OSS 客户端。底层自动完成数据读取与格式解析，支持 EMR Serverless Spark、MaxCompute、PAI DLC 等引擎无缝接入，实现“即查即用”的开发体验。

统一管理：适配原有权限治理体系

所有多模态数据均纳入统一元数据服务，继承企业现有权限管理体系。无论是大数据工程师还是 AI 开发者，均可在统一平台中进行数据访问控制、团队协作与审计追踪，确保数据安全合规，提升跨团队协同效率。

5、多模态数据血缘管理

在大数据领域，数据血缘早已成为治理与溯源的核心能力。然而，在 AI 工程化实践中，从原始数据到最终推理结果的全链路血缘追踪长期处于空白状态——模型训练依赖哪些数据？某次推理异常是否源于早期数据污染？这些问题缺乏系统性答案。DataWorks 率先推出 AI 全链路血缘追踪能力，填补行业空白。该能力覆盖完整 AI 生命周期：从数据集导入、通过 Spark 或 Ray 进行清洗与特征工程，到预训练、微调（SFT）、模型注册，再到部署与在线推理服务，每一步的数据流动与任务依赖均被自动捕获并可视化。基于统一元数据服务和调度引擎，系统可精准关联数据版本、代码任务、模型快照与服务接口，实现“一图看尽 AI 血缘”。这不仅提升了模型可解释性与调试效率，更满足金融、自动驾驶等高合规场景对 AI 审计与责任追溯的严苛要求，真正让 AI 开发变得透明、可信、可管。

6、Data + AI 一体化开发

DataWorks 在 Notebook 中全面升级 Data+AI 一体化开发能力，支持 Python Cell 与 SQL Cell 双模式交互，结合智能代码补全、可视化分析与 AI Copilot 辅助，显著提升数据探索与模型开发效率。通过 Serverless Spark 引擎与多任务类型支持，实现从数据处理到 AI 训练推理的端到端协同。

交互式开发：支持多 Cell 类型与智能提示

DataWorks Notebook 支持 Spark SQL 与 Spark Python 双模式 Cell，用户可灵活切换进行数据探查与复杂计算。系统内置智能代码提示（IntelliSense）与自动补全功能，降低开发门槛。同时提供实时数据可视化图表（如柱状图、折线图），助力快速洞察数据特征。

资源调度：弹性 CPU/GPU 资源按需使用

平台支持 CPU/GPU 资源按需分配，用户可在 Notebook 中动态申请计算资源，用于训练或推理任务。支持周期调度与事件触发式调度，无缝集成至 AI Pipeline 流程中，实现资源高效复用与成本优化。

环境自由定制：云原生执行与灵活扩展

支持自定义镜像与挂载 OSS/NAS 存储，用户可预置 PyTorch、TensorFlow 等 AI 框架及私有库，实现“开箱即用”。系统提供标准镜像仓库与快速制作工具，支持一键部署定制化 Python 环境，满足复杂 AI 场景需求。

丰富任务类型：覆盖全生命周期 AI 工作流

支持 60+ 种任务类型，涵盖批处理、流式计算、AI 训练、推理、模型评估等。用户可通过 Notebook 直接提交训练任务至 PAI 或 MaxCompute，实现从数据处理到模型部署的全流程闭环，构建完整的 MLOps 链路。

DataWorks 在 Data+AI 一体化开发中，突破传统 IDE 限制，推出对话式 AI 开发模式和一次开发、多 region 部署能力。通过集成 Qwen Code Agent 的 Copilot 功能，用户可自然语言提问完成数据查找、代码生成与任务编排；同时支持一键打包发布至全球 20+ 区域，满足企业出海与多云部署需求。

智能化开发：AI 自动生成分析逻辑与执行代码

DataWorks Copilot 支持用户以自然语言描述分析需求（如“找出近30天销售额最高的商品”），系统自动解析语义，生成 SQL 或 Python 脚本，并推荐可视化图表。集成 Qwen Code Agent 后，可理解复杂业务逻辑，输出结构化代码与执行步骤，实现从“人工编码”到“智能生成”的跃迁。

AI 加持：全新推出 AI 搜索与 Copilot Agent 模式

平台上线 AI 搜索功能，用户可通过问答方式快速定位数据资产与血缘路径。同时推出 Copilot Agent 模式，支持多轮对话、上下文理解与任务拆解，可自动调用 DataWorks 内部工具完成数据清洗、建模、调度等操作，实现从“辅助”到“自主执行”的升级。

一次开发 & 多 region 部署：支持全球化应用交付

结合 DataWorks 的统一部署能力，用户可在本地完成开发后，一键导出发布包，快速部署至国内及海外 20+ 地域。支持跨区域数据同步与权限继承，满足企业出海场景下“一次开发、多地部署”的需求，提升全球化业务响应速度。

DataWorks 推出 ChatBI 能力，让业务分析师无需编写 SQL 或 Python，仅通过自然语言提问（如“上月销售额最高的区域是哪里？”），即可自动解析意图、生成查询逻辑并执行相应的python 或者 SQL任务。系统基于阿里云千问大模型，结合智能可视化引擎，自动生成图表与洞察，大幅降低数据分析门槛，让 Excel 用户也能轻松完成数据探索与决策支持。

7、DataWorks高效的数据集成

DataWorks 数据集成作为核心入湖工具，凭借丰富异构数据源支持、离线/实时全覆盖及极致性能优化，助力企业高效构建统一数据湖。系统日同步数据量超 10+PB，覆盖集团 130+ BU 与全球 20+ 公共云 Region，实现从传统数据库到 AI embedding 的全场景数据接入。

功能特性：支持多源异构与复杂网络环境

DataWorks 数据集成支持 MySQL、PostgreSQL、MongoDB、Oracle 等主流数据库，以及 Kafka、SFTP、OSS 等多种数据源，满足结构化与半结构化数据入湖需求。同时提供复杂网络打通方案（如专线、VPC 对接），支持跨云、跨地域安全传输，保障企业级数据迁移稳定性。

性能成本：极致优化与弹性扩容

平台采用全托管架构，提供高可用保障与自动故障恢复能力。通过智能调度与资源池共享，实现极致性能优化，单任务吞吐可达 TB 级。结合 Serverless 弹性扩缩容机制，按需分配计算资源，显著降低运维成本与空闲资源浪费。

AI 融合：支持 Embedding 与实时入湖

除传统数据同步外，DataWorks 支持 AI 场景下的 Embedding 向量化数据入湖，可将大模型生成的向量特征直接写入 Iceberg/Paimon 表，为后续向量检索与推荐系统提供高质量输入。同时支持 Flink 实时流式入湖，实现从 T+1 到近实时的数据流转。

8、DataWorks整库同步解决方案

面对企业普遍存在的分库分表架构（如上百个库、数百张表），传统 Spark 或 Flink 任务开发复杂、调试困难。DataWorks 推出整库同步解决方案，通过白屏化操作实现一键式结构迁移、全量初始化与增量同步，显著降低技术门槛，助力用户快速完成大规模数据入湖。

结构迁移：自动建模目标端表结构

系统支持从 MySQL、PostgreSQL、Kafka 等源端自动获取表结构信息，智能映射至 Paimon、Iceberg、Hudi 等湖仓格式，并自动生成建表语句与执行脚本。用户无需编写代码，即可在目标端一键创建与源端一致的 300+ 张表，实现元数据快速同步。

全量同步：一次性完成海量数据迁移

在结构迁移完成后，平台自动启动全量同步任务，将源端所有表数据批量写入目标湖仓。支持并行处理多表、自动分区与压缩优化，提升吞吐效率。系统提供进度监控与失败重试机制，确保数据一致性与任务稳定性。

增量同步：持续追加实时变更数据

全量同步完成后，系统自动对齐启动点位（Checkpoint），开启基于 Binlog 或 Kafka 消息流的增量同步任务，实现实时数据追加。支持动态扩缩容与资源调度，适应业务高峰期负载变化，保障低延迟、高可用的数据同步链路。

9、数据入湖架构方案

DataWorks 数据集成在实时同步场景下，通过并发度提升与单线程性能优化双轮驱动，显著超越纯开源方案。系统基于 Flink CDC 架构，支持 MySQL、PostgreSQL 等数据库实例级变更捕获，结合分布式并行处理与高效序列化库，实现 PB 级数据的高吞吐、低延迟入湖。

分布式并行处理：提升任务并发能力

针对复杂同步任务，DataWorks 将单个实例的 CDC 流拆分为多个子任务，并通过 Pk Shuffle 机制实现数据分发，支持多表、多库并行处理。例如，MySQL 实例下的多个 DB 可独立调度，提升整体并发度，降低端到端延迟，满足高负载业务场景需求。

高效序列化与反序列化：加速数据流转

在事件解析与传输过程中，系统引入自研高性能序列化库，减少 JSON 解析开销，提升数据编码/解码效率。同时优化 Transformer 算子链路，降低中间数据拷贝与内存消耗，显著缩短每条记录的处理时间。

全链路性能调优：实现成本下降 50%

通过上述优化，DataWorks 实现了从源端到目标湖（Paimon/Iceberg/Hudi）的端到端性能提升。某客户案例显示，采用 DataWorks 实现 MySQL & Loghub 全增量实时同步至 Paimon 表后，资源消耗下降约 50%，运维成本显著降低，验证了其在大规模生产环境中的优越性。

即刻上云方案介绍

1、湖仓迁移中心

为解决传统数据搬迁“黑盒操作、人工比对、流程复杂”等痛点，DataWorks 推出湖仓迁移中心，提供全链路可视化、自动化迁移方案。目前已服务超 100 家客户，实现从本地或异构平台到阿里云湖仓的高效、可控迁移，显著降低上云门槛与运维成本。

全元素覆盖：支持多类型数据资产迁移

迁移中心支持常用数据库、数据仓库、对象存储、计算引擎及 OLAP 引擎等全栈数据源。通过统一接口与元数据映射，实现跨系统、跨架构的数据资产完整迁移，满足企业多样化上云需求。

一站式迁移：自动完成全流程任务编排

平台支持基于源端结构自动生成迁移作业，涵盖全量同步、增量同步、数据转换、表映射等环节。用户无需手动编写脚本，仅需配置目标端即可启动迁移流程，大幅减少人工干预，提升迁移效率与一致性。
全景可视化：实时监控迁移状态与数据质量

提供双模态迁移进度视图，支持可视化展示数据量、任务状态、延迟指标与数据一致性校验结果。用户可动态查看各节点运行情况，及时发现并处理异常，确保迁移过程透明可控。

精细化管控：支持分批、分级、按需迁移

支持按库、按表、按分区进行精细化迁移控制，结合资源调度策略实现动态扩缩容。通过对比分析与差量校验，最小化迁移窗口期，减少业务影响，助力客户以最低成本完成平滑上云。

2、湖仓迁移中心

DataWorks 湖仓迁移中心提供全流程、白屏化的大数据与 AI 平台迁移方案，涵盖集群盘点、数据迁移、作业迁移、双跑校验、割接运维五大阶段。通过自动化工具链与智能评估模型，帮助客户高效完成从本地或异构云到阿里云的平滑迁移，降低风险、节省成本。

集群盘点：自动采集资源并生成优化方案

系统通过 Agent自动盘点线下资源，或者是其他云上面的资源的集群配置、存储容量、计算资源使用情况等元信息，结合阿里云性能基准模型进行资源评估与成本预估。自动生成上云架构建议与资源规划方案，支持一键生成迁移计划，提升决策效率。

数据迁移：全量+增量同步与元数据一致性保障

平台支持全量数据迁移与增量同步，基于 Flink CDC 实现低延迟实时入湖。同时自动完成 DDL 转换、表结构映射与元数据同步，并内置数据校验机制，确保数据完整性与一致性，满足企业级合规要求。

作业迁移：主流调度引擎自动转换与血缘对齐

支持 DolphinScheduler、Airflow 等主流调度系统的 Workflow 自动识别与转换，将原生任务脚本迁移至 DataWorks 作业体系。系统自动执行代码转换、依赖关系重建与血缘对比，确保任务逻辑准确无误，避免人工迁移带来的配置错误。

双跑校验：分层验证确保业务平稳过渡

在正式割接前，系统支持“双跑”模式，即源端与目标端并行运行相同任务，实时比对输出结果与执行状态。通过分层业务域校验，覆盖批处理、流式计算、AI 训练等场景，全面验证数据准确性与系统稳定性。

割接运维：安全切换与持续运营支持

完成双跑验证后，系统提供可视化割接操作界面，支持按业务模块逐步切换。迁移完成后，自动接入 DataWorks 运维体系，实现统一监控、告警与治理，助力客户快速进入云上稳定运营阶段。