在生成式 AI 浪潮下,数据不再只是“被搬运的原料”,更应是“可理解、可推理、可挖掘价值”的智能资产。然而,传统 ETL(Extract-Transform-Load)流程仍停留在结构化数据处理层面,面对海量文本、日志、反馈等非结构化数据时,往往依赖人工标注或复杂开发链路,效率低、成本高、响应慢。
为此,阿里云大数据开发治理平台 DataWorks 数据集成全新智能化升级,以“ AI 释放数据价值”为核心,正式推出 AI 辅助处理能力,并将该功能在阿里云全球所有地域全面开放!将大模型语义理解、AI 智能分析能力深度融入离线同步任务的数据集成任务,真正实现“让每一条数据流都能思考”。
核心能力-开箱即用的智能 ETL 引擎
DataWorks Serverless 资源组全新升级,支持大模型一键部署与高效调用!现已支持 Qwen3 系列、DeepSeek 系列及 Embedding 模型,提供多种 GPU 规格按需选用,按量付费,灵活成本。通过 AI Function 可便捷调用模型服务,小尺寸模型推理性能提升近 10 倍,并支持使用 DataWorks Serverless CU 资源抵扣,助力 AI 应用快速构建与弹性扩展。
DataWorks 数据集成现已支持在离线同步任务中直接调用大模型服务,用户无需部署模型、无需编写代码、无需额外付费,只需通过自然语言提示(Prompt),即可完成复杂的数据清洗、增强与语义结构化操作。
| 功能 | 说明 |
|---|---|
| AI 辅助处理 | 支持情感分析、文本分类、摘要生成、关键词提取、翻译等常见 NLP 任务 |
| 向量化(Embedding)处理 | 自动将文本字段转化为高维向量,用于语义搜索、RAG、推荐系统等 AI 应用 |
| 多平台模型支持 | * 通过阿里云 DataWorks 部署模型服务 * 通过阿里云 PAI 模型市场开通模型服务 * 通过阿里云百炼平台开通大模型服务 |
| 零代码配置 | 全图形化界面操作,业务人员也能轻松定义 AI 处理逻辑 |
| 结果直写目标表 | 所有 AI 处理结果可直接映射至目标数据库字段,无缝对接下游应用 |
整个过程完全托管,且 AI 处理功能本身不额外收费 —— 您只需为同步任务消耗的计算资源付费,与其他普通离线同步任务计费方式完全一致。
适用场景-多行业多场景赋能企业 AI 落地
智能数据处理在数据同步 ETL 流程中可广泛应用于多个企业场景,通过情感分析、摘要生成、关键词提取、翻译和向量化等能力提升数据处理效率与洞察深度。这些应用可以显著提升了企业的决策支持能力和运营智能化水平。
1、电商客服场景:用户反馈分析与情感分类
示例,客户留言:“快递太慢了,等了半个月还没到!”
| 数据处理场景 | 提示语 | 处理结果示例 |
|---|---|---|
| 情感分析 | 对用户投诉/咨询文本进行情感分类(正面/负面/中性) | 负面 |
| 摘要生成 | 将长文本的用户反馈压缩为简短摘要,提取核心问题 | 用户投诉物流时效问题 |
| 关键词提取 | 识别高频问题关键词(如“物流延迟”“产品质量”) | 物流延迟、快递、时效 |
👉 自动归类千万级评论,支撑运营决策与服务质量优化。
2.、智能汽车场景:设备日志分析与预测性维护
示例,日志内容:“The break pump pressure:abnormal; sensor exceeding : 15%”
| 数据处理场景 | 提示语 | 处理结果示例 |
|---|---|---|
| 文本总结 | 将设备运行日志中的故障描述压缩为关键信息 | 刹车泵浦压力超限,需立即检查 |
| 严重性判断 | 判断日志中描述的故障严重性(如“紧急”“警告”) | 高危 |
| 翻译 | 统一翻译为中文 | 刹车泵浦压力异常,传感器显示值高于阈值15% |
👉 将非结构化日志转为结构化告警信息,助力预测性维护系统快速响应。
3、供应链场景:供应商反馈分析与风险预警
示例,供应商邮件:“We are unable to fulfill the order due to a shortage of raw materials.”
| 数据处理场景 | 提示语 | 处理结果示例 |
|---|---|---|
| 情感分析 | 评估供应商合作态度(积极/消极) | 消极 |
| 摘要生成 | 提取供应商反馈的核心问题(如“交付延迟”) | 供应商因原材料短缺无法完成订单 |
| 翻译 | 将非中文供应商邮件翻译为中文 | 由于原材料短缺,我们无法完成该订单 |
👉 自动识别交付风险,提前触发备选供应商调度机制。
4、法律场景:合同条款分析与风险标注
示例,合同条款:“In the event of force majeure, the delivery deadline may be extended.”
| 数据处理场景 | 提示语 | 处理结果示例 |
|---|---|---|
| 摘要生成 | 提取合同核心条款(如付款条件、违约责任) | 不可抗力条款允许延期交货 |
| 关键词提取 | 识别关键法律术语(如“不可抗力”“仲裁条款”) | 不可抗力、交货期限 |
| 翻译 | 将外文合同翻译为中文 | 若发生不可抗力,交货期限可延长 |
👉 提升法务审查效率,降低合同履约风险。
案例说明
接下来介绍如何使用AI辅助处理功能,将数据来源表中feedback_info列的数据翻译为英文并同步至目标表。
来源表数据准备
CREATE TABLE customer_feedback (
id BIGINT PRIMARY KEY,
device STRING,
feedback_info STRING,
pt INT
)
PARTITIONED BY (pt)
DISTRIBUTED BY HASH(id)
WITH (table_type='Duplication');
INSERT INTO customer_feedback (id, device, feedback_info, pt)
VALUES
(8, 'Huawei MateBook D14', '价格实惠,适合学生党,性能够用', 2020),
(1, 'iphone', '这个商品还行,我用了1年', 2013),
(10, 'Bose QuietComfort 35 II', '降噪耳机中的经典,舒适度满分', 2021);
一、创建离线同步任务
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的快速进入 > Data Studio,进入Data Studio。
在左侧导航栏单击按钮</>,进入数据开发页面,在项目目录右侧单击按钮+,选择新建节点 > 数据集成 > 离线同步,进入新建节点对话框。
设置节点路径、数据来源去向和节点名称后,单击确认,创建离线同步节点。
本文以Hologres同步至Hologres为例,介绍离线同步任务中的AI辅助处理功能。
二、配置同步任务
创建离线同步节点后,会自动进入任务编辑页面,您需要在此页面配置如下信息:
1、数据源
分别配置数据同步任务的数据来源和数据去向。
类型:创建离线同步任务步骤中已选择的数据来源和去向的数据源类型,不支持修改,如需修改请重新创建离线同步任务。
配置方式:
快速配置:手动配置数据来源与数据去向的连接信息,详细的配置参数解释可在配置界面查看对应参数的文案提示。
使用已有数据源:请在数据源参数后的下拉列表中选择已创建的数据源。
说明
数据源中只展示对应类型的数据源。
2、运行资源
选择同步任务所使用的资源组。如果使用 Serverless 资源组,您还可以为该任务分配资源占用 CU 数。
选择资源组后,数据集成将自动检测资源组与数据来源、数据去向的连通性,您也可以手动单击连通性检查。
3、数据来源
配置数据来源具体待同步的表信息,如Schema、表、分区和数据过滤条件等。您可以单击数据预览,查看待同步的具体数据。
4、数据处理
在数据处理区域,您可以开启数据处理能力,数据处理能力需要更多的计算资源,会增加任务的资源占用开销。
单击添加节点,当前支持字符串替换和AI辅助处理。本案例以AI辅助处理为例进行介绍。
配置AI辅助处理相关信息。
关键参数解释如下:
| 参数 | 描述 |
|---|---|
| 模型提供商 | 支持阿里云DataWorks模型服务、阿里百炼平台、阿里云PAI模型市场。 |
| 模型名称 | 负责智能数据处理的模型,按需选择。 |
| API Key | 访问模型的API KEY,请前往模型提供商获取。 阿里云百炼平台:获取百炼API Key。 阿里云PAI模型市场:前往部署的EAS任务,进入在线调试,获取Token,将其作为API KEY填写到此处。 |
| 处理工作描述 | 请使用自然语言描述对来源字段的处理,字段名以#{column_name}格式书写。例如,本案例中,此处填写请将'#{feedback_info}'翻译成英文。 |
| 写入字段 | 此处请输入存储结果字段的名称,如果对应字段不存在,将自动新增一个字段。 |
说明
本案例的示例配置中,会将来源表的feedback_info字段翻译成英文,并存储到feedback_processed字段中。
您可以单击AI辅助处理区域右上角的数据输出预览,查看输出的最终数据效果。
(可选)您可以配置多个先后按顺序执行的数据处理流程。
5、数据去向
配置数据同步的目标表信息,例如Schema、表名、分区等。
您可以单击一键生成目标表结构,快速生成目标表。
如果目标端中已存在表用于接收数据,则按需选择即可。
配置写入模式以及写入冲突策略。
配置同步前是否要清空Hologres表中的已有数据。
(可选)配置最大连接数。
最大连接数仅在写入模式为SQL(INSERT INTO)下生效,在开启任务时请确保Hologres实例有充足的空闲连接。一个任务最多使用9个连接。
6、去向字段映射
配置完成数据来源、数据处理和数据去向后,会在此处展示来源与去向表间的字段映射关系,默认为同名映射和同行映射,你也可以按需进行调整。
说明
本案例中除了将源表已有字段(id、device、feedback_info、pt)同名映射外,还需要手动将源表中存储翻译后结果的feedback_processed字段,映射至目标表的translate_feedback字段中。

三、调试任务
在离线同步任务的编辑窗口右侧,单击调试配置,配置调试本节点使用的资源组和相关脚本参数。
单击节点顶部工具栏的保存,然后单击运行,等待运行结束,查看运行结果是否成功,您可以前往目标端数据库查看表数据是否符合预期。
四、调度配置
若离线同步节点需要周期性调度执行,您需要在节点右侧的调度配置中设置调度策略,配置相关的节点调度属性。
五、节点发布
请单击节点工具栏的发布图标唤起发布流程,通过该流程将任务发布至生产环境。只有在发布至生产环境后,才会进行周期性调度。
后续操作:任务运维
节点发布后,您可以在发布流程中单击补数据或去运维。