架构解析 | 解构PB级AI数据工程：中国电信“星海·高质量数据集平台”的DAG调度与算子编排实践【摘要】在数据决定模

【摘要】 在数据决定模型天花板的共识下，构建一套标准化、自动化的高质量数据底座，将是所有AI团队不可逾越的必修课。面对海量多模态数据处理的碎片化痛点，中国电信“星海·高质量数据集平台”通过打造覆盖采集、预处理、标注、合成、评测、安全、管理及数据回流的全链路工具链，实现了AI数据生产的工业化转型。该平台近期已首批通过中国信通院“高质量数据集开发运营平台能力”专项测试，其架构实践为行业提供了标准范式。

一、背景：从“炼丹”到“工业化生产”的工程鸿沟

随着Scaling Law（缩放定律）的验证，大模型对数据的需求呈现指数级增长。然而在实际工程落地中，算法团队面临着严峻的“数据债”：

工具链割裂：清洗用脚本、标注用外包工具、管理用Excel，缺乏统一的平台支撑。
数据孤岛：采集、处理与模型训练环节脱节，数据无法形成闭环回流。
长尾样本缺失：自动驾驶中的极端天气、工业质检中的罕见缺陷，真实数据难以采集。

为了解决这些System 2层面的工程难题，星海·高质量数据集平台应运而生。它不是一个简单的工具箱，而是一套基于云原生架构的DataOps基础设施。

二、核心解法：打造“采-加-标-管-评”全生命周期工具链

区别于传统单点工具，星海平台构建了端到端的数据生产流水线，实现了从原始数据到高质量数据集的无缝流转：

全模态采集与接入：支持结构化与非结构化（图像、视频、音频）多源异构数据的统一接入，单次同步能力达TB级别。
自动化预处理：内置清洗、去重、格式转换等标准化流程，大幅降低人工介入成本。
智能标注：采用“AI预标+人工精修”模式，配合多级质检机制，保障标注准确率。
数据合成与增强：针对长尾场景，利用AIGC技术生成合成数据，补全样本短板。
动静结合评测：融合静态规则校验与动态模型效果反馈，全维度评估数据质量。
安全与合规：内嵌数据脱敏、隐私检测算子，确保数据流通符合安全规范。
统一资产管理：通过数据门户（Data Portal）实现数据集的版本控制、血缘追踪与权限共享。
数据回流闭环：打通训练侧与数据侧，支持Bad Case即时回流至平台进行再清洗与再迭代，形成数据飞轮。

三、底层架构：DAG调度与流批一体引擎

为了支撑上述全链路的高效运转，星海·高质量数据集平台底层采用存储计算分离架构，核心引擎层实现了从“业务逻辑”到“物理执行”的完美转译。

1. 逻辑转义中枢：DAG的动态构建

在多模态数据处理中，最大的痛点是算子的组合与复用。平台设计了独特的多模态引擎核心单元，作为配置解析与逻辑编排层。

配置即代码：用户在前端拖拽生成的流程，会被解析器转化为结构化的DAG（有向无环图）。
算子融合优化（Chain Loop） ：引擎会自动分析算子依赖关系。例如，对于同源数据的连续变换（如node_1 -> filter -> resize），引擎会将多个逻辑算子合并为一个物理Map函数，大幅减少中间数据的序列化与反序列化开销，提升执行效率。

2. 流批一体的分布式计算

底层计算载体采用Flink流批一体架构，实现了大规模数据的并行处理。

资源弹性（HPA） ：利用K8s的HPA（Horizontal Pod Autoscaler）能力，根据任务负载（如CPU/Memory使用率、Kafka Lag堆积量）动态扩缩容计算节点，实现成本与性能的平衡。
异构调度：通过Node Label与Taint/Toleration机制，将推理类算子（如OCR、向量化）自动调度至GPU节点，将规则类算子（如正则过滤）调度至CPU节点，实现异构算力利用率最大化。

3. 多级缓存策略：打破I/O瓶颈

针对多模态数据（尤其是视频、大图）处理中的I/O密集型特征，平台设计了三级缓存机制：

内存通道：Executor内部及临近Executor之间，直接通过内存传递二进制流，实现**零拷贝（Zero-copy）**传输。
本地FS共享：同一Pod内的Executor共享本地文件系统缓存，解决超大文件无法全量加载进内存的问题。
分布式缓存：跨节点数据通过远端分布式文件系统（如HDFS/S3）进行加速，确保数据的一致性与持久化。

四、算子工程：140+多模态能力的标准化封装

平台的核心资产是算子（Operators） 。星海·高质量数据集平台目前内置了超过140种多模态处理算子，覆盖了数据生产的全生命周期。

1. 丰富的内置算子库

基础清洗：图片去重、格式转换、文本正则清洗等。
智能分析：集成OCR、ASR（语音转文字）、NLP情感分析、向量嵌入等AI原子能力。
安全合规：内置涉黄、涉暴、涉政检测算子，以及隐私数据（人脸、车牌、PII信息）的自动化脱敏/掩码能力。

2. 开放的生态架构（Developer Friendly）

为了满足开发者的定制化需求，平台拒绝“黑盒”，提供了极强的扩展性。

Python原生支持：基于Python构建AI原生工程环境，开发者只需遵循简单的Input -> Process -> Output接口规范，即可将自定义Python脚本封装为标准算子。
深度学习框架集成：原生支持PyTorch/TensorFlow，方便直接调用HuggingFace或ModelZoo上的开源模型进行推理加速。
可视化编排：自定义算子发布后，可直接在画布中与内置算子混合编排，构建复杂的处理流水线。

五、破局长尾：生成式AI的数据合成技术

当真实数据采集达到瓶颈时，“合成数据”成为Scaling Law的新燃料。星海·高质量数据集平台在数据工坊中集成了前沿的AIGC能力。

场景化生成：针对自动驾驶、安防监控等场景，支持通过Prompt工程生成特定条件下的样本（如“暴雨天气的红绿灯路口”、“夜间模糊的人脸”）。这有效解决了Corner Case（长尾场景）数据稀缺的问题。
数据增强：利用扩散模型（Diffusion Models）等技术，对小样本数据进行风格迁移、背景替换和语义增强，大幅提升训练集的泛化能力与多样性。

六、质量闭环：动静结合的评测体系

数据质量不应只看“标注有没有对齐”，更要看“对模型有没有帮助”。星海平台构建了严密的闭环评测体系：

1. 静态规则校验

基于多维度指标（一致性、有效性、完整性、规范性）进行自动化打分。例如，自动检测图片分辨率是否达标、文本是否存在乱码、JSON格式是否合法。

2. 动态效果反馈（Loop）

这是星海平台的一大特色。平台支持基于训推效果的动态评测。通过将处理后的数据集投入小规模模型（Proxy Model）进行验证，根据Loss曲线或特定任务的Metric变化，反向评估数据集的质量。这种机制让数据治理从“经验驱动”转向了“实验驱动”。

3. 可追溯的质量报告与回流

评测报告支持下钻到具体的“Bad Case”。开发者可以直接定位到触发红线规则的异常样本（如曝光过度的图片），并支持一键回流至清洗环节进行二次处理或剔除，真正实现了数据质量的闭环管理。

七、总结与展望

中国电信星海·高质量数据集平台不仅仅是一个工具集，它是对AI数据工程（Data Engineering）的一次标准化实践。通过信通院的首批认证，也从侧面印证了其架构的先进性与稳定性。

对于开发者而言，星海·高质量数据集平台带来的价值在于：

全过程覆盖：从采集到回流的一站式体验，消除了多工具切换的摩擦成本。
效率革命：流水线化作业将数据处理效率提升3-5倍。
资产沉淀：将散落在个人电脑里的脚本和数据，通过数据门户转化为可复用、可版本管理的企业级数据资产。

在大模型参数量向万亿级迈进的今天，构建一套标准化、自动化的高质量数据底座，将是所有AI团队不可逾越的必修课。

参考资料 / Reference 本文涉及的技术架构与性能指标引自：《中国电信星海·高质量数据集平台产品白皮书 (V2.2)》及中国信通院专项评测报告。该白皮书详细阐述了基于 DAG 的算子编排、存算分离架构设计及多模态数据处理的最佳实践，感兴趣的读者可关注官方渠道获取完整版，或在评论区深入交流。

架构解析 | 解构PB级AI数据工程：中国电信“星海·高质量数据集平台”的DAG调度与算子编排实践

一、 背景：从“炼丹”到“工业化生产”的工程鸿沟

二、 核心解法：打造“采-加-标-管-评”全生命周期工具链

三、 底层架构：DAG调度与流批一体引擎