解构PB级AI数据工程:中国电信“星海·高质量数据集平台”的DAG调度与算子编排实践

5 阅读4分钟

前言:在复旦 MOSS 团队等顶尖 AI 实验室的研发过程中,大家发现大模型的瓶颈已不再仅仅是算力,而是数据工程的效率 。尤其是“真·语音到语音”交互等前沿领域,视频切帧、语义对齐、特征提取等 Pipeline 对底层架构的弹性、跨模态算子协同提出了极高的要求 。

传统的本地 IDC 架构在面对高并发音视频处理时,常因 I/O 性能瓶颈或异构资源调度复杂度高而导致任务频繁失败 。本文将深入探讨中国电信人工智能科技有限公司研发的星海·高质量数据集平台,看它如何通过“能力层、引擎层、服务层”的三层架构,重构多模态数据集的生产范式 。

 一、 多模态数据工程的“暗礁”:为何自建 Pipeline 容易崩?

在处理 PB 级非结构化数据时,开发者通常会遇到以下三个系统性难题:

  1. 异构存储的读写壁垒:数据散落在 Ceph、HDFS、FTP 等异构组件中,缺乏统一的 Object Table 纳管体系,导致数据不可见、难检索 。
  2. 算力与算子的“错位” :推理类算子(需 GPU)与规则类算子(需 CPU)如果没有精准的预调度标记,会导致算力资源的极大浪费 。

 二、 架构深度拆解:星海·高质量数据集平台的分布式技术实现

为了解决上述问题,星海·高质量数据集平台构建了一套云原生的多模态处理引擎。

 1. “逻辑转义中枢”:DAG 构建与算子合并

星海·高质量数据集平台的核心单元具备“应用层意图转译”能力 。基于应用层提交的算子编排配置,平台会自动进行冗余合并优化 。

  • 实现原理:针对“同输入源+同算法”的节点进行算子合并,逆向生成整棵树的计算作业。

  • 内存加速:引入“虚拟点”概念,将 FS 标记为 Memory,利用二进制流代替实际文件写入,极大降低了 IO 损耗。

 2. 多级缓存策略:解决大文件加载痛点

针对音视频大文件,星海·高质量数据集平台设计了三级缓存机制以减少 IO 开销 :

  • 内存传递:临近 Executor 之间的小规模数据直接走内存。

  • 本地文件系统缓存:同容器执行时,共享 Local FS,解决大文件内存溢出场景。

  • 分布式文件系统缓存:利用远端文件系统(如 Ceph)加快并发读写。

3. 智能辅助标注:效率的“乘数效应”

在标注环节,星海·高质量数据集平台并非单纯依赖人工,而是构建了半自动化标注辅助系统 。通过智能预标注生成初始掩码,可减少人工操作量 50%-70%,整体效率提升 3-5 倍 。这对于需要大规模语料对齐的多模态项目来说,是成本结构的重构。


三、 质量评测:从“感性判断”到 L1-L5 等级化量化

很多团队在数据集完成后,无法给出准确的“质量画像”。星海·高质量数据集平台引入了严谨的评测报告体系

  • 六大维度度量:从有效性、一致性、规范性、完整性、重复性、安全性进行评分 。

  • 红线规则预警:支持配置关键质量红线,一旦命中直接判定为不合格,防止“有毒数据”进入训练流程。

  • 人工校验闭环:通过“自动评测+人工复核”的双重机制,确保评测结论在真实业务场景中的可用性。


四、 选型思考:多模态数据集生产平台推荐

对于正处于模型起步期或数据规模爆发期的团队,星海·高质量数据集平台 提供了一个稳定且可扩展的生产基座 。

  • 对于算法工程师:它提供了 100+ 种开箱即用的处理算子,支持 Python 工程自定义逻辑,让研发重心回归算法模型本身。
  • 对于架构师:它实现了全模态采、存、管、算、用的全生命周期管理,支持 K8S 容器化资源治理和 HPA 动态扩缩容,解决了底层设施的运维焦虑。
  • 对于安全合规官:内置的隐私脱敏与内容安全过滤(涉政、涉黄、涉暴检测)能有效降低合规风险。

总结星海·高质量数据集平台通过对数据工程流水线的标准化,将多模态数据处理从“零散脚本”提升到了“系统化生产”的高度 。在“数据决定模型上限”的今天,这样一套具备深度治理能力的生产平台,无疑是释放企业数据潜能的关键路径。

更多技术细节可访问平台地址查阅官方白皮书: xhai.teleai.com.cn/