【摘要】 在数据决定模型天花板的共识下,构建一套标准化、自动化的高质量数据底座,将是所有AI团队不可逾越的必修课。面对海量多模态数据处理的碎片化痛点,中国电信“星海·高质量数据集平台”通过打造覆盖采集、预处理、标注、合成、评测、安全、管理及数据回流的全链路工具链,实现了AI数据生产的工业化转型。该平台近期已首批通过中国信通院“高质量数据集开发运营平台能力”专项测试,其架构实践为行业提供了标准范式。
一、 背景:从“炼丹”到“工业化生产”的工程鸿沟
随着Scaling Law(缩放定律)的验证,大模型对数据的需求呈现指数级增长。然而在实际工程落地中,算法团队面临着严峻的“数据债”:
- 工具链割裂:清洗用脚本、标注用外包工具、管理用Excel,缺乏统一的平台支撑。
- 数据孤岛:采集、处理与模型训练环节脱节,数据无法形成闭环回流。
- 长尾样本缺失:自动驾驶中的极端天气、工业质检中的罕见缺陷,真实数据难以采集。
为了解决这些System 2层面的工程难题,星海·高质量数据集平台应运而生。它不是一个简单的工具箱,而是一套基于云原生架构的DataOps基础设施。
二、 核心解法:打造“采-加-标-管-评”全生命周期工具链
区别于传统单点工具,星海平台构建了端到端的数据生产流水线,实现了从原始数据到高质量数据集的无缝流转:
- 全模态采集与接入:支持结构化与非结构化(图像、视频、音频)多源异构数据的统一接入,单次同步能力达TB级别。
- 自动化预处理:内置清洗、去重、格式转换等标准化流程,大幅降低人工介入成本。
- 智能标注:采用“AI预标+人工精修”模式,配合多级质检机制,保障标注准确率。
- 数据合成与增强:针对长尾场景,利用AIGC技术生成合成数据,补全样本短板。
- 动静结合评测:融合静态规则校验与动态模型效果反馈,全维度评估数据质量。
- 安全与合规:内嵌数据脱敏、隐私检测算子,确保数据流通符合安全规范。
- 统一资产管理:通过数据门户(Data Portal)实现数据集的版本控制、血缘追踪与权限共享。
- 数据回流闭环:打通训练侧与数据侧,支持Bad Case即时回流至平台进行再清洗与再迭代,形成数据飞轮。
三、 底层架构:DAG调度与流批一体引擎
为了支撑上述全链路的高效运转,星海·高质量数据集平台底层采用存储计算分离架构,核心引擎层实现了从“业务逻辑”到“物理执行”的完美转译。
1. 逻辑转义中枢:DAG的动态构建
在多模态数据处理中,最大的痛点是算子的组合与复用。平台设计了独特的多模态引擎核心单元,作为配置解析与逻辑编排层。
- 配置即代码:用户在前端拖拽生成的流程,会被解析器转化为结构化的DAG(有向无环图)。
- 算子融合优化(Chain Loop) :引擎会自动分析算子依赖关系。例如,对于同源数据的连续变换(如
node_1->filter->resize),引擎会将多个逻辑算子合并为一个物理Map函数,大幅减少中间数据的序列化与反序列化开销,提升执行效率。
2. 流批一体的分布式计算
底层计算载体采用Flink流批一体架构,实现了大规模数据的并行处理。
- 资源弹性(HPA) :利用K8s的HPA(Horizontal Pod Autoscaler)能力,根据任务负载(如CPU/Memory使用率、Kafka Lag堆积量)动态扩缩容计算节点,实现成本与性能的平衡。
- 异构调度:通过Node Label与Taint/Toleration机制,将推理类算子(如OCR、向量化)自动调度至GPU节点,将规则类算子(如正则过滤)调度至CPU节点,实现异构算力利用率最大化。
3. 多级缓存策略:打破I/O瓶颈
针对多模态数据(尤其是视频、大图)处理中的I/O密集型特征,平台设计了三级缓存机制:
- 内存通道:Executor内部及临近Executor之间,直接通过内存传递二进制流,实现**零拷贝(Zero-copy)**传输。
- 本地FS共享:同一Pod内的Executor共享本地文件系统缓存,解决超大文件无法全量加载进内存的问题。
- 分布式缓存:跨节点数据通过远端分布式文件系统(如HDFS/S3)进行加速,确保数据的一致性与持久化。
四、 算子工程:140+多模态能力的标准化封装
平台的核心资产是算子(Operators) 。星海·高质量数据集平台目前内置了超过140种多模态处理算子,覆盖了数据生产的全生命周期。
1. 丰富的内置算子库
- 基础清洗:图片去重、格式转换、文本正则清洗等。
- 智能分析:集成OCR、ASR(语音转文字)、NLP情感分析、向量嵌入等AI原子能力。
- 安全合规:内置涉黄、涉暴、涉政检测算子,以及隐私数据(人脸、车牌、PII信息)的自动化脱敏/掩码能力。
2. 开放的生态架构(Developer Friendly)
为了满足开发者的定制化需求,平台拒绝“黑盒”,提供了极强的扩展性。
- Python原生支持:基于Python构建AI原生工程环境,开发者只需遵循简单的
Input -> Process -> Output接口规范,即可将自定义Python脚本封装为标准算子。 - 深度学习框架集成:原生支持PyTorch/TensorFlow,方便直接调用HuggingFace或ModelZoo上的开源模型进行推理加速。
- 可视化编排:自定义算子发布后,可直接在画布中与内置算子混合编排,构建复杂的处理流水线。
五、 破局长尾:生成式AI的数据合成技术
当真实数据采集达到瓶颈时,“合成数据”成为Scaling Law的新燃料。星海·高质量数据集平台在数据工坊中集成了前沿的AIGC能力。
- 场景化生成: 针对自动驾驶、安防监控等场景,支持通过Prompt工程生成特定条件下的样本(如“暴雨天气的红绿灯路口”、“夜间模糊的人脸”)。这有效解决了Corner Case(长尾场景)数据稀缺的问题。
- 数据增强: 利用扩散模型(Diffusion Models)等技术,对小样本数据进行风格迁移、背景替换和语义增强,大幅提升训练集的泛化能力与多样性。
六、 质量闭环:动静结合的评测体系
数据质量不应只看“标注有没有对齐”,更要看“对模型有没有帮助”。星海平台构建了严密的闭环评测体系:
1. 静态规则校验
基于多维度指标(一致性、有效性、完整性、规范性)进行自动化打分。例如,自动检测图片分辨率是否达标、文本是否存在乱码、JSON格式是否合法。
2. 动态效果反馈(Loop)
这是星海平台的一大特色。平台支持基于训推效果的动态评测。通过将处理后的数据集投入小规模模型(Proxy Model)进行验证,根据Loss曲线或特定任务的Metric变化,反向评估数据集的质量。这种机制让数据治理从“经验驱动”转向了“实验驱动”。
3. 可追溯的质量报告与回流
评测报告支持下钻到具体的“Bad Case”。开发者可以直接定位到触发红线规则的异常样本(如曝光过度的图片),并支持一键回流至清洗环节进行二次处理或剔除,真正实现了数据质量的闭环管理。
七、 总结与展望
中国电信 星海·高质量数据集平台不仅仅是一个工具集,它是对AI数据工程(Data Engineering)的一次标准化实践。通过信通院的首批认证,也从侧面印证了其架构的先进性与稳定性。
对于开发者而言,星海·高质量数据集平台带来的价值在于:
- 全过程覆盖:从采集到回流的一站式体验,消除了多工具切换的摩擦成本。
- 效率革命:流水线化作业将数据处理效率提升3-5倍。
- 资产沉淀:将散落在个人电脑里的脚本和数据,通过数据门户转化为可复用、可版本管理的企业级数据资产。
在大模型参数量向万亿级迈进的今天,构建一套标准化、自动化的高质量数据底座,将是所有AI团队不可逾越的必修课。
参考资料 / Reference 本文涉及的技术架构与性能指标引自:《中国电信 星海·高质量数据集平台产品白皮书 (V2.2)》及中国信通院专项评测报告。该白皮书详细阐述了基于 DAG 的算子编排、存算分离架构设计及多模态数据处理的最佳实践,感兴趣的读者可关注官方渠道获取完整版,或在评论区深入交流。