AllData 数据中台集成 DataFlow,建设大模型高质量数据集平台

4 阅读5分钟

引导图.png

企业痛点: 企业做 AI、训大模型、搞 RAG,最头疼的不是模型,而是数据:

  • 业务数据散在 MySQL、Doris、日志、IoT,孤岛林立,没法直接喂模型
  • 人工标注慢、成本高、质量参差不齐,百万条数据要数月,还容易出错
  • 合成数据缺标准、缺工具、缺流程,脚本满天飞、 pipeline 不可复用、效果不可控
  • 传统数据中台只管 “存、洗、算”,没有大模型数据生成能力,AI 和数据两张皮

解决方案: 建设一站式高效生产大模型训练数据的高质量数据集平台

  • 支持HIS、LIS、PACS、EMR医疗行业数据接入
  • 支持PLM, ERP, MES等工业制造信息系统数据接入
  • 支持非结构化数据:办公文档、文本、图片、各类报表、图像、音频、视频

数据质量决定模型上限 —— 没有高质量、规模化、领域对齐的训练 / 微调数据,再强的大模型也跑不出业务价值。

我们基于开源项目 DataFlow 框架深度集成,把 “数据中台底座 + 大模型数据工厂” 合二为一,一站式搞定从业务数据接入→合成→治理→评估→模型应用全链路,零代码 / 低代码,开箱即用,实现高效生产大模型训练数据的高质量数据集平台。

💎 DataFlow开源项目: github.com/OpenDCAI/Da…

💎 DataFlow官方文档: opendcai.github.io/DataFlow-Do…

7d71cf6b5af98322be7fb6453ae8fa42.jpg

什么是 DataFlow?

DataFlow核心定位是以数据为中心的 AI 基础设施,专为大模型训练与 RAG 场景打造,解决数据处理碎片化、复现难的问题。

核心能力 模块化算子体系:196+ 算子覆盖通用 / 领域专用 / 评估等,支持拖拽组合成可复用流水线。

智能 Agent 编排:自然语言驱动自动拆解任务、动态组装与优化流程。

全链路数据处理:从嘈杂源(PDF、文本、低质 QA)生成、清洗、评估到过滤高质量数据,支撑预训练、SFT、RL 与 RAG GitHub。

多格式与领域支持:兼容 JSON/JSONL/CSV 等,在医疗、金融、法律等领域验证有效。

与 AllData 集成价值

在 AllData 数据中台内,DataFlow 负责数据集构建与治理,提供算子库、Text2SQL 数据集切换、大模型服务 / 数据库管理等能力,端到端保障高质量数据输入,提升大模型应用效果与项目交付效率。

69e3fbd253e4f9f08e1d023428523ae7.jpg

四大模块,覆盖大模型数据全生命周期?

(1)数据接入与底座打通(AllData 原生能力)

(2)大模型数据智能生成(DataFlow 核心)

(3)数据治理与质量管控(AllData+DataFlow 双引擎)

(4)模型应用与闭环(AllData 全链路输出)

37f26db30f67aa3ef24f62d0013b4585.png

功能菜单一:大模型数据生成

提供可视化拖拽编排,支持从多源数据清洗、增强、合成到过滤、去重、标注的全链路自动化 Pipeline,可批量生成高质量 SFT/RLHF 训练集、Text-to-SQL、问答对、推理数据,一键导出合规数据集,大幅降低大模型数据生产门槛与成本。

(1)高质量数据集平台-AllData数据中台-数据资产平台

b7c0219a217bba13c86d4592de38c1fa.png

b48e098382ca6a8f712e6423060d9b2a.png

(2)高质量数据集平台-大模型数据集(支持上传数据集作为企业知识库)

支持通用场景数据集快速创建与编辑,可对文本、问答等基础数据进行导入、预览、筛选与导出,满足日常大模型训练数据标准化管理需求。

2.1 上传大数据中台-数据同步日志作为数据集

0b4366d6cda30691b0fb9a2f14c6e3d3.png

2.2 上传数据资产平台-中国船泊数据,支持千万数量级样本上传

0c790413624c4e05b3e604f16e4db864.png

2.3 上传AI大模型-工业制造运维排查日志-数据集 5ef6018e2a4f690ab77f207a5e516db5.png

(3)高质量数据集平台-数据集-Text2sQL

面向 Text2SQL 场景专项构建数据集,支持自然语言问句与 SQL 语句自动配对生成、校验及标注,为模型训练提供高质量语义查询数据集。 b60f96e8a5d3b524f0b6efbbf7639ed5.png

(4)高质量数据集平台-流水线

通过可视化编排自动化任务,实现数据集批量生成、处理与全流程智能执行。

b5a345a914814f432363c1c390ff6a8d.png

(5)高质量数据集平台-自定义流水线

7aa3b2aed3deac1413db7c488fa398d9.png

(6)高质量数据集平台-真实案例演示

1.1 输入数学大模型数据集-导入数据大模型初始数据.json

26d66990fc254c4a19707845e617fed4.png

1.2 运行成功,大模型自动完成数据训练数据生成-处理算子,经过高质量数据集平台自动生成适合大模型的训练数据

7f7fbee42b598c7ed72dbf98ee846902.png

1.3 一站式高效生成大模型数据集训练数据,成功! 成功导出-数学大模型训练数据.json,给出Solution值,更加利于大模型训练。

bd6b76a314dbcba9cc29493fd3701bfc.png

(7)高质量数据集平台-切换大模型数据集

支持在大模型高质量数据集间快速切换,方便对不同通用数据集进行编辑与生成操作。 4bbf8bc8523090f2b5565c2d31d701f3.png

(8)高质量数据集平台-切换数据集(Text2sQL)

支持快速切换 Text2SQL 专用数据集,便捷开展问句与 SQL 配对数据管理。 372cd4721c0348c5e79a01ca9bb427e0.png

(9)高质量数据集平台-算子库

提供196+丰富的数据处理算子,支持拖拽组合,实现数据清洗、增强与生成流程编排。 5cb3369b5aed6b943d14f0599ad0ea64.png

功能菜单二:大模型服务管理

统一管理大模型接入配置、密钥与调用权限,保障 AI 服务稳定可靠运行

(1)高质量数据集平台-大模型服务管理

36798a07aa1bc2a1d35c0254de1e07a0.png

功能菜单三:大模型数据库管理

统一管理向量库与业务数据库,支持连接配置、数据存储及高效检索服务。

(1)高质量数据集平台-大模型数据库管理 0acbdf2029b3305e32d5e504e788095f.png 5a958782f3055d931b914d5074230b92.png

AllData 大数据产品 × DataFlow 开源项目 

AllData 数据中台,从 “数据整合者” 升级为高质量数据集平台—— 集成 DataFlow,真正打通数据到 AI 的最后一公里。
不管你是要训行业大模型、做 RAG 知识库、优化智能应用,还是解决数据标注痛点,AllData-DataFlow 都能一站式搞定。 e1629680649873b81d4203ded28eec84.png

杭州奥零数据科技官网:www.aolingdata.com