企业痛点: 企业做 AI、训大模型、搞 RAG,最头疼的不是模型,而是数据:
- 业务数据散在 MySQL、Doris、日志、IoT,孤岛林立,没法直接喂模型
- 人工标注慢、成本高、质量参差不齐,百万条数据要数月,还容易出错
- 合成数据缺标准、缺工具、缺流程,脚本满天飞、 pipeline 不可复用、效果不可控
- 传统数据中台只管 “存、洗、算”,没有大模型数据生成能力,AI 和数据两张皮
解决方案: 建设一站式高效生产大模型训练数据的高质量数据集平台
- 支持HIS、LIS、PACS、EMR医疗行业数据接入
- 支持PLM, ERP, MES等工业制造信息系统数据接入
- 支持非结构化数据:办公文档、文本、图片、各类报表、图像、音频、视频
数据质量决定模型上限 —— 没有高质量、规模化、领域对齐的训练 / 微调数据,再强的大模型也跑不出业务价值。
我们基于开源项目 DataFlow 框架深度集成,把 “数据中台底座 + 大模型数据工厂” 合二为一,一站式搞定从业务数据接入→合成→治理→评估→模型应用全链路,零代码 / 低代码,开箱即用,实现高效生产大模型训练数据的高质量数据集平台。
💎 DataFlow开源项目: github.com/OpenDCAI/Da…
💎 DataFlow官方文档: opendcai.github.io/DataFlow-Do…
什么是 DataFlow?
DataFlow核心定位是以数据为中心的 AI 基础设施,专为大模型训练与 RAG 场景打造,解决数据处理碎片化、复现难的问题。
核心能力 模块化算子体系:196+ 算子覆盖通用 / 领域专用 / 评估等,支持拖拽组合成可复用流水线。
智能 Agent 编排:自然语言驱动自动拆解任务、动态组装与优化流程。
全链路数据处理:从嘈杂源(PDF、文本、低质 QA)生成、清洗、评估到过滤高质量数据,支撑预训练、SFT、RL 与 RAG GitHub。
多格式与领域支持:兼容 JSON/JSONL/CSV 等,在医疗、金融、法律等领域验证有效。
与 AllData 集成价值
在 AllData 数据中台内,DataFlow 负责数据集构建与治理,提供算子库、Text2SQL 数据集切换、大模型服务 / 数据库管理等能力,端到端保障高质量数据输入,提升大模型应用效果与项目交付效率。
四大模块,覆盖大模型数据全生命周期?
(1)数据接入与底座打通(AllData 原生能力)
(2)大模型数据智能生成(DataFlow 核心)
(3)数据治理与质量管控(AllData+DataFlow 双引擎)
(4)模型应用与闭环(AllData 全链路输出)
功能菜单一:大模型数据生成
提供可视化拖拽编排,支持从多源数据清洗、增强、合成到过滤、去重、标注的全链路自动化 Pipeline,可批量生成高质量 SFT/RLHF 训练集、Text-to-SQL、问答对、推理数据,一键导出合规数据集,大幅降低大模型数据生产门槛与成本。
(1)高质量数据集平台-AllData数据中台-数据资产平台
(2)高质量数据集平台-大模型数据集(支持上传数据集作为企业知识库)
支持通用场景数据集快速创建与编辑,可对文本、问答等基础数据进行导入、预览、筛选与导出,满足日常大模型训练数据标准化管理需求。
2.1 上传大数据中台-数据同步日志作为数据集
2.2 上传数据资产平台-中国船泊数据,支持千万数量级样本上传
2.3 上传AI大模型-工业制造运维排查日志-数据集
(3)高质量数据集平台-数据集-Text2sQL
面向 Text2SQL 场景专项构建数据集,支持自然语言问句与 SQL 语句自动配对生成、校验及标注,为模型训练提供高质量语义查询数据集。
(4)高质量数据集平台-流水线
通过可视化编排自动化任务,实现数据集批量生成、处理与全流程智能执行。
(5)高质量数据集平台-自定义流水线
(6)高质量数据集平台-真实案例演示
1.1 输入数学大模型数据集-导入数据大模型初始数据.json
1.2 运行成功,大模型自动完成数据训练数据生成-处理算子,经过高质量数据集平台自动生成适合大模型的训练数据
1.3 一站式高效生成大模型数据集训练数据,成功! 成功导出-数学大模型训练数据.json,给出Solution值,更加利于大模型训练。
(7)高质量数据集平台-切换大模型数据集
支持在大模型高质量数据集间快速切换,方便对不同通用数据集进行编辑与生成操作。
(8)高质量数据集平台-切换数据集(Text2sQL)
支持快速切换 Text2SQL 专用数据集,便捷开展问句与 SQL 配对数据管理。
(9)高质量数据集平台-算子库
提供196+丰富的数据处理算子,支持拖拽组合,实现数据清洗、增强与生成流程编排。
功能菜单二:大模型服务管理
统一管理大模型接入配置、密钥与调用权限,保障 AI 服务稳定可靠运行
(1)高质量数据集平台-大模型服务管理
功能菜单三:大模型数据库管理
统一管理向量库与业务数据库,支持连接配置、数据存储及高效检索服务。
(1)高质量数据集平台-大模型数据库管理
AllData 大数据产品 × DataFlow 开源项目
AllData 数据中台,从 “数据整合者” 升级为高质量数据集平台—— 集成 DataFlow,真正打通数据到 AI 的最后一公里。
不管你是要训行业大模型、做 RAG 知识库、优化智能应用,还是解决数据标注痛点,AllData-DataFlow 都能一站式搞定。
杭州奥零数据科技官网:www.aolingdata.com