首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
人工智能数据集建设
据吉网
创建于2026-04-07
订阅专栏
分享人工智能数据集建设工作中的心得,抛砖引玉,希望对同行有所帮助。
暂无订阅
共3篇文章
创建于2026-04-07
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
人工智能数据集建设全流程详解(之三)
第三阶段:数据清洗与去重(提升数据质量) 本阶段是大模型研发中最耗时的环节之一,核心目标是去除低质、无效、冗余数据,修复数据错误,确保数据的准确性、一致性与可用性,为后续标注、训练奠定基础。 3.1
人工智能数据集建设全流程详解(之二)
第二阶段:数据采集与获取(保障数据供给) 本阶段核心目标是按照设计方案,合法、高效地获取所需数据,完成原始数据的聚合与初步处理,确保数据的完整性与合规性。 2.1 公开数据爬取与聚合 • 爬虫开发与优
人工智能数据集建设全流程详解(之一)
第一阶段:数据集设计(上游核心,决定模型上限)** 本阶段核心目标是明确“需要什么样的数据”,结合模型定位,完成数据需求规划、来源规划及结构设计,为后续数据采集与处理提供明确依据。 1.1 明确模型定