人工智能数据集建设全流程详解（之三）第三阶段：数据清洗与去重（提升数据质量）本阶段是大模型研发中最耗时的环节之一，核心

第三阶段：数据清洗与去重（提升数据质量）

本阶段是大模型研发中最耗时的环节之一，核心目标是去除低质、无效、冗余数据，修复数据错误，确保数据的准确性、一致性与可用性，为后续标注、训练奠定基础。

3.1 基础清洗

• 无效内容过滤：去除数据中的乱码、特殊符号（如无意义的表情、符号组合）、无意义重复字符（如“aaaaa”），过滤广告、垃圾页面、机器翻译劣质文本（如语法混乱、语义不通的文本）。

• 格式修复：修复数据中的断句混乱、换行错误、标点符号错误，统一文本格式（如统一大小写、标点符号规范），确保文本可读性。

• 短文本过滤：根据数据质量标准，过滤长度过短、无实际意义的短句（如仅1-2个字符、无语义的文本），避免无效数据参与训练。

3.2 精确去重与近似去重

• 完全重复去重：删除完全一致的文本（如重复采集的同一篇文章、完全相同的对话样本），确保数据无冗余。

• 模糊去重：采用段落级、句子级模糊去重算法，去除高度相似的文本（如仅修改个别词语、语序调整的文本），避免模型过度拟合单一内容。

• 跨集去重：确保训练集、验证集、测试集之间无交叉数据，避免数据泄漏，确保模型评估结果的准确性；同时对不同数据源的重复数据进行去重，避免同一内容多次参与训练。

3.3 质量过滤

• 语种过滤：通过语言识别模型，剔除非目标语种的文本（如规划中文数据，剔除英文、日文等无关文本），确保数据语种的一致性。

• 自然度过滤：采用perplexity（困惑度）指标，过滤语言模型认为“不自然”的文本（如语法混乱、语义不通、逻辑矛盾的文本），提升数据的语言质量。

• 专业领域过滤：针对垂域大模型，邀请领域专家对数据进行审核，过滤专业错误、误导性内容（如法律数据中的法条错误、医疗数据中的诊疗错误），确保数据的专业性。

• 敏感内容二次过滤：再次筛选数据中的色情、暴力、政治敏感、歧视性内容，采用规则过滤+人工抽检结合的方式，确保数据符合安全红线要求。

输出物：清洗后高质量语料库、清洗规则配置文件、数据质量评分表、清洗报告（含清洗前后数据对比）。