第三阶段:数据清洗与去重(提升数据质量)
本阶段是大模型研发中最耗时的环节之一,核心目标是去除低质、无效、冗余数据,修复数据错误,确保数据的准确性、一致性与可用性,为后续标注、训练奠定基础。
3.1 基础清洗
• 无效内容过滤:去除数据中的乱码、特殊符号(如无意义的表情、符号组合)、无意义重复字符(如“aaaaa”),过滤广告、垃圾页面、机器翻译劣质文本(如语法混乱、语义不通的文本)。
• 格式修复:修复数据中的断句混乱、换行错误、标点符号错误,统一文本格式(如统一大小写、标点符号规范),确保文本可读性。
• 短文本过滤:根据数据质量标准,过滤长度过短、无实际意义的短句(如仅1-2个字符、无语义的文本),避免无效数据参与训练。
3.2 精确去重与近似去重
• 完全重复去重:删除完全一致的文本(如重复采集的同一篇文章、完全相同的对话样本),确保数据无冗余。
• 模糊去重:采用段落级、句子级模糊去重算法,去除高度相似的文本(如仅修改个别词语、语序调整的文本),避免模型过度拟合单一内容。
• 跨集去重:确保训练集、验证集、测试集之间无交叉数据,避免数据泄漏,确保模型评估结果的准确性;同时对不同数据源的重复数据进行去重,避免同一内容多次参与训练。
3.3 质量过滤
• 语种过滤:通过语言识别模型,剔除非目标语种的文本(如规划中文数据,剔除英文、日文等无关文本),确保数据语种的一致性。
• 自然度过滤:采用perplexity(困惑度)指标,过滤语言模型认为“不自然”的文本(如语法混乱、语义不通、逻辑矛盾的文本),提升数据的语言质量。
• 专业领域过滤:针对垂域大模型,邀请领域专家对数据进行审核,过滤专业错误、误导性内容(如法律数据中的法条错误、医疗数据中的诊疗错误),确保数据的专业性。
• 敏感内容二次过滤:再次筛选数据中的色情、暴力、政治敏感、歧视性内容,采用规则过滤+人工抽检结合的方式,确保数据符合安全红线要求。
输出物:清洗后高质量语料库、清洗规则配置文件、数据质量评分表、清洗报告(含清洗前后数据对比)。