【避坑指南】经典数据集 ChnSentiCorp 存在 39 个致命标签错误，修正列表已开源

2025-10-06 114 阅读2分钟

核心问题

直接上干货。经典的中文情感分析数据集 ChnSentiCorp 的官方训练文件 train.tsv 中，存在明显的标签噪声。我们定位并整理了其中 39 个高置信度的错误样本，并已开源，旨在帮助大家提升数据质量和模型性能。

错误类型分析

问题样本主要分为两类，即情感倾向与标注标签完全相反。

1. 正面文本被误标为负面 (Original Label: 0)

问题: 文本情感为正面，原始标签为 0 (负面)。
示例:

随着孩子的长大，这本书居然成了孩子的最爱（1岁7个月），连着2个多月，睡前必要这本书。...宝贝女儿也抬头等我说“我爱你”

结论: 文本含“最爱”、“我爱你”等强积极信号，原始标签 0 明显错误。

2. 负面文本被误标为正面 (Original Label: 1)

问题: 文本情感为负面，原始标签为 1 (正面)。
示例:

...简直很气人！...酒店也太不负责了，为了自己的入住率就随意取消客人的预定。一点都不配万丽的作风和职业道德。

结论: 文本含“很气人”、“不负责”、“不配”等强负面信号，属典型投诉，原始标签 1 明显错误。

开源资源与解决方案

我们已将所有发现的错误样本整理并开源，方便社区直接使用。

仓库地址：github.com/IIIIQIIII/C…

仓库核心文件：

data/chnsenticorp_label_issues.csv

这是修正问题的核心文件，包含 39 条错误数据。
列结构: 评论文本, 原始标签, 修正后标签, 错误分析。

data/train.tsv

原始训练文件，供交叉验证和对比。

如何在你的工作流中应用？

你可以用这份资料来：

数据清洗: 在模型训练前，直接使用 chnsenticorp_label_issues.csv 修正 train.tsv 中的错误标签，从源头提升数据质量。
鲁棒性评估: 将这 39 个样本作为特定的测试集，用以评估你的模型在面对标签噪声时的表现和鲁棒性。
问题排查: 如果你的模型在 ChnSentiCorp 上表现异常或在某些样本上持续出错，可以对照此列表进行排查。

总结

数据质量决定模型上限。希望这份资料能为社区节省一些在数据问题上排查和调试的时间。如果对你有用，欢迎为项目点亮 Star 🌟。

项目直达 👉 ChnSentiCorp-Label-Noise-Analysis