核心问题
直接上干货。经典的中文情感分析数据集 ChnSentiCorp 的官方训练文件 train.tsv 中,存在明显的标签噪声。我们定位并整理了其中 39 个高置信度的错误样本,并已开源,旨在帮助大家提升数据质量和模型性能。
错误类型分析
问题样本主要分为两类,即情感倾向与标注标签完全相反。
1. 正面文本被误标为负面 (Original Label: 0)
-
问题: 文本情感为正面,原始标签为
0 (负面)。 -
示例:
随着孩子的长大,这本书居然成了孩子的最爱(1岁7个月),连着2个多月,睡前必要这本书。...宝贝女儿也抬头等我说“我爱你”
-
结论: 文本含“最爱”、“我爱你”等强积极信号,原始标签
0明显错误。
2. 负面文本被误标为正面 (Original Label: 1)
-
问题: 文本情感为负面,原始标签为
1 (正面)。 -
示例:
...简直很气人!...酒店也太不负责了,为了自己的入住率就随意取消客人的预定。一点都不配万丽的作风和职业道德。
-
结论: 文本含“很气人”、“不负责”、“不配”等强负面信号,属典型投诉,原始标签
1明显错误。
开源资源与解决方案
我们已将所有发现的错误样本整理并开源,方便社区直接使用。
仓库核心文件:
data/chnsenticorp_label_issues.csv
-
这是修正问题的核心文件,包含 39 条错误数据。
-
列结构:
评论文本,原始标签,修正后标签,错误分析。
data/train.tsv
-
原始训练文件,供交叉验证和对比。
如何在你的工作流中应用?
你可以用这份资料来:
-
数据清洗: 在模型训练前,直接使用
chnsenticorp_label_issues.csv修正train.tsv中的错误标签,从源头提升数据质量。 -
鲁棒性评估: 将这 39 个样本作为特定的测试集,用以评估你的模型在面对标签噪声时的表现和鲁棒性。
-
问题排查: 如果你的模型在 ChnSentiCorp 上表现异常或在某些样本上持续出错,可以对照此列表进行排查。
总结
数据质量决定模型上限。希望这份资料能为社区节省一些在数据问题上排查和调试的时间。如果对你有用,欢迎为项目点亮 Star 🌟。