【避坑指南】经典数据集 ChnSentiCorp 存在 39 个致命标签错误,修正列表已开源

99 阅读2分钟

核心问题

直接上干货。经典的中文情感分析数据集 ChnSentiCorp 的官方训练文件 train.tsv 中,存在明显的标签噪声。我们定位并整理了其中 39 个高置信度的错误样本,并已开源,旨在帮助大家提升数据质量和模型性能。


错误类型分析

问题样本主要分为两类,即情感倾向与标注标签完全相反。

1. 正面文本被误标为负面 (Original Label: 0)
  • 问题: 文本情感为正面,原始标签为 0 (负面)

  • 示例:

随着孩子的长大,这本书居然成了孩子的最爱(1岁7个月),连着2个多月,睡前必要这本书。...宝贝女儿也抬头等我说“我爱你”

  • 结论: 文本含“最爱”、“我爱你”等强积极信号,原始标签 0 明显错误。

2. 负面文本被误标为正面 (Original Label: 1)
  • 问题: 文本情感为负面,原始标签为 1 (正面)

  • 示例:

...简直很气人!...酒店也太不负责了,为了自己的入住率就随意取消客人的预定。一点都不配万丽的作风和职业道德。

  • 结论: 文本含“很气人”、“不负责”、“不配”等强负面信号,属典型投诉,原始标签 1 明显错误。


开源资源与解决方案

我们已将所有发现的错误样本整理并开源,方便社区直接使用。

仓库地址:github.com/IIIIQIIII/C…

仓库核心文件:
  1. data/chnsenticorp_label_issues.csv
  • 这是修正问题的核心文件,包含 39 条错误数据。

  • 列结构: 评论文本, 原始标签, 修正后标签, 错误分析

  1. data/train.tsv
  • 原始训练文件,供交叉验证和对比。


如何在你的工作流中应用?

你可以用这份资料来:

  1. 数据清洗: 在模型训练前,直接使用 chnsenticorp_label_issues.csv 修正 train.tsv 中的错误标签,从源头提升数据质量。

  2. 鲁棒性评估: 将这 39 个样本作为特定的测试集,用以评估你的模型在面对标签噪声时的表现和鲁棒性。

  3. 问题排查: 如果你的模型在 ChnSentiCorp 上表现异常或在某些样本上持续出错,可以对照此列表进行排查。

总结

数据质量决定模型上限。希望这份资料能为社区节省一些在数据问题上排查和调试的时间。如果对你有用,欢迎为项目点亮 Star 🌟。

项目直达 👉 ChnSentiCorp-Label-Noise-Analysis