25 COLING Pseudo-label Data Construction Method and Syntax-enhanced Model

13 阅读2分钟

Pseudo-label Data Construction Method and Syntax-enhanced Model for Chinese Semantic Error Recognition (CSER) 面向汉语语义错误识别的伪标签数据构造方法与句法增强模型

  • 语义错误更注重复杂语义和句法。
  • CSER 围绕复杂语义级别错误,including collocation (搭配), missing(缺失), redundant(冗余), confusion(混淆), fuzziness(模糊), word order or illogical errors(词序或逻辑错误).

1. 模型(二分类)

  • PDC:Pseudo-label Data Construction method
  • DSA:Dependency Syntactic Attention mechanism 依存句法注意力
  • 二分类、交叉熵损失、F1,accuracy: image.png

image.png

pseudo-label generation:

  • perplexity-based prediction、model-based perdiction. -> consistent pseudo-labels

2. 背景知识

  1. Chinese text errors are divided into three categories:
  • spelling errors, 拼写
  • grammatical errors, 语法
  • semantic errors. 语义
  1. 任务不同:CSER & CGED
  • Chinese Semantic Error Recognition (CSER)
  • Chinese Grammatical Error Detection (CGED)
  1. 工具:
  1. 区别

image.png

3. 发现

  1. 对大模型没有深入对比分析
  2. 数据增强Pseudo-label data 起到了更大的作用(对比Table2 Syntax-RoBERTa与 Table 3),DSIN是已有工作的创新点
  3. 数据增强的比例在10%最佳
  4. 关联矩阵的维度为128最佳
  5. 生成pseudo-labels有两种策略,一种是基于模型,一种是基于困惑度。
  6. 本工作要点是 仅在微调阶段加入句法依赖信息。

4. 数据集

  • CoCLSA (Sun et al. 2022) image.png

  • 进一步,伪标签数语料构建(模型预测与困惑度计算结果一致性): image.png

  • Predict pseudo-label: 通过模型预测得到伪标签。

  • Calculate pseudo-perplexity机制理解:困惑度是如何在语言模型下作为序列概率的度量的。困惑度表示模型对文本序列的“惊讶”程度。困惑度越低,该序列更有可能更流畅。

5. case study

image.png

  • case 1: “值得”与“所” 语义重叠
  • case 2: “德育”与“教育”语义重叠

6. 参考