25 A Chain-of-Task Framework for Instruction Tuning of LLMs Based on CGEC

22 阅读3分钟

2025 COLING A Chain-of-Task Framework for Instruction Tuning of LLMs Based on Chinese Grammatical Error Correction

Over-correction​(过度纠正) is a critical issue for large language models (LLMs) to address Grammatical Error Correction (GEC) task, esp. for Chinese.

image.png

1. 模型 (LLMs-based Chain-of-Task)

Chain-of-Task

  1. 通过分解语法错误分析的过程来设计辅助任务,并调整训练任务的类型和组合,对LLM进行指令调优。
    • 辅助任务: 错误范围确定、错误类型分类、语法错误纠正。
  2. SFT 策略用于增强LLM性能
    • 一种两阶段的SFT策略,将一批训练数据样本作为一个整体来衡量其难度。
  3. 自动数据集标注算法避免额外的标注开销
    • 多粒度的数据集标注算法-> 生成CoTask 指令数据
image.png
  • 基于任务过程分解的CoTask(任务链)设计(Extract->Correct)
    • 解决同一问题时,LMs所需的先验知识和人类所需的先验知识是不完全一致的。(引入指令数据)
    • LLM可以通过使用“逐步”提示进行语法错误分析来生成内容,从而纳入必要的先验知识。(引入CoT)
    • CGEC的3个任务:error range determination, error type classification, and grammatical error correction
  • CoCGEC: CoTask任务指令构建
    • KLM=(r,t,c)K_{LM} = (r, t, c)
    • 3种不同粒度的错误范围:char-level, word-level, and sentence-level (clauses)。
    • 本工作提出多粒度算法基于Exact Match (EM) and Minimum Edit Distance (MED) metrics
      • the highest EM and the lowest MED
  • 具体指令见原文目录 (3步提示)

2. 背景知识

  1. GEC advancces are roughly classified as two groups: sequence-to-sequence (Seq2Seq) and sequence-to-edit (Seq2Edit).
    • Seq2Seq 依赖大规模标注数据 (sentence pairs)
    • Seq2Edit 依赖于预测每个标记的编辑标签(例如插入、删除等)来生成校正,因此在处理涉及词序的错误时存在缺陷(Xu等人,2022)。
  2. 中文更灵活,且不严格遵循主谓宾的句子模式。此外,汉语的语法关系是通过词序和语境来表达的,而不是通过词形变化来表达。
  3. 过度纠正会导致意想不到的语义变化,这严重阻碍了CGEC系统的有效性,因为它会削弱纠正语法错误而不引入不必要的变化的主要目标。
  4. Error Analysis Theory in linguistics 包含3步:1)identifying the error, 2)describing the error, and 3)explaining the error. (Corder, 1975)
  5. Auxiliary task learning for CGEC 大多是关注token级别和句子级别或两者将结合;本工作不依赖于目标任务的人类经验来设计辅助任务。
  6. LLM的课程学习(Curriculum learning):以往的课程学习策略主要集中在测量每个样本的难度,而我们的工作扩展到测量一批样本的整体难度,提供了一个更全面和有效的训练策略。
  7. 布鲁姆分类体系

3. 数据集

  • FCGEC (in-domain, fine-grained multi-reference) (Xu et al. (2022): github.com/xlxwalex/FC…
    • 7 种不同的错误类型
    • 此外,语料库中每个有语法错误的句子都对应一个甚至多个参考。
  • NaCGEC (out-of-domain,NLPCC 2023 Task 1): github.com/masr2000/Na…
image.png

4. Baselines

  • LM-combiner(缓解过度纠正): aclanthology.org/2024.lrec-m…
  • HWCGEC (Su et al., 2023) :1st on NLPCC 2023 Shared Task 1
  • GrammarGPT (Fan et al., 2023): 3rd on NLPCC 2023 Shared Task 1
  • GPT-4o (Achiam et al., 2023): 闭源

5. 实验结果

  • 评估指标:ChERRANT scorer (Zhang et al., 2022)
  • Qwen1.5-14B-Chat (Bai et al., 2023) as the foundation model for SFT
image.png image.png image.png

参考

  • 本工作的code & data (CoCGEC): github.com/lxp991108/C…
  • LLaMA-Factory framework (Zheng et al., 2024)
  • Curriculum Learning (CL) Bengio et al. (2009)

潜在不足与展望方向

  • 文中未报告较小模型(如0.5B)的性能。与小模型相比,参数量(14B)过大,可能存在非公平比较问题
  • 在开源代码中,只用到了word-level和Sentence-level
  • 自动化标注算法可能引入偏差和错误
  • EM 和 MED的权重分配不明