25 TALLIP Geéz Grammar Error Handling Using Neural Machine Translation Approach

16 阅读1分钟

吉兹语,古老的古典埃塞俄比亚语,现在只作宗教用途。

ACM Trans. Asian Low-Resour. Lang. Inf. Process., Vol. 24, No. 3, Article 30. Publication date: March 2025.

吉兹语

1. 模型

  • Preprocessing
  • BiLSTM & LSTM

image.png

2. 背景知识

  • Geéz language grammar is a set of rules, which are used to form Geéz language sentences[2].
  • Grammar error handling (GEH) includes grammar error detection and grammar error correction.
  • Geéz 语言必须遵循一致性规则:单复数、人称、性别、时态及其他。Geez语言的语法错误涉及主谓一致问题。与其它自然语言不同,Geez语言拥有独特的主谓一致结构。
  • NMT-based 方法中,Encoder负责检查语法错误的句子,Decoder负责更正语法错误的句子。

image.png

image.png

  • 相关工作中提及的其他语言工作包括:Arabic Grammar Error Detection、Amharic Grammar Checker、Tigrigna Grammar Checker image.png

3. 数据集

  • 人工收集了 11,490 Geéz并行语料
    • 分为五类: Adjective Noun Disagreement (ADJND), Adverb Verb Disagreement (ADVD), Object Verb Disagreement (OVD), Subject Verb Object Disagreement (SVO) , and Correct Out of Correct (COC) 【14】
  • Preprocessing5个组成部分:normalization, tokenization, sequencing, labeling, and padding.
  • Synthetic Minority Over-sampling Technique (SMOTE)
  • Post-padding

image.png

image.png

4. Baselines

BiLSTM & LSTM

5. 实验结果

  • 评估指标:precision, recall, and F1-score
  • BILSTM with Balanced Error Type Class 效果更好
  • Accuracy: 82.3%; Macro F1-score: 85.7%

image.png image.png

image.png image.png

潜在不足与展望

  • 只用了BiLSTM和LSTM,没有比较最新的模型,如BERT、GPT等。
  • 可以进一步对比其他低资源的语言
  • 近似的语言,如甲骨文(oracle)
  • Ovd和Coc的效果不够好,尤其是Coc在BiLSTM上还下降了。
  • need a more extensive Geéz language corpus.