吉兹语,古老的古典埃塞俄比亚语,现在只作宗教用途。
ACM Trans. Asian Low-Resour. Lang. Inf. Process., Vol. 24, No. 3, Article 30. Publication date: March 2025.
吉兹语
1. 模型
- Preprocessing
- BiLSTM & LSTM
2. 背景知识
- Geéz language grammar is a set of rules, which are used to form Geéz language sentences[2].
- Grammar error handling (GEH) includes grammar error detection and grammar error correction.
- Geéz 语言必须遵循一致性规则:单复数、人称、性别、时态及其他。Geez语言的语法错误涉及主谓一致问题。与其它自然语言不同,Geez语言拥有独特的主谓一致结构。
- NMT-based 方法中,Encoder负责检查语法错误的句子,Decoder负责更正语法错误的句子。
- 相关工作中提及的其他语言工作包括:Arabic Grammar Error Detection、Amharic Grammar Checker、Tigrigna Grammar Checker
3. 数据集
- 人工收集了 11,490 Geéz并行语料
- 分为五类: Adjective Noun Disagreement (ADJND), Adverb Verb Disagreement (ADVD), Object Verb Disagreement (OVD), Subject Verb Object Disagreement (SVO) , and Correct Out of Correct (COC) 【14】
- Preprocessing5个组成部分:normalization, tokenization, sequencing, labeling, and padding.
- Synthetic Minority Over-sampling Technique (SMOTE)
- Post-padding
4. Baselines
BiLSTM & LSTM
5. 实验结果
- 评估指标:precision, recall, and F1-score
- BILSTM with Balanced Error Type Class 效果更好
- Accuracy: 82.3%; Macro F1-score: 85.7%
潜在不足与展望
- 只用了BiLSTM和LSTM,没有比较最新的模型,如BERT、GPT等。
- 可以进一步对比其他低资源的语言
- 近似的语言,如甲骨文(oracle)
- Ovd和Coc的效果不够好,尤其是Coc在BiLSTM上还下降了。
- need a more extensive Geéz language corpus.