某中心发布51种语言理解数据集
数据集概览
MASSIVE数据集包含100万条标注语料,涵盖51种类型学多样语言,包含18个领域、60种意图和55个槽位。该平行数据集的特点是每条语句均提供全部51种语言版本,支持跨语言训练和知识迁移。
技术特性
- 多语言建模:基于XLM-R和mT5模型建立基线结果
- 零样本学习:支持仅用英语数据训练后泛化至50种非英语语言
- 任务支持:支持意图分类、槽位填充等自然语言理解任务
- 扩展应用:可应用于机器翻译、多语言复述等NLP任务
竞赛与工作坊
- MMNLU-22竞赛:包含全语言训练和零样本学习两个赛道
- 评估时间线:7月25日发布评估集,8月8日截止提交
- EMNLP工作坊:12月在阿布扎比和线上同步举行,展示竞赛成果
技术意义
该数据集通过专业翻译人员将英语SLURP数据集本地化为50种语言,采用CC BY 4.0许可促进学术和工业界使用。零样本学习技术有望将NLU能力扩展至全球7000多种语言中的低资源语言。
模型优势
多语言模型通过学习跨语言共享表示,实现从高资源语言向低资源语言的知识迁移,显著提升语言理解的覆盖范围和技术普惠性。