51种语言理解数据集发布与多语言NLU技术突破

用户576110558132

2025-09-26 59 阅读1分钟

某中心发布51种语言理解数据集

数据集概览

MASSIVE数据集包含100万条标注语料，涵盖51种类型学多样语言，包含18个领域、60种意图和55个槽位。该平行数据集的特点是每条语句均提供全部51种语言版本，支持跨语言训练和知识迁移。

技术特性

多语言建模：基于XLM-R和mT5模型建立基线结果
零样本学习：支持仅用英语数据训练后泛化至50种非英语语言
任务支持：支持意图分类、槽位填充等自然语言理解任务
扩展应用：可应用于机器翻译、多语言复述等NLP任务

竞赛与工作坊

MMNLU-22竞赛：包含全语言训练和零样本学习两个赛道
评估时间线：7月25日发布评估集，8月8日截止提交
EMNLP工作坊：12月在阿布扎比和线上同步举行，展示竞赛成果

技术意义

该数据集通过专业翻译人员将英语SLURP数据集本地化为50种语言，采用CC BY 4.0许可促进学术和工业界使用。零样本学习技术有望将NLU能力扩展至全球7000多种语言中的低资源语言。

模型优势

多语言模型通过学习跨语言共享表示，实现从高资源语言向低资源语言的知识迁移，显著提升语言理解的覆盖范围和技术普惠性。