【论文泛读】How Can We Accelerate Progress Towards Human-like Linguistic Generalization?

85 阅读1分钟

评价指标
作者:Tal Linzen
添加链接描述
添加链接描述
添加链接描述
获奖理由:
让我们深思使用pipeline预训练的流程搭建和评估NLP模型的适当性
提议:让我们重新思考我们当前的范式和评估性能关于样本效率、可解释性和规范性评价
论文摘要:
本文描述并批判了预训练前不可知的同分布(PAID)评估范式,它已成为衡量自然语言理解进步的一个核心工具。该范式包括三个阶段:
(1)在任意大小的语料库上预训练单词预测模型;
(2)对表示分类任务的训练集进行微调(迁移学习);
(3)对与训练集相同分布的测试集进行评估。
这种范式倾向于简单、低偏差的体系结构,首先,我们可以对其进行扩展以处理大量数据;其次,可以捕获特定数据集的细粒度统计属性,不管这些属性是否可能推广到数据集之外的任务示例。这与人类形成了鲜明对比,人类从比这种评估范式所支持的系统少几个数量级的数据中学习语言,并且以一致的方式推广到新任务。我们提倡用奖励架构的范例来补充或取代PAID,这种架构能像人类一样快速而有力地进行推广。