百度的ERNIE 3.0人工智能模型在语言理解基准上或“超越人类”

968 阅读3分钟

来自百度的研究团队发表了一篇关于3.0版本的Enhanced Language RepresentatioN with Informative Entities(ERNIE)的论文,这是一个自然语言处理(NLP)深度学习模型。该模型包含10B个参数,在SuperGLUE基准测试中取得了新的最先进的分数,超过了人类的基线分数。

百度博客上的一篇文章对该模型和几个实验进行了描述。与其他大多数只在非结构化文本上训练的深度学习NLP模型不同,ERNIE的训练数据包括结构化的知识图谱数据,这有助于模型输出更连贯的反应。该模型由Transformer-XL"骨干"组成,将输入编码为潜伏表示,同时还有两个独立的解码器网络:一个用于自然语言理解(NLU),另一个用于自然语言生成(NLG)。除了在SuperGLUE上创造了新的最高分,取代了微软和谷歌,ERNIE还在54个中文NLP任务上创造了新的最先进的分数。

虽然只在文本上训练的大型深度学习模型,如OpenAI的GPT-3或谷歌的T5,在各种各样的问题上表现良好,但研究人员发现这些模型往往在一些NLU任务中不能够胜任,这些任务需要输入文本中不存在的内容。为了解决这个问题,2019年初,清华大学的研究人员开源了ERNIE的第一个版本,这是一个结合文本和知识图谱数据的模型;同年晚些时候,百度发布了2.0版本,这是第一个在GLUE基准上得分高于90的模型。

与GPT-3和其他模型一样,ERNIE 3.0也是使用几个无监督学习任务对文本进行预训练,包括屏蔽和语言建模。为了将知识图谱数据纳入训练过程,百度团队创建了一个新的预训练任务,称为通用知识-文本预测(UKTP)。在这个任务中,模型得到了一个来自百科全书的句子以及该句子的知识图谱表示,其中部分数据被随机屏蔽;然后模型必须预测出被屏蔽数据的正确值。总体而言,训练数据集有4TB,是迄今为止最大的中文文本语料库。

研究人员评估了ERNIE在几个下游任务上的表现。对于NLU,研究小组在45个不同的数据集上对模型进行了微调,这些任务包括情感分析、新闻分类、命名实体识别和文档检索;对于NLG,9个数据集和7个任务,包括文本总结、闭卷答题、机器翻译和对话生成。在所有任务中,ERNIE都创造了新的最先进的性能分数。为了衡量零散的NLG性能,人类注释者被要求对ERNIE和其他三个模型的输出进行评分。根据这些结果,ERNIE产生了 "平均来说最连贯、最流畅和最准确的文本"。

神经符号计算,即深度学习神经网络模型与"良好的人工智能"技术的结合,是一个活跃的研究领域。2020年,清华大学的一个团队与加拿大的研究人员合作,制作了KEPLER,它是根据维基百科的文本内容与结构化的维基百科知识库相结合而训练的。最近,麻省理工学院的一个团队将GPT-3深度学习模型与符号世界状态模型相结合,以提高GPT-3文本生成的连贯性,来自伯克利的研究人员将一个神经答题系统与一个名为Dr.Fill的 "经典人工智能 "字谜解题器相结合。

虽然百度没有发布ERNIE 3.0的代码和模型,但GitHub上有2.0版本。在百度的网站上还有ERNIE 3.0的互动演示

原文链接:Baidu's ERNIE 3.0 AI Model Exceeds Human Performance on Language Understanding Benchmark (infoq.com)